Усі публікації
AI Research 11 хв читання

Чому ми натренували власну embedding-модель

Готові embeddings працювали. Наша кастомна модель працювала драматично краще. Ось чого ми навчились про доменну специфіку.

Анна Роман
Lead Researcher
Apr 14, 2026

Кейс

Більшість наших клієнтів мають knowledge bases, каталоги продуктів, FAQ, внутрішня документація. Агент дістає релевантні чанки на момент запиту. Якість retrieval напряму керує якістю відповідей.

Почали з OpenAI text-embedding-3-large. Потім Cohere. Потім популярна open-source модель. Кожна була пристойна. Жодна не була чудовою для наших специфічних даних.

Тренування доменно-специфічної моделі

Ми fine-tune-или базову модель на 350M параметрів на 8M пар query-document із даних клієнтів (зі згодою та відповідним privacy-контролем). Тренування зайняло 4 дні на 8 H100.

Криві loss при тренуванні
Криві loss при тренуванні

Наша модель менша за text-embedding-3-large, але вимірно краща на нашому retrieval-бенчмарку. Domain-специфічність б'є чистий scale, коли домен достатньо концентрований.

Результати

Retrieval recall@5 на нашому бенчмарку виріс з 71% (найкраще off-the-shelf) до 88%. End-to-end якість відповіді (судили люди) покращилась на 14% абсолютних.

Публікуємо eval-методологію (не ваги, вони конкурентні). Методологія у нашому research GitHub repo.

#ml#research
Анна Роман
Lead Researcher

Веде наш applied ML research. Багато публікацій про multi-agent системи. Вважає, що хороші eval-и, це 80% хорошого AI.

Спробувати MyChatBot безкоштовно

Налаштуйте свого першого AI-агента за 10 хвилин. Картка не потрібна.

Безкоштовний пробний період