Кейс
Більшість наших клієнтів мають knowledge bases, каталоги продуктів, FAQ, внутрішня документація. Агент дістає релевантні чанки на момент запиту. Якість retrieval напряму керує якістю відповідей.
Почали з OpenAI text-embedding-3-large. Потім Cohere. Потім популярна open-source модель. Кожна була пристойна. Жодна не була чудовою для наших специфічних даних.
Тренування доменно-специфічної моделі
Ми fine-tune-или базову модель на 350M параметрів на 8M пар query-document із даних клієнтів (зі згодою та відповідним privacy-контролем). Тренування зайняло 4 дні на 8 H100.
Наша модель менша за text-embedding-3-large, але вимірно краща на нашому retrieval-бенчмарку. Domain-специфічність б'є чистий scale, коли домен достатньо концентрований.
Результати
Retrieval recall@5 на нашому бенчмарку виріс з 71% (найкраще off-the-shelf) до 88%. End-to-end якість відповіді (судили люди) покращилась на 14% абсолютних.
Публікуємо eval-методологію (не ваги, вони конкурентні). Методологія у нашому research GitHub repo.