Кейс
Бильшисть наших клиентов имеют knowledge bases, каталоги продуктов, FAQ, внутришня документация. Агент дистает релевантни чанки на момент запроса. Качество retrieval напряму управляет качеством ответов.
Начали с OpenAI text-embedding-3-large. Потом Cohere. Потом популярна open-source модель. Каждая была пристойна. Ни одна не была чудовою для наших специфичних даних.
Тренування доменно-специфичнои модели
Мы fine-tune-или базову модель на 350M параметров на 8M пар query-document из даних клиентов (со згодою и отповидним privacy-контролем). Тренування зайняло 4 дни на 8 H100.
Наша модель менша за text-embedding-3-large, но вимирно краща на нашему retrieval-бенчмарку. Domain-специфичнисть б'е чистий scale, когда домен достатньо концентрований.
Результаты
Retrieval recall@5 на нашему бенчмарку вирис с 71% (лучшее off-the-shelf) до 88%. End-to-end качество ответы (судили люды) покращилась на 14% абсолютних.
Публикуем eval-методологию (не ваги, они конкурентни). Методология в нашему research GitHub repo.