Чому ми натренували власну embedding-модель, блог MyChatBot

Кейс

Більшість наших клієнтів мають knowledge bases, каталоги продуктів, FAQ, внутрішня документація. Агент дістає релевантні чанки на момент запиту. Якість retrieval напряму керує якістю відповідей.

Почали з OpenAI text-embedding-3-large. Потім Cohere. Потім популярна open-source модель. Кожна була пристойна. Жодна не була чудовою для наших специфічних даних.

Тренування доменно-специфічної моделі

Ми fine-tune-или базову модель на 350M параметрів на 8M пар query-document із даних клієнтів (зі згодою та відповідним privacy-контролем). Тренування зайняло 4 дні на 8 H100.

Наша модель менша за text-embedding-3-large, але вимірно краща на нашому retrieval-бенчмарку. Domain-специфічність б'є чистий scale, коли домен достатньо концентрований.

Результати

Retrieval recall@5 на нашому бенчмарку виріс з 71% (найкраще off-the-shelf) до 88%. End-to-end якість відповіді (судили люди) покращилась на 14% абсолютних.

Публікуємо eval-методологію (не ваги, вони конкурентні). Методологія у нашому research GitHub repo.

#ml#research

Анна Роман

Lead Researcher

Веде наш applied ML research. Багато публікацій про multi-agent системи. Вважає, що хороші eval-и, це 80% хорошого AI.

Чому ми натренували власну embedding-модель

Кейс

Тренування доменно-специфічної моделі

Результати

Спробувати MyChatBot безкоштовно

Більше від AI Research

Порівняння GPT-4, Claude та нашої власної моделі для голосу

Prompt engineering у продакшен-масштабі

Voice Agent v2: у 3× швидше, на 40% дешевше, 14 мовами

Збережіть свого агента, щоб продовжити