Почему мы натренували власну embedding-модель, блог MyChatBot

Кейс

Бильшисть наших клиентов имеют knowledge bases, каталоги продуктов, FAQ, внутришня документация. Агент дистает релевантни чанки на момент запроса. Качество retrieval напряму управляет качеством ответов.

Начали с OpenAI text-embedding-3-large. Потом Cohere. Потом популярна open-source модель. Каждая была пристойна. Ни одна не была чудовою для наших специфичних даних.

Тренування доменно-специфичнои модели

Мы fine-tune-или базову модель на 350M параметров на 8M пар query-document из даних клиентов (со згодою и отповидним privacy-контролем). Тренування зайняло 4 дни на 8 H100.

Наша модель менша за text-embedding-3-large, но вимирно краща на нашему retrieval-бенчмарку. Domain-специфичнисть б'е чистий scale, когда домен достатньо концентрований.

Результаты

Retrieval recall@5 на нашему бенчмарку вирис с 71% (лучшее off-the-shelf) до 88%. End-to-end качество ответы (судили люды) покращилась на 14% абсолютних.

Публикуем eval-методологию (не ваги, они конкурентни). Методология в нашему research GitHub repo.

#ml#research

Анна Роман

Lead Researcher

Ведёт наш applied ML research. Много публикацей о multi-agent системы. Вважает, что хорошие eval-и, это 80% хорошого AI.

Почему мы натренували власну embedding-модель

Кейс

Тренування доменно-специфичнои модели

Результаты

Попробовать MyChatBot бесплатно

Больше от AI Research

Поривняння GPT-4, Claude и нашои власнои модели для голоса

Prompt engineering в продакшен-масштабе

Voice Agent v2: в 3× быстрее, на 40% дешевле, 14 языками

Сохраните своего агента, чтобы продолжить