Prompt engineering в продакшен-масштабе, блог MyChatBot

Eval-и, это 80% prompt-инженерии

Бильшисть команд пишут промпты и релизят. Мы не релизимо змину промпта без прогону её через 200-кейсовий eval suite. Продакшн-инциденты от изменений промптов впали почти до нуля, отколи мы это збудували.

Ставтесь до промптов как до кода

Каждый промпт в git. Каждая изменение йде через PR review. Каждая изменение имеет revert-шлях. Звучить очевидно; много команд этого не делают.

Правило, что нас врятувало

Если изменение промпту улучшает качество в середньому, но делает worst case гиршим, не релизьте.

Середня качество, нормально, но клиенты запамьятовують worst-case взаемодию. Мы оптимизуем tail эффективность, не mean. Это правило зловило много блискучих изменений промпта, которые виглядали б чудово в eval-ах и хуже, в реальному житти.

#prompts#ml#production

Анна Роман

Lead Researcher

Ведёт наш applied ML research. Много публикацей о multi-agent системы. Вважает, что хорошие eval-и, это 80% хорошого AI.

Prompt engineering в продакшен-масштабе

Eval-и, это 80% prompt-инженерии

Ставтесь до промптов как до кода

Правило, что нас врятувало

Попробовать MyChatBot бесплатно

Больше от AI Research

Почему мы натренували власну embedding-модель

Поривняння GPT-4, Claude и нашои власнои модели для голоса

Voice Agent v2: в 3× быстрее, на 40% дешевле, 14 языками

Сохраните своего агента, чтобы продолжить