Prompt engineering у продакшен-масштабі, блог MyChatBot

Eval-и, це 80% prompt-інженерії

Більшість команд пишуть промпти і релізять. Ми не релізимо зміну промпта без прогону її через 200-кейсовий eval suite. Продакшн-інциденти від змін промптів впали майже до нуля, відколи ми це збудували.

Ставтесь до промптів як до коду

Кожен промпт у git. Кожна зміна йде через PR review. Кожна зміна має revert-шлях. Звучить очевидно; багато команд цього не роблять.

Правило, що нас врятувало

Якщо зміна промпту покращує якість в середньому, але робить worst case гіршим, не релізьте.

Середня якість, нормально, але клієнти запамʼятовують worst-case взаємодію. Ми оптимізуємо tail ефективність, не mean. Це правило зловило багато блискучих змін промпта, які виглядали б чудово в eval-ах і гірше, в реальному житті.

#prompts#ml#production

Анна Роман

Lead Researcher

Веде наш applied ML research. Багато публікацій про multi-agent системи. Вважає, що хороші eval-и, це 80% хорошого AI.

Prompt engineering у продакшен-масштабі

Eval-и, це 80% prompt-інженерії

Ставтесь до промптів як до коду

Правило, що нас врятувало

Спробувати MyChatBot безкоштовно

Більше від AI Research

Чому ми натренували власну embedding-модель

Порівняння GPT-4, Claude та нашої власної моделі для голосу

Voice Agent v2: у 3× швидше, на 40% дешевше, 14 мовами

Збережіть свого агента, щоб продовжити