Eval-и, це 80% prompt-інженерії
Більшість команд пишуть промпти і релізять. Ми не релізимо зміну промпта без прогону її через 200-кейсовий eval suite. Продакшн-інциденти від змін промптів впали майже до нуля, відколи ми це збудували.
Ставтесь до промптів як до коду
Кожен промпт у git. Кожна зміна йде через PR review. Кожна зміна має revert-шлях. Звучить очевидно; багато команд цього не роблять.
Правило, що нас врятувало
Якщо зміна промпту покращує якість в середньому, але робить worst case гіршим, не релізьте.
Середня якість, нормально, але клієнти запамʼятовують worst-case взаємодію. Ми оптимізуємо tail ефективність, не mean. Це правило зловило багато блискучих змін промпта, які виглядали б чудово в eval-ах і гірше, в реальному житті.