Eval-и, это 80% prompt-инженерии
Бильшисть команд пишут промпты и релизят. Мы не релизимо змину промпта без прогону её через 200-кейсовий eval suite. Продакшн-инциденты от изменений промптов впали почти до нуля, отколи мы это збудували.
Ставтесь до промптов как до кода
Каждый промпт в git. Каждая изменение йде через PR review. Каждая изменение имеет revert-шлях. Звучить очевидно; много команд этого не делают.
Правило, что нас врятувало
Если изменение промпту улучшает качество в середньому, но делает worst case гиршим, не релизьте.
Середня качество, нормально, но клиенты запамьятовують worst-case взаемодию. Мы оптимизуем tail эффективность, не mean. Это правило зловило много блискучих изменений промпта, которые виглядали б чудово в eval-ах и хуже, в реальному житти.