Все публикации
Инженерия 10 хв читання

Будуем multi-tenant runtime для агентов

Как мы запускаем тысячи агентов клиентов на спильней инфраструктури, без витоков, noisy neighbors и несподиваних рахунков.

Ярослав Демир
Principal Engineer
Mar 28, 2026

Почему multi-tenant

Каждый клиент на власней dedicated инфраструктури, это марнування. Бильшисть агентов idle бильшисть времени. Multi-tenant означает драматически нижчу стоимость на клиента, и эти economiи перетикают в прайсинг.

Но multi-tenant имеет сложные проблеми: изоляция даних, fair scheduling, cost attribution. Помилитесь в будь-которой, получите customer fire.

Изоляция даних

Мы використовуем schema-per-tenant в Postgres для всех клиентских даних. Query layer enforce-ить tenant scoping на ривни connection, немает API-шляху, что может прочитать дани иншого тенанта, крапка.

Vector stores використовують namespaces на tenant. LLM-контекст никогда не перетинает tenants. Agent memories tenant-scoped на ривни зберигання.

Справедливий график

Проблема noisy neighbor: один клиент запускает величезну кампанию, все другие голодують щодо inference-бюджету. Мы використовуем weighted fair queuing на inference, с вагами, привьязаними до тарифу и недавнього usage.

Burst-и абсорбуются spillover-потужнистю, что коштуе немного больше, биллиться burst-клиенту, а не платформе.

#architecture#engineering
Ярослав Демир
Principal Engineer

Володие надийнистю платформы. 10+ лет построения high-throughput систем. Захищатиме Go в будь-котором треди.

Попробовать MyChatBot бесплатно

Настройте своего первого AI-агента за 10 минут. Картка не нужна.

Бесплатный пробний период