Почему multi-tenant
Каждый клиент на власней dedicated инфраструктури, это марнування. Бильшисть агентов idle бильшисть времени. Multi-tenant означает драматически нижчу стоимость на клиента, и эти economiи перетикают в прайсинг.
Но multi-tenant имеет сложные проблеми: изоляция даних, fair scheduling, cost attribution. Помилитесь в будь-которой, получите customer fire.
Изоляция даних
Мы використовуем schema-per-tenant в Postgres для всех клиентских даних. Query layer enforce-ить tenant scoping на ривни connection, немает API-шляху, что может прочитать дани иншого тенанта, крапка.
Vector stores використовують namespaces на tenant. LLM-контекст никогда не перетинает tenants. Agent memories tenant-scoped на ривни зберигання.
Справедливий график
Проблема noisy neighbor: один клиент запускает величезну кампанию, все другие голодують щодо inference-бюджету. Мы використовуем weighted fair queuing на inference, с вагами, привьязаними до тарифу и недавнього usage.
Burst-и абсорбуются spillover-потужнистю, что коштуе немного больше, биллиться burst-клиенту, а не платформе.