Будуємо multi-tenant runtime для агентів, блог MyChatBot

Чому multi-tenant

Кожен клієнт на власній dedicated інфраструктурі, це марнування. Більшість агентів idle більшість часу. Multi-tenant означає драматично нижчу вартість на клієнта, і ці economiї перетікають у прайсинг.

Але multi-tenant має складні проблеми: ізоляція даних, fair scheduling, cost attribution. Помилитесь у будь-якій, отримаєте customer fire.

Ізоляція даних

Ми використовуємо schema-per-tenant у Postgres для всіх клієнтських даних. Query layer enforce-ить tenant scoping на рівні connection, немає API-шляху, що може прочитати дані іншого тенанта, крапка.

Vector stores використовують namespaces на tenant. LLM-контекст ніколи не перетинає tenants. Agent memories tenant-scoped на рівні зберігання.

Справедливий графік

Проблема noisy neighbor: один клієнт запускає величезну кампанію, усі інші голодують щодо inference-бюджету. Ми використовуємо weighted fair queuing на inference, з вагами, привʼязаними до тарифу і недавнього usage.

Burst-и абсорбуються spillover-потужністю, що коштує трохи більше, біллиться burst-клієнту, а не платформі.

#architecture#engineering

Ярослав Демір

Principal Engineer

Володіє надійністю платформи. 10+ років побудови high-throughput систем. Захищатиме Go у будь-якому треді.

Будуємо multi-tenant runtime для агентів

Чому multi-tenant

Ізоляція даних

Справедливий графік

Спробувати MyChatBot безкоштовно

Більше від Інженерія

Як ми зменшили voice latency до менш ніж 300 мс

Уроки з обробки 50М+ повідомлень на місяць

Voice Agent v2: у 3× швидше, на 40% дешевше, 14 мовами

Збережіть свого агента, щоб продовжити