Векторные представления текста от OpenAI, Yandex Foundation Models и GigaChat — единый OpenAI-совместимый endpoint /v1/embeddings. Биллинг по токенам, точные тарифы в headers ответа.
3
провайдера
6+
моделей
256-3072
размерности
per-token
биллинг
Что это
Эмбеддинги — это числовые векторы текста
Текст превращается в массив чисел фиксированной длины (256, 1024, 1536, 3072 — зависит от модели). Близкие по смыслу тексты дают близкие векторы. Это основа RAG-систем, семантического поиска, кластеризации и рекомендаций.
Провайдеры
Маршрутизация по префиксу модели
OpenAI / OpenRouter
openrouter.ai
Стандарт индустрии: text-embedding-3-small (1536d) и -large (3072d). OpenAI-совместимый формат запроса/ответа.
openai/text-embedding-3-small
Размерность: 1536
Тариф: $0.02 / M tokens base · ×3 = $0.06 / M tokens
openai/text-embedding-3-large
Размерность: 3072
Тариф: $0.13 / M tokens base · ×3 = $0.39 / M tokens
Yandex Foundation Models
llm.api.cloud.yandex.net
Российские эмбеддинги, оптимизированные для русского языка. Две модели для разных задач — индексация документов и поисковые запросы.
text-search-doc
Размерность: 256— для индексации
Тариф: 120 ₽ / M tokens base · ×2 = 240 ₽ / M tokens
text-search-query
Размерность: 256— для поисковых запросов
Тариф: 120 ₽ / M tokens base · ×2 = 240 ₽ / M tokens
GigaChat (Сбер)
gigachat.devices.sberbank.ru
Эмбеддинги от Сбера (требуется платный тариф SBer). OpenAI-совместимый shape ответа.
Embeddings
Размерность: 1024
Тариф: 20 ₽ / M tokens base · ×2 = 40 ₽ / M tokens
EmbeddingsGigaR
Размерность: 1024
Тариф: 20 ₽ / M tokens base · ×2 = 40 ₽ / M tokens
Биллинг по токенам · headers в каждом ответе
Если upstream вернул usage.prompt_tokens (OpenAI, GigaChat, Yandex Foundation) — биллинг идёт по токенам.
Иначе fallback по символам. Каждый ответ содержит точные цифры списания.
Header
Пример
Что значит
x-neuralgate-charge-rub
0.002160
Итоговая стоимость в ₽ (с наценкой)
x-neuralgate-charge-usd
0.00002160
То же в $ (по курсу billing.rub_per_usd)
x-neuralgate-units
9
Сколько единиц учтено
x-neuralgate-unit-type
prompt_tokens
prompt_tokens (предпочтительно) или input_chars (fallback)