Embeddings через один API

Векторные представления текста от OpenAI, Yandex Foundation Models и GigaChat — единый OpenAI-совместимый endpoint /v1/embeddings. Биллинг по токенам, точные тарифы в headers ответа.

3
провайдера
6+
моделей
256-3072
размерности
per-token
биллинг

Что это

Эмбеддинги — это числовые векторы текста

Текст превращается в массив чисел фиксированной длины (256, 1024, 1536, 3072 — зависит от модели). Близкие по смыслу тексты дают близкие векторы. Это основа RAG-систем, семантического поиска, кластеризации и рекомендаций.

Провайдеры

Маршрутизация по префиксу модели

OpenAI / OpenRouter
openrouter.ai
Стандарт индустрии: text-embedding-3-small (1536d) и -large (3072d). OpenAI-совместимый формат запроса/ответа.
openai/text-embedding-3-small
Размерность: 1536
Тариф: $0.02 / M tokens base · ×3 = $0.06 / M tokens
openai/text-embedding-3-large
Размерность: 3072
Тариф: $0.13 / M tokens base · ×3 = $0.39 / M tokens
Yandex Foundation Models
llm.api.cloud.yandex.net
Российские эмбеддинги, оптимизированные для русского языка. Две модели для разных задач — индексация документов и поисковые запросы.
text-search-doc
Размерность: 256 для индексации
Тариф: 120 ₽ / M tokens base · ×2 = 240 ₽ / M tokens
text-search-query
Размерность: 256 для поисковых запросов
Тариф: 120 ₽ / M tokens base · ×2 = 240 ₽ / M tokens
GigaChat (Сбер)
gigachat.devices.sberbank.ru
Эмбеддинги от Сбера (требуется платный тариф SBer). OpenAI-совместимый shape ответа.
Embeddings
Размерность: 1024
Тариф: 20 ₽ / M tokens base · ×2 = 40 ₽ / M tokens
EmbeddingsGigaR
Размерность: 1024
Тариф: 20 ₽ / M tokens base · ×2 = 40 ₽ / M tokens

Биллинг по токенам · headers в каждом ответе

Если upstream вернул usage.prompt_tokens (OpenAI, GigaChat, Yandex Foundation) — биллинг идёт по токенам. Иначе fallback по символам. Каждый ответ содержит точные цифры списания.

HeaderПримерЧто значит
x-neuralgate-charge-rub0.002160Итоговая стоимость в ₽ (с наценкой)
x-neuralgate-charge-usd0.00002160То же в $ (по курсу billing.rub_per_usd)
x-neuralgate-units9Сколько единиц учтено
x-neuralgate-unit-typeprompt_tokensprompt_tokens (предпочтительно) или input_chars (fallback)
x-neuralgate-upstream-provideryandexРеально выбранный провайдер
x-neuralgate-upstream-modelyandex/text-search-docРеально использованная модель

Примеры запросов

# OpenAI (через OpenRouter) curl https://api.neuralgate.ru/v1/embeddings \ -H "Authorization: Bearer ng-..." \ -H "Content-Type: application/json" \ -d '{ "model": "openai/text-embedding-3-small", "input": "Привет, мир!" }' # Yandex Foundation Models (для русского) curl https://api.neuralgate.ru/v1/embeddings \ -H "Authorization: Bearer ng-..." \ -d '{"model":"yandex/text-search-doc","input":"тестовый текст"}' # GigaChat (требует платный тариф SBer) curl https://api.neuralgate.ru/v1/embeddings \ -H "Authorization: Bearer ng-..." \ -d '{"model":"gigachat/Embeddings","input":"hello"}'
# pip install openai from openai import OpenAI client = OpenAI( api_key="ng-...", base_url="https://api.neuralgate.ru/v1" ) resp = client.embeddings.create( model="openai/text-embedding-3-small", input=["первый текст", "второй текст"] ) for e in resp.data: print(e.index, len(e.embedding), e.embedding[:3]) # Полная стоимость доступна в response headers (см. таблицу выше)
// npm install openai import OpenAI from "openai"; const client = new OpenAI({ apiKey: "ng-...", baseURL: "https://api.neuralgate.ru/v1" }); const resp = await client.embeddings.create({ model: "openai/text-embedding-3-small", input: "Hello world" }); console.log(resp.data[0].embedding.length); // 1536
# Передавайте массив строк — один запрос, несколько эмбеддингов curl https://api.neuralgate.ru/v1/embeddings \ -H "Authorization: Bearer ng-..." \ -d '{ "model": "openai/text-embedding-3-small", "input": [ "Документ 1: про ИИ", "Документ 2: про погоду", "Документ 3: рецепт борща" ] }' # Ответ: data[].embedding для каждого; usage.prompt_tokens — суммарно

Use cases

Где применяют эмбеддинги

Семантический поиск

Релевантный поиск по смыслу, а не по ключевым словам. RAG-системы, документация, knowledge base.

Векторная база данных

pgvector, Qdrant, Weaviate, Pinecone — храните эмбеддинги и делайте cosine-similarity-запросы.

Кластеризация текстов

Группировка отзывов, тикетов поддержки, новостей по темам без ручной разметки.

Классификация

Few-shot классификация: считаете эмбеддинги примеров и сравниваете с входящим текстом.

Дедупликация

Поиск дубликатов и near-duplicate контента, объединение записей CRM.

Рекомендации

"Похожие товары/статьи" — без обучения отдельной модели, по семантике названий и описаний.

Готовы интегрировать?

OpenAI-совместимый API — поменяйте только base_url, остальной код работает без изменений.

Получить API-ключ Документация API Каталог голосов