Embeddings API — векторные представления через один endpoint

провайдера

моделей

256-3072

размерности

per-token

биллинг

Что это

Эмбеддинги — это числовые векторы текста

Текст превращается в массив чисел фиксированной длины (256, 1024, 1536, 3072 — зависит от модели). Близкие по смыслу тексты дают близкие векторы. Это основа RAG-систем, семантического поиска, кластеризации и рекомендаций.

Провайдеры

Маршрутизация по префиксу модели

OpenAI / OpenRouter

openrouter.ai

Стандарт индустрии: text-embedding-3-small (1536d) и -large (3072d). OpenAI-совместимый формат запроса/ответа.

openai/text-embedding-3-small

Размерность: 1536

Тариф: $0.02 / M tokens base · ×3 = $0.06 / M tokens

openai/text-embedding-3-large

Размерность: 3072

Тариф: $0.13 / M tokens base · ×3 = $0.39 / M tokens

Yandex Foundation Models

llm.api.cloud.yandex.net

Российские эмбеддинги, оптимизированные для русского языка. Две модели для разных задач — индексация документов и поисковые запросы.

text-search-doc

Размерность: 256 — для индексации

Тариф: 120 ₽ / M tokens base · ×2 = 240 ₽ / M tokens

text-search-query

Размерность: 256 — для поисковых запросов

Тариф: 120 ₽ / M tokens base · ×2 = 240 ₽ / M tokens

GigaChat (Сбер)

gigachat.devices.sberbank.ru

Эмбеддинги от Сбера (требуется платный тариф SBer). OpenAI-совместимый shape ответа.

Embeddings

Размерность: 1024

Тариф: 20 ₽ / M tokens base · ×2 = 40 ₽ / M tokens

EmbeddingsGigaR

Размерность: 1024

Тариф: 20 ₽ / M tokens base · ×2 = 40 ₽ / M tokens

Биллинг по токенам · headers в каждом ответе

Если upstream вернул usage.prompt_tokens (OpenAI, GigaChat, Yandex Foundation) — биллинг идёт по токенам. Иначе fallback по символам. Каждый ответ содержит точные цифры списания.

Header	Пример	Что значит
x-neuralgate-charge-rub	0.002160	Итоговая стоимость в ₽ (с наценкой)
x-neuralgate-charge-usd	0.00002160	То же в $ (по курсу billing.rub_per_usd)
x-neuralgate-units	9	Сколько единиц учтено
x-neuralgate-unit-type	prompt_tokens	`prompt_tokens` (предпочтительно) или `input_chars` (fallback)
x-neuralgate-upstream-provider	yandex	Реально выбранный провайдер
x-neuralgate-upstream-model	yandex/text-search-doc	Реально использованная модель

Примеры запросов

# OpenAI (через OpenRouter) curl https://api.neuralgate.ru/v1/embeddings \ -H "Authorization: Bearer ng-..." \ -H "Content-Type: application/json" \ -d '{ "model": "openai/text-embedding-3-small", "input": "Привет, мир!" }' # Yandex Foundation Models (для русского) curl https://api.neuralgate.ru/v1/embeddings \ -H "Authorization: Bearer ng-..." \ -d '{"model":"yandex/text-search-doc","input":"тестовый текст"}' # GigaChat (требует платный тариф SBer) curl https://api.neuralgate.ru/v1/embeddings \ -H "Authorization: Bearer ng-..." \ -d '{"model":"gigachat/Embeddings","input":"hello"}'

# pip install openai from openai import OpenAI client = OpenAI( api_key="ng-...", base_url="https://api.neuralgate.ru/v1" ) resp = client.embeddings.create( model="openai/text-embedding-3-small", input=["первый текст", "второй текст"] ) for e in resp.data: print(e.index, len(e.embedding), e.embedding[:3]) # Полная стоимость доступна в response headers (см. таблицу выше)

// npm install openai import OpenAI from "openai"; const client = new OpenAI({ apiKey: "ng-...", baseURL: "https://api.neuralgate.ru/v1" }); const resp = await client.embeddings.create({ model: "openai/text-embedding-3-small", input: "Hello world" }); console.log(resp.data[0].embedding.length); // 1536

# Передавайте массив строк — один запрос, несколько эмбеддингов curl https://api.neuralgate.ru/v1/embeddings \ -H "Authorization: Bearer ng-..." \ -d '{ "model": "openai/text-embedding-3-small", "input": [ "Документ 1: про ИИ", "Документ 2: про погоду", "Документ 3: рецепт борща" ] }' # Ответ: data[].embedding для каждого; usage.prompt_tokens — суммарно

Use cases

Где применяют эмбеддинги

Семантический поиск

Релевантный поиск по смыслу, а не по ключевым словам. RAG-системы, документация, knowledge base.

Векторная база данных

pgvector, Qdrant, Weaviate, Pinecone — храните эмбеддинги и делайте cosine-similarity-запросы.

Кластеризация текстов

Группировка отзывов, тикетов поддержки, новостей по темам без ручной разметки.

Классификация

Few-shot классификация: считаете эмбеддинги примеров и сравниваете с входящим текстом.

Дедупликация

Поиск дубликатов и near-duplicate контента, объединение записей CRM.

Готовы интегрировать?

OpenAI-совместимый API — поменяйте только base_url, остальной код работает без изменений.

Получить API-ключ Документация API Каталог голосов

Embeddings через один API