Meta: Llama 3.2 11B Vision Instruct meta-llama/llama-3.2-11b-vision-instruct

Модель Meta: Llama 3.2 11B Vision Instruct от Meta Llama (семейство llama-3) доступна через единый OpenAI-совместимый API НейроГейт — без VPN, с оплатой в рублях, единым ключом для всех 353+ моделей платформы.
Открытые модели Meta — основа большинства open-source проектов.

👁 Зрение 🧠 Рассуждение 🎨 Генерация изображений 🎙 Аудио-вход 🔊 Синтез речи 🆓 Бесплатно

131K

контекст, токенов

34.5 ₽

за 1 млн входных токенов

34.5 ₽

за 1 млн выходных токенов

возможностей

2023-12

база знаний до

Что такое Meta: Llama 3.2 11B Vision Instruct

Открытая мультимодальная модель для задач понимания изображений, когда важны контроль над инфраструктурой и разумные вычислительные затраты.

Llama 3.2 11B Vision Instruct — мультимодальная модель от Meta с 11 миллиардами параметров, входящая в семейство Llama 3. Она умеет работать одновременно с текстом и изображениями: принимает картинки на вход и возвращает текстовый ответ. Типичные задачи — описание изображений, ответы на вопросы по визуальному контенту, анализ документов с графиками и таблицами.

Модель является open-source и доступна для самостоятельного развёртывания. Контекстное окно составляет 131 072 токена, что позволяет обрабатывать длинные диалоги с визуальными вложениями. По меркам открытых мультимодальных моделей 11B — это компромисс между качеством и вычислительными требованиями: модель заметно легче, чем старшие варианты семейства, но при этом сохраняет практически применимое качество понимания изображений. Подходит для команд, которым важен контроль над инфраструктурой и отсутствие зависимости от закрытых API.

Когда брать эту модель

✓ Автоматическое описание и теггирование изображений в медиа- и e-commerce-проектах
✓ Ответы на вопросы по содержимому документов, схем и графиков
✓ Анализ скриншотов интерфейсов или визуальных отчётов
✓ Прототипирование мультимодальных фич без зависимости от закрытых провайдеров
✓ Задачи, требующие длинного контекста с визуальными вложениями

Пример работы

Реальный сценарий, на котором модель проявляет себя:

Вот скриншот интерфейса нашего приложения — опиши, какие элементы UI присутствуют на экране, и предложи, что можно улучшить с точки зрения UX.

Использование Meta: Llama 3.2 11B Vision Instruct через НейроГейт

OpenAI-совместимый эндпоинт https://api.neuralgate.ru/v1 — замени base_url в любом SDK и используй модель по её id.

# Chat completion
curl https://api.neuralgate.ru/v1/chat/completions \
  -H "Authorization: Bearer $NEURALGATE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/llama-3.2-11b-vision-instruct",
    "messages": [{"role":"user","content":"Привет!"}]
  }'

from openai import OpenAI

client = OpenAI(
    api_key="sk-...your-neuralgate-key...",
    base_url="https://api.neuralgate.ru/v1",
)
response = client.chat.completions.create(
    model="meta-llama/llama-3.2-11b-vision-instruct",
    messages=[{"role": "user", "content": "Привет!"}],
)
print(response.choices[0].message.content)

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.NEURALGATE_API_KEY,
  baseURL: "https://api.neuralgate.ru/v1",
});
const resp = await client.chat.completions.create({
  model: "meta-llama/llama-3.2-11b-vision-instruct",
  messages: [{ role: "user", content: "Привет!" }],
});
console.log(resp.choices[0].message.content);