ИИ

MLLM: что это такое и чем отличается от “обычного” LLM

2 января 2026 г.

Андрей Мелков

2 мин чтения

MLLM (Multimodal Large Language Model) — это “большая языковая модель”, которая умеет работать с разными модальностями:
✅ текст
✅ изображения (фото/скриншоты/документы)
✅ иногда аудио/видео (в зависимости от реализации)

Если вы уже привыкли к LLM (типа ChatGPT), то MLLM — это следующий шаг: модель, которая понимает не только текст, но и несколько типов данных сразу.

MLLM (Multimodal Large Language Model) — это “большая языковая модель”, которая умеет работать с разными модальностями: ✅ текст ✅ изображения (фото/скриншоты/документы) ✅ иногда аудио/видео (в зависимости от реализации)

В чём разница между LLM и MLLM

Входные данные

LLM: понимает только текст. Пример: “Составь договор”, “Объясни ошибку в коде”.
MLLM: понимает текст + картинку (и иногда аудио). Пример: “Вот скрин 1С/Bitrix/Telegram — что тут не так и что нажать?”

Что модель “видит”

LLM не может “посмотреть” на фото, PDF-скан или скрин — если не превратить это в текст заранее (OCR/распознавание).
MLLM может сразу анализировать изображение, понимать структуру (таблица, форма, чек, паспорт, схема), находить нужные поля, сравнивать версии.

Тип задач LLM — это про: тексты, переписку, инструкции, код, аналитика по данным в текстовом виде.

MLLM — это про: “понимание реального мира” через изображения: документы, интерфейсы, фотографии, диаграммы.

Самые понятные примеры, где MLLM реально решает

Документы и сканы Фото счета/акта/накладной -> модель вытаскивает реквизиты, суммы, даты, НДС, позиции.
Скриншоты ошибок и интерфейсов Скрин из 1С/Bitrix/сайта/логов → модель объясняет, что означает ошибка и куда идти в настройках.

Почему сейчас все про это говорят

Потому что большинство информации в компаниях живёт не в “идеальном тексте”, а в:
📸 скриншотах, PDF, сканах, фотках, презентациях, таблицах, интерфейсах. MLLM позволяет автоматизировать самую грязную и дорогую часть — “прочитать глазами и понять”.

Сравнение “что изменилось”
Две версии КП/таблицы/макета (в виде картинок) → найти отличия и объяснить.
“Что на фото?” для бизнеса
Проверка витрины/склада/упаковки товара по фото → чек-лист нарушений и рекомендации.

Подпишитесь на наш блог

Получайте новые статьи и полезные материалы о автоматизации бизнеса прямо на почту

MLLM: что это такое и чем отличается от “обычного” LLM

Читайте также

Мы очень рады поделиться отличной новостью: наш кейс опубликовали в СМИ! 🎉

🤝 ИИ-Технолог + 1С:ERP — совместный вебинар с интегратором ИТРП (эксперты по 1С:ERP)

🥈 Мы не выиграли. И это — тоже победа.

Подпишитесь на наш блог