ИИАвтоматизация

Как сделать “умного помощника по видео”?

29 декабря 2025 г.

Андрей Мелков

Мультиагентная схема «поиск фрагмента → наблюдения → вывод» и обучение на действиях

Длинное видео (лекция, звонок, запись заседания, серия) — это не просто «много текста». Это поток событий, где нужная информация распределена по времени, часто спрятана в деталях кадра и завязана на порядок: кто что сказал до/после, что показали в этот момент, какая мелочь в кадре меняет смысл.

Если вы хоть раз пытались “сделать умного помощника по видео”, то вы знаете боль:

есть часовой созвон / вебинар / запись совещания
бизнес задаёт простой вопрос: «когда именно он это сказал?», «а что было до этого?», «кто конкретно это пообещал?»
и дальше начинается классика: “давайте сжмём всё в пересказ на страницу, а потом будем отвечать”.

На бумаге звучит логично. В реальности — это путь в никуда.

Почему? Потому что в длинном видео важно не только “что сказали”, а “когда именно”. А пересказ почти всегда стирает привязку к времени и мелкие детали, которые потом критичны для ответа. Именно с этой проблемой и борется подход из научной статьи, на которую я наткнулся недавно

Дальше объясню по-человечески, без академщины: что они придумали, почему это работает, и как эту идею можно приземлить в бизнес-задачи.

Почему один «умный чат» по видео чаще всего ошибается

Обычный подход выглядит так:

берём длинное видео
сильно “режем” (кадры реже, субтитры сжимаем, контент упаковываем)
скармливаем модели и просим ответить

Проблема в том, что как только вы сжали — вы уже выкинули часть правды. И потом модель начинает “додумывать”, потому что “точного куска” уже нет в контексте. В статье прямо говорят: методы, которые компрессируют контент в «потерянные» summary, теряют временную привязку и тонкие подсказки

Идея LongVideoAgent: не один мозг, а команда

Авторы предлагают мыслить так: пусть “умный мозг” не смотрит всё видео целиком. Пусть он управляет помощниками.

У них три роли:

Master Agent (мастер) — главный, который рассуждает и принимает решения: “мне уже достаточно фактов или ещё рано отвечать?”
Grounding Agent (навигатор по времени) — помогает найти правильный момент в часовом видео: какой именно фрагмент относится к вопросу.
Vision Agent (глаза) — вытаскивает визуальные детали из нужного фрагмента: что было на экране, какие объекты, какой текст в кадре, где кто сидит и т.д.

То есть вместо “сжать всё и надеяться” получается цикл:

вопрос → найти подходящий кусок → посмотреть именно его → собрать факты → при необходимости повторить → ответить.

Самое важное: «шаги» ограничены, чтобы агент не болтал бесконечно

Ещё один сильный момент: мастер работает не “сколько угодно”, а в пределах K шагов (в экспериментах часто K=5)

Почему это важно для бизнеса:

контролируется стоимость и время ответа
система не превращается в “бесконечный анализ ради анализа”
появляется понятный след: какой фрагмент смотрели, что нашли, почему ответили так

Как они учат мастера не злоупотреблять инструментами

В статье мастер-агента дополнительно “подкручивают” reinforcement learning (RL), чтобы он:

делал ровно одно действие за шаг (найти фрагмент / спросить глаза / ответить),
не звал инструменты “на всякий случай”,
и в конце всё-таки отвечал правильно

Там даже очень простые награды:

“ты соблюл формат действий?”
“ты ответил правильно?”

И этого хватает, чтобы поведение стало дисциплинированным.

Цифры, которые приятно видеть (и важно понимать)

Что показали эксперименты:

просто добавить “навигатора по времени” уже даёт прирост, а “навигатор + глаза” — ещё лучше. В их абляции точность растёт примерно с 64.3% до 74.8%, когда подключают grounding и vision в связке
агентный режим сильно улучшает даже закрытые модели: например, у них Agentic-GPT5-mini заметно лучше базового GPT5-mini, а Agentic-Grok лучше обычного Grok
для маленьких open-source моделей RL даёт огромный буст: Qwen2.5-3B поднимается примерно с 23.5% до 47.4% после agentic RL

Перевожу на простой язык:
не всегда нужна “самая большая модель”. Иногда важнее — правильная архитектура поиска фактов по видео.

Окей, а бизнесу это зачем?

Вот где это реально стреляет:

1) Созвоны и планёрки (Zoom/Meet/Teams)

“Кто обещал срок?”
“Когда договорились про цену?”
“Что было решено ДО того, как поменяли позицию?”

Если вы даёте пересказ — вы теряете аргументы.
Если вы даёте ответ с привязкой к минутам — это уже инструмент управления.

2) Обучающие видео и регламенты

“На каком моменте показывают, где нажать?”
“Какая галочка должна быть включена?”
Тут без “глаз” вообще тяжело: субтитры часто не содержат деталей интерфейса.

3) Контроль качества (продажи/поддержка)

“Менеджер действительно проговорил условия?”
“Сказал ли про доставку/гарантию?”
Опять же: важна конкретная реплика и момент.

Как бы я делал такую систему “по-взрослому” в компании

Вот практичный план (без фанатизма):

Шаг 1. Субтитры/текст с таймкодами

если есть субтитры — отлично
если нет — ASR (например, Whisper) → текст с таймкодами

Шаг 2. Хранилище фрагментов + поиск

режем субтитры на смысловые куски (но сохраняем таймкоды)
кладём в векторную базу / поиск

Шаг 3. “Навигатор” (Grounding)

На вопрос пользователя он делает главное:
находит 1–3 наиболее релевантных временных окна.

Шаг 4. “Глаза” (Vision)

Если вопрос упирается в визуальные факты:

что на слайде
что в интерфейсе
какой документ показали
какой текст в кадре (OCR)

Он вытаскивает это точечно, а не по всему видео

Шаг 5. “Мастер”

Мастер собирает:

найденные куски
факты от “глаз”
и отвечает коротко, но с опорой на доказательства и время

Подводные камни (чтобы не наступить)

Не хранить таймкоды = убить проект.
Без таймкодов вы вернётесь в пересказ.
Слишком широкий “кусок видео” = дорого и медленно.
В статье тоже видно: увеличивать окно полезно, но отдача потом падает
“Глаза” должны быть по запросу, а не постоянно.
Иначе стоимость и задержки улетят.
Аудио ещё надо уметь обрабатывать.
В ограничениях они признают: пока опираются на субтитры и не берут “сырое аудио” напрямую
В бизнесе это означает: качество ASR — критично.

Главный вывод

Если по-простому:

Часовое видео нельзя “переварить одним укусом”.
Нужен подход “нашёл → проверил → добрал факты → ответил”, как делает команда агентов. И тогда ответы перестают быть “умными догадками” и становятся доказуемыми.

Подпишитесь на наш блог

Получайте новые статьи и полезные материалы о автоматизации бизнеса прямо на почту

Скидки до 50% на Битрикс24