ИИАвтоматизация

Как сделать “умного помощника по видео”?

Андрей Мелков
2

Мультиагентная схема «поиск фрагмента → наблюдения → вывод» и обучение на действиях

Длинное видео (лекция, звонок, запись заседания, серия) — это не просто «много текста». Это поток событий, где нужная информация распределена по времени, часто спрятана в деталях кадра и завязана на порядок: кто что сказал до/после, что показали в этот момент, какая мелочь в кадре меняет смысл.

Если вы хоть раз пытались “сделать умного помощника по видео”, то вы знаете боль:

  • есть часовой созвон / вебинар / запись совещания
  • бизнес задаёт простой вопрос: «когда именно он это сказал?», «а что было до этого?», «кто конкретно это пообещал?»
  • и дальше начинается классика: “давайте сжмём всё в пересказ на страницу, а потом будем отвечать”.

На бумаге звучит логично. В реальности — это путь в никуда.

Почему? Потому что в длинном видео важно не только “что сказали”, а “когда именно”. А пересказ почти всегда стирает привязку к времени и мелкие детали, которые потом критичны для ответа. Именно с этой проблемой и борется подход из научной статьи, на которую я наткнулся недавно

Дальше объясню по-человечески, без академщины: что они придумали, почему это работает, и как эту идею можно приземлить в бизнес-задачи.


Почему один «умный чат» по видео чаще всего ошибается

Обычный подход выглядит так:

  1. берём длинное видео
  2. сильно “режем” (кадры реже, субтитры сжимаем, контент упаковываем)
  3. скармливаем модели и просим ответить

Проблема в том, что как только вы сжали — вы уже выкинули часть правды. И потом модель начинает “додумывать”, потому что “точного куска” уже нет в контексте. В статье прямо говорят: методы, которые компрессируют контент в «потерянные» summary, теряют временную привязку и тонкие подсказки

Идея LongVideoAgent: не один мозг, а команда

Авторы предлагают мыслить так: пусть “умный мозг” не смотрит всё видео целиком. Пусть он управляет помощниками.

У них три роли:

  1. Master Agent (мастер) — главный, который рассуждает и принимает решения: “мне уже достаточно фактов или ещё рано отвечать?”
  2. Grounding Agent (навигатор по времени) — помогает найти правильный момент в часовом видео: какой именно фрагмент относится к вопросу.
  3. Vision Agent (глаза) — вытаскивает визуальные детали из нужного фрагмента: что было на экране, какие объекты, какой текст в кадре, где кто сидит и т.д.

То есть вместо “сжать всё и надеяться” получается цикл:

вопрос → найти подходящий кусок → посмотреть именно его → собрать факты → при необходимости повторить → ответить.


Самое важное: «шаги» ограничены, чтобы агент не болтал бесконечно

Ещё один сильный момент: мастер работает не “сколько угодно”, а в пределах K шагов (в экспериментах часто K=5)

Почему это важно для бизнеса:

  • контролируется стоимость и время ответа
  • система не превращается в “бесконечный анализ ради анализа”
  • появляется понятный след: какой фрагмент смотрели, что нашли, почему ответили так

Как они учат мастера не злоупотреблять инструментами

В статье мастер-агента дополнительно “подкручивают” reinforcement learning (RL), чтобы он:

  • делал ровно одно действие за шаг (найти фрагмент / спросить глаза / ответить),
  • не звал инструменты “на всякий случай”,
  • и в конце всё-таки отвечал правильно

Там даже очень простые награды:

  1. “ты соблюл формат действий?”
  2. “ты ответил правильно?”

И этого хватает, чтобы поведение стало дисциплинированным.


Цифры, которые приятно видеть (и важно понимать)

Что показали эксперименты:

  • просто добавить “навигатора по времени” уже даёт прирост, а “навигатор + глаза” — ещё лучше. В их абляции точность растёт примерно с 64.3% до 74.8%, когда подключают grounding и vision в связке
  • агентный режим сильно улучшает даже закрытые модели: например, у них Agentic-GPT5-mini заметно лучше базового GPT5-mini, а Agentic-Grok лучше обычного Grok
  • для маленьких open-source моделей RL даёт огромный буст: Qwen2.5-3B поднимается примерно с 23.5% до 47.4% после agentic RL

Перевожу на простой язык:
не всегда нужна “самая большая модель”. Иногда важнее — правильная архитектура поиска фактов по видео.


Окей, а бизнесу это зачем?

Вот где это реально стреляет:

1) Созвоны и планёрки (Zoom/Meet/Teams)

  • “Кто обещал срок?”
  • “Когда договорились про цену?”
  • “Что было решено ДО того, как поменяли позицию?”

Если вы даёте пересказ — вы теряете аргументы.
Если вы даёте ответ с привязкой к минутам — это уже инструмент управления.

2) Обучающие видео и регламенты

  • “На каком моменте показывают, где нажать?”
  • “Какая галочка должна быть включена?”
    Тут без “глаз” вообще тяжело: субтитры часто не содержат деталей интерфейса.

3) Контроль качества (продажи/поддержка)

  • “Менеджер действительно проговорил условия?”
  • “Сказал ли про доставку/гарантию?”
    Опять же: важна конкретная реплика и момент.

Как бы я делал такую систему “по-взрослому” в компании

Вот практичный план (без фанатизма):

Шаг 1. Субтитры/текст с таймкодами

  • если есть субтитры — отлично
  • если нет — ASR (например, Whisper) → текст с таймкодами

Шаг 2. Хранилище фрагментов + поиск

  • режем субтитры на смысловые куски (но сохраняем таймкоды)
  • кладём в векторную базу / поиск

Шаг 3. “Навигатор” (Grounding)

На вопрос пользователя он делает главное:
находит 1–3 наиболее релевантных временных окна.

Шаг 4. “Глаза” (Vision)

Если вопрос упирается в визуальные факты:

  • что на слайде
  • что в интерфейсе
  • какой документ показали
  • какой текст в кадре (OCR)

Он вытаскивает это точечно, а не по всему видео

Шаг 5. “Мастер”

Мастер собирает:

  • найденные куски
  • факты от “глаз”
  • и отвечает коротко, но с опорой на доказательства и время

Подводные камни (чтобы не наступить)

  1. Не хранить таймкоды = убить проект.
    Без таймкодов вы вернётесь в пересказ.

  2. Слишком широкий “кусок видео” = дорого и медленно.
    В статье тоже видно: увеличивать окно полезно, но отдача потом падает

  3. “Глаза” должны быть по запросу, а не постоянно.
    Иначе стоимость и задержки улетят.

  4. Аудио ещё надо уметь обрабатывать.
    В ограничениях они признают: пока опираются на субтитры и не берут “сырое аудио” напрямую
    В бизнесе это означает: качество ASR — критично.


Главный вывод

Если по-простому:

Часовое видео нельзя “переварить одним укусом”.
Нужен подход “нашёл → проверил → добрал факты → ответил”, как делает команда агентов. И тогда ответы перестают быть “умными догадками” и становятся доказуемыми.

Подпишитесь на наш блог

Получайте новые статьи и полезные материалы о автоматизации бизнеса прямо на почту