Если вы хоть раз пытались “сделать умного помощника по видео”, то вы знаете боль:
- есть часовой созвон / вебинар / запись совещания
- бизнес задаёт простой вопрос: «когда именно он это сказал?», «а что было до этого?», «кто конкретно это пообещал?»
- и дальше начинается классика: “давайте сжмём всё в пересказ на страницу, а потом будем отвечать”.
На бумаге звучит логично. В реальности — это путь в никуда.
Почему? Потому что в длинном видео важно не только “что сказали”, а “когда именно”. А пересказ почти всегда стирает привязку к времени и мелкие детали, которые потом критичны для ответа. Именно с этой проблемой и борется подход из научной статьи, на которую я наткнулся недавно
Дальше объясню по-человечески, без академщины: что они придумали, почему это работает, и как эту идею можно приземлить в бизнес-задачи.
Почему один «умный чат» по видео чаще всего ошибается
Обычный подход выглядит так:
- берём длинное видео
- сильно “режем” (кадры реже, субтитры сжимаем, контент упаковываем)
- скармливаем модели и просим ответить
Проблема в том, что как только вы сжали — вы уже выкинули часть правды. И потом модель начинает “додумывать”, потому что “точного куска” уже нет в контексте. В статье прямо говорят: методы, которые компрессируют контент в «потерянные» summary, теряют временную привязку и тонкие подсказки
Идея LongVideoAgent: не один мозг, а команда
Авторы предлагают мыслить так: пусть “умный мозг” не смотрит всё видео целиком. Пусть он управляет помощниками.
У них три роли:
- Master Agent (мастер) — главный, который рассуждает и принимает решения: “мне уже достаточно фактов или ещё рано отвечать?”
- Grounding Agent (навигатор по времени) — помогает найти правильный момент в часовом видео: какой именно фрагмент относится к вопросу.
- Vision Agent (глаза) — вытаскивает визуальные детали из нужного фрагмента: что было на экране, какие объекты, какой текст в кадре, где кто сидит и т.д.
То есть вместо “сжать всё и надеяться” получается цикл:
вопрос → найти подходящий кусок → посмотреть именно его → собрать факты → при необходимости повторить → ответить.
Самое важное: «шаги» ограничены, чтобы агент не болтал бесконечно
Ещё один сильный момент: мастер работает не “сколько угодно”, а в пределах K шагов (в экспериментах часто K=5)
Почему это важно для бизнеса:
- контролируется стоимость и время ответа
- система не превращается в “бесконечный анализ ради анализа”
- появляется понятный след: какой фрагмент смотрели, что нашли, почему ответили так
Как они учат мастера не злоупотреблять инструментами
В статье мастер-агента дополнительно “подкручивают” reinforcement learning (RL), чтобы он:
- делал ровно одно действие за шаг (найти фрагмент / спросить глаза / ответить),
- не звал инструменты “на всякий случай”,
- и в конце всё-таки отвечал правильно
Там даже очень простые награды:
- “ты соблюл формат действий?”
- “ты ответил правильно?”
И этого хватает, чтобы поведение стало дисциплинированным.
Цифры, которые приятно видеть (и важно понимать)
Что показали эксперименты:
- просто добавить “навигатора по времени” уже даёт прирост, а “навигатор + глаза” — ещё лучше. В их абляции точность растёт примерно с 64.3% до 74.8%, когда подключают grounding и vision в связке
- агентный режим сильно улучшает даже закрытые модели: например, у них Agentic-GPT5-mini заметно лучше базового GPT5-mini, а Agentic-Grok лучше обычного Grok
- для маленьких open-source моделей RL даёт огромный буст: Qwen2.5-3B поднимается примерно с 23.5% до 47.4% после agentic RL
Перевожу на простой язык:
не всегда нужна “самая большая модель”. Иногда важнее — правильная архитектура поиска фактов по видео.
Окей, а бизнесу это зачем?
Вот где это реально стреляет:
1) Созвоны и планёрки (Zoom/Meet/Teams)
- “Кто обещал срок?”
- “Когда договорились про цену?”
- “Что было решено ДО того, как поменяли позицию?”
Если вы даёте пересказ — вы теряете аргументы.
Если вы даёте ответ с привязкой к минутам — это уже инструмент управления.
2) Обучающие видео и регламенты
- “На каком моменте показывают, где нажать?”
- “Какая галочка должна быть включена?”
Тут без “глаз” вообще тяжело: субтитры часто не содержат деталей интерфейса.
3) Контроль качества (продажи/поддержка)
- “Менеджер действительно проговорил условия?”
- “Сказал ли про доставку/гарантию?”
Опять же: важна конкретная реплика и момент.
Как бы я делал такую систему “по-взрослому” в компании
Вот практичный план (без фанатизма):
Шаг 1. Субтитры/текст с таймкодами
- если есть субтитры — отлично
- если нет — ASR (например, Whisper) → текст с таймкодами
Шаг 2. Хранилище фрагментов + поиск
- режем субтитры на смысловые куски (но сохраняем таймкоды)
- кладём в векторную базу / поиск
Шаг 3. “Навигатор” (Grounding)
На вопрос пользователя он делает главное:
находит 1–3 наиболее релевантных временных окна.
Шаг 4. “Глаза” (Vision)
Если вопрос упирается в визуальные факты:
- что на слайде
- что в интерфейсе
- какой документ показали
- какой текст в кадре (OCR)
Он вытаскивает это точечно, а не по всему видео
Шаг 5. “Мастер”
Мастер собирает:
- найденные куски
- факты от “глаз”
- и отвечает коротко, но с опорой на доказательства и время
Подводные камни (чтобы не наступить)
-
Не хранить таймкоды = убить проект.
Без таймкодов вы вернётесь в пересказ.
-
Слишком широкий “кусок видео” = дорого и медленно.
В статье тоже видно: увеличивать окно полезно, но отдача потом падает
-
“Глаза” должны быть по запросу, а не постоянно.
Иначе стоимость и задержки улетят.
-
Аудио ещё надо уметь обрабатывать.
В ограничениях они признают: пока опираются на субтитры и не берут “сырое аудио” напрямую
В бизнесе это означает: качество ASR — критично.
Главный вывод
Если по-простому:
Часовое видео нельзя “переварить одним укусом”.
Нужен подход “нашёл → проверил → добрал факты → ответил”, как делает команда агентов. И тогда ответы перестают быть “умными догадками” и становятся доказуемыми.