Как сделать “умного помощника по видео”?
Мультиагентная схема «поиск фрагмента → наблюдения → вывод» и обучение на действиях
Длинное видео (лекция, звонок, запись заседания, серия) — это не просто «много текста». Это поток событий, где нужная информация распределена по времени, часто спрятана в деталях кадра и завязана на порядок: кто что сказал до/после, что показали в этот момент, какая мелочь в кадре меняет смысл.