ИИАвтоматизацияГенеративный ИИИскусственный интеллект

Как на самом деле работает генеративный ИИ: трансформеры и внимание простыми словами

Андрей Мелков
5 min read
4

До трансформеров нейросети обрабатывали текст последовательно, «забывая» начало и работая медленно. Трансформеры благодаря механизму «внимания» обрабатывают все слова одновременно и вычисляют смысловые связи между ними. Многоголовое внимание улавливает разные типы связей (грамматика, семантика и т.д.), что позволяет удерживать огромный контекст. Модели обучаются параллельно на видеокартах, поэтому стали большими и мощными. При генерации ИИ не «думает», а просто предсказывает следующее слово по вероятности — отсюда и ошибки (галлюцинации). Механизм внимания стал главным прорывом в эру генеративного ИИ.

Когда мы общаемся с ChatGPT или просим нейросеть написать текст, мало кто задумывается, что происходит внутри. Кажется, что машина понимает смысл, думает как человек и просто отвечает на вопрос. На самом деле всё устроено иначе — и одновременно проще, и хитрее. Давайте разберёмся, как работают трансформеры и почему механизм «внимания» стал главным прорывом в искусственном интеллекте за последние годы.

Чем старые нейросети были плохи До появления трансформеров основным инструментом для работы с текстом были рекуррентные нейронные сети. Они обрабатывали слова по очереди: прочитал первое, запомнил, перешёл ко второму, обновил память, и так до конца предложения. У этого подхода было два серьёзных недостатка.

Первый — забывчивость. К концу длинного абзаца сеть помнила последние слова гораздо лучше, чем те, что были в начале. Если вы писали: «Анна пришла с работы, поужинала, посмотрела фильм, позвонила маме, выгуляла собаку, приняла душ, и тут ей пришло сообщение от…» — кто отправил сообщение, сеть уже не помнила. Контекст длины больше десяти слов терялся.

Второй — медленное обучение. Слова обрабатываются последовательно, поэтому вы не можете ускорить процесс, просто добавив больше процессоров. Это как заставить десять человек читать книгу вместе, но каждый следующий не может начать свою страницу, пока предыдущий не закончит.

Трансформер: всё и сразу В 2017 году группа исследователей из Google опубликовала статью «Attention Is All You Need». Они предложили архитектуру, которая обрабатывает все слова предложения одновременно, а не по очереди. Это стало возможным благодаря механизму, который назвали «внимание» (attention).

Представьте, что вы смотрите на картину. Вы не перебираете каждый пиксель слева направо и сверху вниз. Ваш взгляд моментально выделяет главное: лица, контрастные пятна, движения. Так же и трансформер «смотрит» на все слова в тексте одновременно и определяет, какие из них важны для понимания каждого конкретного слова.

Как работает механизм внимания Возьмём простую фразу: «Кошка, которая сидела на коврике, поймала мышь». Когда нейросеть доходит до слова «поймала», ей нужно понять, кто именно поймал. В русском языке окончание глагола указывает на женский род, но в других языках без этого контекст критичен.

Механизм внимания позволяет модели для слова «поймала» вычислить веса связи со всеми остальными словами в предложении. «Кошка» получит высокий вес, потому что это одушевлённое существительное в именительном падеже. «Коврик» получит низкий вес, потому что на нём сидят, а не ловят. В результате модель «понимает», что действие совершает кошка.

Математически это выглядит так: каждое слово превращается в числовой вектор — эмбеддинг. Затем для каждого слова вычисляются три вспомогательных вектора: запрос (query), ключ (key) и значение (value). Запрос от текущего слова сравнивается с ключами всех других слов. Чем ближе запрос к ключу, тем выше вес внимания. Дальше выходные векторы складываются с этими весами, и получается контекстно-зависимое представление слова.

Многоголовое внимание: почему одного взгляда мало В языке связи между словами бывают разной природы. В предложении «Анна дала Борису яблоко» можно спросить: кто дал? кто получил? что дали? Это три разных типа связей.

Трансформер использует не одно внимание, а несколько — от 8 до 96 в больших моделях. Каждая «голова» внимания учится выделять свой тип связей. Одна отвечает за грамматическое согласование, другая — за семантическую близость, третья — за анафоры (к кому относится местоимение), четвёртая — за порядок слов. Потом результаты всех голов просто склеиваются и подаются дальше.

Именно многоголовое внимание позволяет модели понимать длинные и сложные тексты, удерживая контекст на тысячи токенов. В современных моделях вроде GPT-4 или Gemini контекстное окно достигает 128 тысяч токенов — это объём текста размером с роман «Война и мир».

Почему трансформеры обучаются быстрее Главный секрет трансформера — параллелизм. Поскольку все слова обрабатываются одновременно, модель можно обучать на больших графических процессорах, которые выполняют матричные операции массово. Время обучения сократилось с недель до дней, а размер модель — вырос до сотен миллиардов параметров.

Именно это позволило в 2020 году выпустить GPT-3 на 175 миллиардов параметров, обученный на огромном корпусе текстов из интернета. Модель не просто выучила грамматику и факты — она научилась следовать инструкциям, писать сочинения, отвечать на вопросы и даже генерировать программный код.

А что насчёт генерации нового текста Когда вы задаёте вопрос ChatGPT, модель не думает в привычном смысле. Она просто предсказывает следующее слово (точнее, токен) за предыдущими. На вход подаётся вся ваша переписка. Модель вычисляет вероятности для всех возможных следующих токенов — их в словаре около 50-100 тысяч — и выбирает один. Потом приписывает его к последовательности и повторяет процесс.

Важное уточнение: модель никогда не видела ваш вопрос целиком. Она смотрит только на то, что написано до текущей позиции, и пытается продолжить максимально правдоподобно. Если вы спрашиваете: «Какая столица Франции?» — модель не ищет в памяти ответ, а просто продолжает текст, который вероятнее всего встретился бы в интернете после такого вопроса. И с высокой вероятностью это будет «Париж».

Почему модель иногда ошибается Отсутствие истинного понимания — главная причина галлюцинаций нейросетей. Модель не отличает факт от вымысла. Если в тренировочных данных было сказано, что столица Норвегии — Стокгольм (например, в шуточном посте на форуме), модель может повторить эту ошибку. Она не проверяет истинность, она подражает вероятностным паттернам.

Именно поэтому генеративные модели иногда выдают абсурдные ответы с полной уверенностью. Они не врут осознанно — они просто выдают наиболее вероятное продолжение текста, а наиболее вероятное иногда оказывается неправдой.

Что дальше Архитектура трансформера остаётся доминирующей с 2017 года. Попытки её заменить пока не увенчались успехом. Компании соревнуются в масштабе: миллиарды параметров, триллионы токенов обучения, миллионы долларов на один запуск.

Но уже сейчас понятно, что простое увеличение размера даёт убывающую отдачу. Будущее — за более эффективными архитектурами, мультимодальными моделями (работающими с текстом, изображениями, видео и звуком одновременно), а также за внедрением механизмов рассуждения вместо простого предсказания следующего слова.

Механизм внимания, который начинался как способ не забывать контекст, превратился в универсальный инструмент обработки последовательностей. Он работает не только с текстом, но и с изображениями, звуком, видео, генетическими последовательностями и даже с графами знаний. Внимание оказалось тем самым ключом, который открыл дверь в эру генеративного искусственного интеллекта.

Subscribe to our blog

Get new articles and practical materials on business automation straight to your inbox