Мозг понимает речь по принципу работы нейросетей GPT

Светящиеся нейронные пути и потоки цифровых данных, переплетающиеся внутри абстрактного контура человеческого мозга на фоне темной серверной комнаты.

Новое исследование показывает, что человеческий мозг обрабатывает устную речь поэтапно – процесс, поразительно напоминающий работу современных языковых моделей искусственного интеллекта. Записывая активность мозга людей, слушавших рассказ, ученые обнаружили, что поздние стадии мозговых реакций соответствуют более глубоким слоям ИИ-систем. Особенно ярко это проявлялось в известных языковых зонах, таких как область Брока.

Исследование, опубликованное в журнале Nature Communications, было проведено доктором Ариэлем Гольдштейном из Еврейского университета в сотрудничестве с доктором Мариано Шайном из Google Research и профессором Ури Хассоном и Эриком Хэмом из Принстонского университета. Используя данные электрокортикографии участников, которые в течение тридцати минут слушали подкаст, команда отследила последовательность нейронной активности. Оказалось, что мозг следует структурированной цепочке обработки, которая очень близка к многоуровневой архитектуре больших языковых моделей, таких как GPT-2 и Llama 2.

Когда мы слушаем речь, мозг не улавливает смысл мгновенно. Каждое слово проходит через ряд нейронных этапов, разворачивающихся во времени. Ученые показали, что этот процесс повторяет то, как ИИ-модели анализируют язык. Ранние слои ИИ фокусируются на базовых характеристиках слов, в то время как более глубокие слои объединяют контекст, интонацию и общий смысл. Активность человеческого мозга следовала той же схеме: ранние нейронные сигналы совпадали с начальными этапами обработки в ИИ, а более поздние реакции мозга – с глубокими слоями моделей.

«Больше всего нас удивило, насколько точно временная развертка смысла в мозге соответствует последовательности преобразований внутри больших языковых моделей, – комментирует доктор Гольдштейн. – Несмотря на то, что эти системы устроены совершенно по-разному, обе, по-видимому, сходятся в схожем пошаговом построении понимания».

Результаты исследования ставят под сомнение давние представления о понимании языка, основанные на жестких правилах, и указывают на более гибкий и статистический процесс, в котором смысл постепенно формируется из контекста. Оказалось, что даже классические лингвистические элементы, такие как фонемы и морфемы, объясняют активность мозга в реальном времени хуже, чем контекстуальные представления, создаваемые ИИ-моделями. Это подтверждает, что мозг в большей степени полагается на плавающий контекст, а не на строгие языковые «кирпичики».

Чтобы способствовать дальнейшему прогрессу в этой области, команда сделала полный набор нейронных записей и языковых данных общедоступным. Этот открытый датасет позволит исследователям со всего мира сравнивать различные теории понимания языка и разрабатывать вычислительные модели, которые более точно отражают работу человеческого разума.