Лингвисты выяснили, почему язык не похож на компьютерный код

Абстрактная сеть из светящихся букв и слов, которые складываются в узнаваемые очертания кошки и автомобиля на темном фоне, напоминающем нейронные связи.

Человеческий язык невероятно богат и сложен. Однако с точки зрения теории информации, те же самые идеи можно было бы передать в гораздо более сжатом формате. Это поднимает интригующий вопрос: почему люди не общаются с помощью цифровой системы из единиц и нулей, как это делают компьютеры? Лингвист Михаэль Хан из Саарбрюккена вместе с Ричардом Футреллом из Калифорнийского университета в Ирвайне решили найти ответ, создав модель, которая объясняет, почему человеческий язык устроен именно так, а не иначе. Результаты их исследования были недавно опубликованы в журнале «Nature Human Behaviour».

Несмотря на то, что в мире насчитывается около 7000 языков – от тех, на которых говорят лишь несколько человек, до глобальных, таких как китайский или английский, – все они служат одной цели: передаче смысла через комбинацию слов и фраз. «Это на самом деле очень сложная структура, – объясняет Михаэль Хан. – Поскольку природа стремится к максимальной эффективности и экономии ресурсов, вполне резонно спросить, почему мозг кодирует лингвистическую информацию таким сложным способом, а не цифровым, как компьютер». Теоретически, двоичный код был бы более эффективен, так как он сжимает информацию сильнее, чем устная речь. Так почему же люди не общаются, как дроид R2-D2 из «Звездных войн»?

Ответ, по мнению исследователей, кроется в том, что «человеческий язык формируется реалиями окружающего нас мира». Если бы кто-то говорил о гибриде половины кошки с половиной собаки, используя абстрактный термин «гол», никто бы его не понял, поскольку такое существо не является частью чьего-либо жизненного опыта. Точно так же бессмысленно смешивать слова «кошка» и «собака» в нечитаемую последовательность букв, например, «касокоб». В то время как фраза «кошка и собака» понятна мгновенно, поскольку оба животных являются знакомыми нам понятиями. Язык работает, потому что он напрямую связан с общими знаниями и пережитым опытом.

Проще говоря, нашему мозгу легче идти по пути, который кажется более сложным. Хотя естественный язык и не сжат до предела, он создает гораздо меньшую нагрузку на мозг, поскольку мы обрабатываем слова в постоянном взаимодействии с тем, что уже знаем о мире. Хан сравнивает это с поездкой на работу: «Обычный маршрут настолько нам знаком, что мы едем почти на автопилоте. Мозг точно знает, чего ожидать, поэтому затрачивает гораздо меньше усилий. Более короткий, но незнакомый путь кажется утомительнее, так как требует от нас повышенного внимания». С математической точки зрения, количество информации, которое мозгу необходимо обработать, оказывается намного меньше, когда мы говорим привычными, естественными способами.

Другими словами, понимание двоичного кода потребовало бы от нас колоссальных умственных усилий. Вместо этого мозг постоянно делает прогнозы о том, какие слова и фразы скорее всего прозвучат дальше. Этот механизм предсказания иллюстрируется на примере немецкой фразы «Die fünf grünen Autos» («пять зеленых машин»). Каждое последующее слово сужает круг возможных значений, пока в конце не остается единственная верная интерпретация. Мозг последовательно снижает неопределенность, опираясь на грамматические и смысловые подсказки. Нарушение этого порядка, как во фразе «Grünen fünf die Autos» («зеленых пять машины»), не позволяет мозгу легко выстроить смысл, что требует дополнительных когнитивных затрат.

Выводы ученых показывают, что человеческий язык эволюционировал таким образом, чтобы в первую очередь снизить когнитивную нагрузку, а не достичь максимального сжатия информации. Эти открытия могут быть полезны для совершенствования больших языковых моделей – систем, лежащих в основе генеративного искусственного интеллекта, такого как ChatGPT. Более глубокое понимание того, как человеческий мозг обрабатывает язык, поможет создавать системы ИИ, которые будут лучше соответствовать естественным моделям общения.