
Современные крупные языковые модели способны выполнять разнообразные задачи с различными типами данных, включая обработку текстов на разных языках, генерацию компьютерного кода, решение математических задач и анализ изображений и аудио. Исследователи из Массачусетского технологического института изучили внутренние механизмы работы этих моделей.
Ученые обнаружили, что языковые модели имеют сходство с человеческим мозгом. Как известно, в передней височной доле мозга находится «семантический центр», который интегрирует информацию из разных источников — визуальных, тактильных и других. Исследователи выяснили, что языковые модели используют похожий механизм, обрабатывая данные разных типов централизованным способом через доминирующий язык модели.
В ходе экспериментов было установлено, что начальные слои модели обрабатывают данные в их специфическом формате, подобно специализированным отделам мозга. Затем модель преобразует токены в универсальные представления для дальнейшей обработки. При этом модель присваивает похожие представления входным данным со схожим смыслом, независимо от их типа — будь то изображения, аудио, код или математические выражения.
Исследователи считают, что такая стратегия «семантического центра» формируется во время обучения модели, поскольку это экономичный способ обработки разнообразных данных. Многие знания, такие как здравый смысл или фактическая информация, являются общими для разных языков. Однако существуют и культурно-специфические знания, которые могут потребовать особых механизмов обработки для конкретных языков. Это открывает перспективы для дальнейших исследований архитектуры моделей.