Ученые из России и Великобритании совершили открытие в области искусственного интеллекта, определив теоретические пределы того, как большие языковые модели могут сжимать информацию. Согласно исследованию, о котором сообщает ТАСС, современные системы ИИ способны уплотнить текст объемом до полутора тысяч слов в один-единственный вектор — числовой набор, который модель использует для понимания и последующего восстановления исходного содержания. Это знание открывает путь к совершенствованию существующих и созданию новых, более эффективных систем искусственного интеллекта.
В основе работы больших языковых моделей лежит процесс преобразования текста в так называемые токены, которые представляют собой слова или их части. Каждому токену соответствует уникальный математический вектор. Давно стоял вопрос, какой объем информации можно закодировать в одном таком векторе. Как пояснил Юрий Куратов, руководитель научной группы в Институте искусственного интеллекта AIRI, удивительно, что небольшой вектор может управлять поведением огромной нейросети с миллиардами параметров, задавая ей программу действий на тысячи слов вперед. Это открывает значительные перспективы для разработки более мощных технологий обработки текста.
Для изучения этого феномена российские и британские исследователи создали специальный метод оценки способности ИИ к сжатию. Они протестировали его на шести популярных моделях с открытым исходным кодом, включая Pythia, LLaMA и Mamba. В качестве материала для анализа использовался набор данных, состоящий как из случайно сгенерированных текстов, так и из любительских рассказов, что позволило оценить способность моделей работать с незнакомой информацией.
Результаты расчетов показали, что все протестированные модели способны сжимать от нескольких десятков до сотен слов в одном векторе, однако их максимальные возможности сильно различаются. Лучшие результаты продемонстрировали модели семейства LLaMA. Теоретически они могут сжать текст объемом до 1500 слов в один вектор. Другие же системы показали более скромные результаты, обрабатывая от 80 до 512 токенов.
Важным открытием стало то, что на практике языковые модели используют лишь от 10% до 30% потенциальной емкости векторов. По мнению исследователей, это свидетельствует о наличии значительного резерва для дальнейшей оптимизации работы нейросетей. Эту избыточность можно будет использовать, например, для исправления ошибок в кодировании информации. Дальнейшие исследования будут направлены на то, чтобы понять, как реализовать эти возможности на практике.