В России хотят автоматизировать работу с историческими рукописными документами

Специалисты факультета вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова разработали алгоритм для автоматического поиска ключевых слов в рукописных текстах. Новинка призвана упростить работу с архивными документами.

Поиск по рукописным источникам до сих пор остаётся трудной задачей для компьютерных систем распознавания текста. Причина — сложность анализа почерка и структуры письма, то есть расположения слов на странице. Новый метод позволяет не только находить нужные слова в рукописях, но и ранжировать найденные фрагменты по степени соответствия запросу.

«Авторы предложили новый подход, при котором рукописный текст рассматривается как последовательность отдельных штрихов — базовых элементов письма, формируемых движением пера. Алгоритм включает сегментацию изображения на штрихи, их нормализацию и классификацию с использованием математических описаний формы. Далее выполняется сопоставление последовательностей штрихов запроса и документа, что позволяет находить совпадения и оценивать их точность», — рассказали в МГУ.

Суть подхода в том, что система не пытается сразу «прочитать» написанное, как это делают стандартные программы распознавания, а работает напрямую с изображением, разбивая его на отдельные штрихи и сравнивая их с эталонными. Это позволяет обойти типичные ограничения классических методов.

«Мы предлагаем рассматривать рукописный текст как структурированный набор штрихов, отражающих сам процесс письма. Такой подход позволяет обойти ограничения классического распознавания и работать напрямую с изображениями рукописей. Это особенно важно для архивов и исторических документов, где сохранение визуальных особенностей текста имеет принципиальное значение», — отметил профессор кафедры математического прогнозирования ВМК МГУ Леонид Местецкий.

В экспериментах с реальными рукописями алгоритм показал высокую точность обнаружения заданных элементов. Разработка может применяться при работе с архивными документами, историческими рукописями и материалами, представленными в виде сканов и фотографий, сообщает ТАСС.


Подписывайтесь на Science XXI в Дзен и Telegram.

Поделиться с друзьями
Science XXI