Специалисты факультета вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова разработали алгоритм для автоматического поиска ключевых слов в рукописных текстах. Новинка призвана упростить работу с архивными документами.
Поиск по рукописным источникам до сих пор остаётся трудной задачей для компьютерных систем распознавания текста. Причина — сложность анализа почерка и структуры письма, то есть расположения слов на странице. Новый метод позволяет не только находить нужные слова в рукописях, но и ранжировать найденные фрагменты по степени соответствия запросу.
«Авторы предложили новый подход, при котором рукописный текст рассматривается как последовательность отдельных штрихов — базовых элементов письма, формируемых движением пера. Алгоритм включает сегментацию изображения на штрихи, их нормализацию и классификацию с использованием математических описаний формы. Далее выполняется сопоставление последовательностей штрихов запроса и документа, что позволяет находить совпадения и оценивать их точность», — рассказали в МГУ.
Суть подхода в том, что система не пытается сразу «прочитать» написанное, как это делают стандартные программы распознавания, а работает напрямую с изображением, разбивая его на отдельные штрихи и сравнивая их с эталонными. Это позволяет обойти типичные ограничения классических методов.
«Мы предлагаем рассматривать рукописный текст как структурированный набор штрихов, отражающих сам процесс письма. Такой подход позволяет обойти ограничения классического распознавания и работать напрямую с изображениями рукописей. Это особенно важно для архивов и исторических документов, где сохранение визуальных особенностей текста имеет принципиальное значение», — отметил профессор кафедры математического прогнозирования ВМК МГУ Леонид Местецкий.
В экспериментах с реальными рукописями алгоритм показал высокую точность обнаружения заданных элементов. Разработка может применяться при работе с архивными документами, историческими рукописями и материалами, представленными в виде сканов и фотографий, сообщает ТАСС.
