Специалисты Московского государственного университета имени М. В. Ломоносова создали новую программную библиотеку для анализа данных, которая позволяет прогнозировать вероятность наступления различных событий во времени. Разработка, получившая название Survivors, помогает с высокой точностью определять риски для пациентов и предсказывать возможный выход из строя промышленного и медицинского оборудования.
Новый инструмент, основанный на языке программирования Python и передовых методах машинного обучения, решает ряд проблем, свойственных традиционным методам анализа. В отличие от существующих аналогов, требующих сложной предварительной подготовки данных и строгих допущений, библиотека Survivors способна работать со сложными и даже неполными наборами информации, включая пропущенные значения и так называемые цензурированные наблюдения, когда точное время события неизвестно.
По словам разработчиков с факультета вычислительной математики и кибернетики МГУ, их целью было создание универсального инструмента для исследователей и практиков. Как передает ТАСС, алгоритмы библиотеки позволяют работать с реальными данными без предварительной обработки, учитывая их сложность и неопределенность. Это достигается за счет использования моделей деревьев решений и их ансамблей, которые адаптированы для задач анализа выживаемости и обеспечивают высокую точность прогнозов.
Эффективность библиотеки была подтверждена в ходе тестирования на девяти открытых медицинских наборах данных и промышленных датасетах. Результаты показали, что Survivors обеспечивает более стабильные и точные предсказания по сравнению с классическими моделями, требуя при этом минимальных настроек со стороны пользователя. Алгоритмы оптимизированы для работы с большими массивами информации и обладают высокой вычислительной эффективностью.
Благодаря своей универсальности разработка может найти применение в самых разных сферах. В медицине она поможет оценивать продолжительность жизни пациентов и прогнозировать риски на основе понятных для экспертов правил. В бизнесе ее можно использовать для расчета вероятности оттока клиентов, а в промышленности — для предсказания износа оборудования и мониторинга технического состояния систем.
Гибкость архитектуры и открытая лицензия делают библиотеку удобной для интеграции в уже существующие аналитические системы. Это предоставляет исследователям и аналитикам доступ к современным методам машинного обучения без необходимости глубоко вникать в технические детали алгоритмов, что может значительно ускорить научные и практические изыскания в различных областях.