Новости

Ученые создали нейросеть для распознавания химических формул в научных статьях
Ученые создали нейросеть для распознавания химических формул в научных статьях
2 марта 2022

Исследователи из Университета «Сириус», МГУ и стартапа «Синтелли» из Сколтеха разработали нейронную сеть для автоматического распознавания химических формул на сканах научных статей. В ближайшее время нейросеть сможет «читать» и «понимать» статьи не хуже высококвалифицированного специалиста. Результаты совместного научного труда опубликованы в журнале Chemistry-Methods, выпускаемом издательством Европейского химического общества.

Кажется, что цифровизация проникла уже во все области нашей жизни, однако до сих пор не редкой является ситуация, когда химикам приходится искать оригиналы научных журналов или диссертаций, в которых можно получить информацию о малоизученных молекулах. До сих пор множество печатных источников остаются не оцифрованными, что сильно усложняет жизни исследователям.

При разработке нейросети ученые столкнулись с проблемой – не существует единого стандарта представления химических формул. В арсенале химиков есть целый набор приемов для сокращения записи известных химических групп. Это создает проблемы при попытке расшифровать химические формулы очередной научной статьи. Тем более сложной эта задача кажется для алгоритмов.

Однако в ходе работы нейросеть смогла удивить исследователей – ей удалось выучить практически все варианты написания тех или иных формул, если выбранный стиль отображения был представлен в обучающем наборе данных. Но такой подход требует десятки миллионов примеров для обучения, а вырезать все эти примеры из журналов просто невозможно. Тогда ученые разработали генератор данных, который будет создавать случайные молекулярные шаблоны, комбинируя различные фрагменты молекул и стили отрисовки.

Разработанный алгоритм комбинирует молекулы, функциональные группы, шрифты, стили и даже погрешности печати, фрагменты других молекул, фрагменты аннотаций и так далее. По словам разработчиков, даже экспертам будет сложно определить взяли ли молекулу из существующей статьи или ее рисунок был создан генератором.

Распознавание искусственным интеллектом молекулярных структур и их перевод в понятный компьютеру язык освободит ученых от затратных по времени задач и ускорит развитие химии, ведь формулы станут доступны широкому кругу специалистов.

Смотрите также:
04.03.2025
Сириус стал главным научным партнёром всероссийской олимпиады по математическому моделированию
03.03.2025
В Университете «Сириус» создают искусственные модели опухоли для разработки новых подходов к лечению рака
26.02.2025
Открыт приём заявок от архитектурных бюро стран БРИКС на разработку мастер-плана научно-технологических районов Сириуса
25.02.2025
В Абу-Даби завершился Первый научно-образовательный форум Sirius Talent Summit
24.02.2025
До начала приёма заявок на конкурс научных проектов в Сириусе осталась одна неделя
18.02.2025
На поддержку научных проектов Сириус выделит 1,14 миллиарда рублей

Обратная связь

Для обеспечения удобства работы с сервисами данного сайта и поддержания высокого уровня их безопасности мы используем файлы cookie. Подробное описание используемых нами файлов cookie, порядке их отключения содержится в Политике конфиденциальности . Нажимая на кнопку «СОГЛАСЕН», Вы подтверждаете, что проинформированы об использовании cookies на нашем сайте, а также принимаете наши Политику конфиденциальности и Правила пользования сайтом.

Согласен