Новости

Ученые создали нейросеть для распознавания химических формул в научных статьях
Ученые создали нейросеть для распознавания химических формул в научных статьях
2 марта 2022

Исследователи из Университета «Сириус», МГУ и стартапа «Синтелли» из Сколтеха разработали нейронную сеть для автоматического распознавания химических формул на сканах научных статей. В ближайшее время нейросеть сможет «читать» и «понимать» статьи не хуже высококвалифицированного специалиста. Результаты совместного научного труда опубликованы в журнале Chemistry-Methods, выпускаемом издательством Европейского химического общества.

Кажется, что цифровизация проникла уже во все области нашей жизни, однако до сих пор не редкой является ситуация, когда химикам приходится искать оригиналы научных журналов или диссертаций, в которых можно получить информацию о малоизученных молекулах. До сих пор множество печатных источников остаются не оцифрованными, что сильно усложняет жизни исследователям.

При разработке нейросети ученые столкнулись с проблемой – не существует единого стандарта представления химических формул. В арсенале химиков есть целый набор приемов для сокращения записи известных химических групп. Это создает проблемы при попытке расшифровать химические формулы очередной научной статьи. Тем более сложной эта задача кажется для алгоритмов.

Однако в ходе работы нейросеть смогла удивить исследователей – ей удалось выучить практически все варианты написания тех или иных формул, если выбранный стиль отображения был представлен в обучающем наборе данных. Но такой подход требует десятки миллионов примеров для обучения, а вырезать все эти примеры из журналов просто невозможно. Тогда ученые разработали генератор данных, который будет создавать случайные молекулярные шаблоны, комбинируя различные фрагменты молекул и стили отрисовки.

Разработанный алгоритм комбинирует молекулы, функциональные группы, шрифты, стили и даже погрешности печати, фрагменты других молекул, фрагменты аннотаций и так далее. По словам разработчиков, даже экспертам будет сложно определить взяли ли молекулу из существующей статьи или ее рисунок был создан генератором.

Распознавание искусственным интеллектом молекулярных структур и их перевод в понятный компьютеру язык освободит ученых от затратных по времени задач и ускорит развитие химии, ведь формулы станут доступны широкому кругу специалистов.

1
Смотрите также:
10.06.2025
Учёный Сириуса Максим Никитин получил Государственную премию за механизм хранения и передачи данных в ДНК
10.06.2025
В Сириусе пройдёт суперфинал международного чемпионата «РуКод»
09.06.2025
Студенты Сириуса представили проекты для внедрения в будущем кампусе
09.06.2025
Семейство редких «вечно молодых» животных обосновалось в Университете «Сириус»
06.06.2025
Университет приглашает абитуриентов на очные презентации образовательных программ
02.06.2025
Сириус открыл приём заявок на школу-конференцию для молодых учёных «Будущее городов»

Обратная связь

Нажимая на кнопку «СОГЛАСЕН», Вы подтверждаете, что проинформированы об использовании на нашем сайте файлов cookie, а также ознакомлены с нашей Политикой конфиденциальности.

Согласен