Новости

Ученые создали нейросеть для распознавания химических формул в научных статьях
Ученые создали нейросеть для распознавания химических формул в научных статьях
2 марта 2022

Исследователи из Университета «Сириус», МГУ и стартапа «Синтелли» из Сколтеха разработали нейронную сеть для автоматического распознавания химических формул на сканах научных статей. В ближайшее время нейросеть сможет «читать» и «понимать» статьи не хуже высококвалифицированного специалиста. Результаты совместного научного труда опубликованы в журнале Chemistry-Methods, выпускаемом издательством Европейского химического общества.

Кажется, что цифровизация проникла уже во все области нашей жизни, однако до сих пор не редкой является ситуация, когда химикам приходится искать оригиналы научных журналов или диссертаций, в которых можно получить информацию о малоизученных молекулах. До сих пор множество печатных источников остаются не оцифрованными, что сильно усложняет жизни исследователям.

При разработке нейросети ученые столкнулись с проблемой – не существует единого стандарта представления химических формул. В арсенале химиков есть целый набор приемов для сокращения записи известных химических групп. Это создает проблемы при попытке расшифровать химические формулы очередной научной статьи. Тем более сложной эта задача кажется для алгоритмов.

Однако в ходе работы нейросеть смогла удивить исследователей – ей удалось выучить практически все варианты написания тех или иных формул, если выбранный стиль отображения был представлен в обучающем наборе данных. Но такой подход требует десятки миллионов примеров для обучения, а вырезать все эти примеры из журналов просто невозможно. Тогда ученые разработали генератор данных, который будет создавать случайные молекулярные шаблоны, комбинируя различные фрагменты молекул и стили отрисовки.

Разработанный алгоритм комбинирует молекулы, функциональные группы, шрифты, стили и даже погрешности печати, фрагменты других молекул, фрагменты аннотаций и так далее. По словам разработчиков, даже экспертам будет сложно определить взяли ли молекулу из существующей статьи или ее рисунок был создан генератором.

Распознавание искусственным интеллектом молекулярных структур и их перевод в понятный компьютеру язык освободит ученых от затратных по времени задач и ускорит развитие химии, ведь формулы станут доступны широкому кругу специалистов.

Смотрите также:
Ученые и эксперты из стран БРИКС смогут стать частью научных команд Сириуса в сфере экологии и климата
В Сириусе впервые прошла Международная молодежная мастерская по медицинской химии
Молодежная климатическая неделя открылась в Сириусе
Ученые Сириуса разрабатывают новый способ лечения травм спинного мозга
В Университете «Сириус» стартовал Менделеевский съезд
Молодые медхимики обсудят в «Сириусе» особенности создания инновационных лекарств

Обратная связь

Для обеспечения удобства работы с сервисами данного сайта и поддержания высокого уровня их безопасности мы используем файлы cookie. Подробное описание используемых нами файлов cookie, порядке их отключения содержится в Политике конфиденциальности . Нажимая на кнопку «СОГЛАСЕН», Вы подтверждаете, что проинформированы об использовании cookies на нашем сайте, а также принимаете наши Политику конфиденциальности и Правила пользования сайтом.

Согласен