Новости

Ученые создали нейросеть для распознавания химических формул в научных статьях
Ученые создали нейросеть для распознавания химических формул в научных статьях
2 марта 2022

Исследователи из Университета «Сириус», МГУ и стартапа «Синтелли» из Сколтеха разработали нейронную сеть для автоматического распознавания химических формул на сканах научных статей. В ближайшее время нейросеть сможет «читать» и «понимать» статьи не хуже высококвалифицированного специалиста. Результаты совместного научного труда опубликованы в журнале Chemistry-Methods, выпускаемом издательством Европейского химического общества.

Кажется, что цифровизация проникла уже во все области нашей жизни, однако до сих пор не редкой является ситуация, когда химикам приходится искать оригиналы научных журналов или диссертаций, в которых можно получить информацию о малоизученных молекулах. До сих пор множество печатных источников остаются не оцифрованными, что сильно усложняет жизни исследователям.

При разработке нейросети ученые столкнулись с проблемой – не существует единого стандарта представления химических формул. В арсенале химиков есть целый набор приемов для сокращения записи известных химических групп. Это создает проблемы при попытке расшифровать химические формулы очередной научной статьи. Тем более сложной эта задача кажется для алгоритмов.

Однако в ходе работы нейросеть смогла удивить исследователей – ей удалось выучить практически все варианты написания тех или иных формул, если выбранный стиль отображения был представлен в обучающем наборе данных. Но такой подход требует десятки миллионов примеров для обучения, а вырезать все эти примеры из журналов просто невозможно. Тогда ученые разработали генератор данных, который будет создавать случайные молекулярные шаблоны, комбинируя различные фрагменты молекул и стили отрисовки.

Разработанный алгоритм комбинирует молекулы, функциональные группы, шрифты, стили и даже погрешности печати, фрагменты других молекул, фрагменты аннотаций и так далее. По словам разработчиков, даже экспертам будет сложно определить взяли ли молекулу из существующей статьи или ее рисунок был создан генератором.

Распознавание искусственным интеллектом молекулярных структур и их перевод в понятный компьютеру язык освободит ученых от затратных по времени задач и ускорит развитие химии, ведь формулы станут доступны широкому кругу специалистов.

Смотрите также:
Ученые Университета «Сириус» разработают методы контроля качества передовой вакцины от рака
09.07.2024 16:13:00
#наука #экология
В Университете «Сириус» обсудили подготовку аналитического доклада по вопросам изучения климата
08.07.2024 09:43:00
В «Сириусе» впервые прошла университетская регата
Магистранты Университета «Сириус» прошли практику на опытной станции ВИР
Университет «Cириус» будет выпускать магистров антихакинга
Ученые Университета «Сириус» помогли сформулировать новые клинические рекомендации по работе с детьми с аутизмом

Обратная связь

Для обеспечения удобства работы с сервисами данного сайта и поддержания высокого уровня их безопасности мы используем файлы cookie. Подробное описание используемых нами файлов cookie, порядке их отключения содержится в Политике конфиденциальности . Нажимая на кнопку «СОГЛАСЕН», Вы подтверждаете, что проинформированы об использовании cookies на нашем сайте, а также принимаете наши Политику конфиденциальности и Правила пользования сайтом.

Согласен