Представьте, что вы хотите создать лекарство. Разработку лекарственных препаратов с заранее заданными свойствами называют драг-дизайном. Лекарство, попав в организм человека, должно воздействовать на причину болезни. На молекулярном уровне это нарушение работы каких-то белков и генов их кодирующих. В драг-дизайне это называют мишенью. Если лекарство противовирусное, то оно должно как-то мешать вирусам встраивать свой геном в человеческий. Тогда мишенью будет уже белок вируса. Структура встраивающегося белка вируса известна, и даже известно, какое место у него самое важное — сайт связывания. Если вставить в это место, в сайт связывания, «затычку» в виде определенной молекулы химического соединения, то белок не сможет «вживиться» в геном человека, и вирус умрет. Получается, находишь «затычку» — будет у тебя лекарство от болезни. Читать далее
Но как найти нужные молекулы? Исследователям здесь на помощь приходят огромные базы веществ. Для отбора берутся специальные программы, которые используя приближения квантовой химии оценивают место и силу с которой сможет прицепиться молекула-«затычка» к белку. Но оказывается, что в базах есть только форма вещества, а для адекватной оценки этим программам требуется еще и информация о состоянии всех атомов и соединений в молекуле. Задачей определения этих состояний и занимается разработанная исследователями компьютерная система Knodle. С помощью новых технологий можно сузить область поиска с сотен тысяч веществ всего до сотни. Эту сотню уже проверить и получить, например, Ралтегравир — лекарство, с 2011 года активно используемое для профилактики ВИЧ.
Со школы все привыкли видеть органические вещества как буквы с палочками (структура вещества) и также понимать, что на самом деле никаких палочек нет. Ведь каждая палочка — это связь электронов, которые подчиняются законам квантовой химии. В случае одной простой молекулы опытный химик интуитивно чувствует, какие должны быть гибридизации (со сколькими соседними атомами он соединен), и за несколько часов кропотливой работы со справочниками сможет восстановить в ней все связи. Он может это делать, потому что видел сотни и сотни похожих соединений и знает, что если кислород «вот так вот торчит», то скорее всего он связан двойной связью. В своей работе аспирантка МФТИ Мария Кадукова и научный сотрудник лаборатории структурной биологии рецепторов, сопряжённых с G белком, МФТИ Сергей Грудинин решили доверить эту интуицию компьютеру, используя для этого технологии машинного обучения.
Сравните «Твердый полый предмет с ручкой, отверстием сверху и удлинением сбоку, в конце которого тоже отверстие» и «Сосуд для приготовления чая». И то и другое достаточно хорошо определяет, что такое чайник, но второе объяснение проще и в него больше верится. Так же и в машинном обучении, самый лучший алгоритм обучения — это самый простой из работающих. Поэтому исследователи выбрали нелинейный метод опорных векторов (SVM), метод, который себя зарекомендовал в распознавании рукописного текста и изображений. На вход ему давали расположения соседних атомов, а на выходе получали гибридизацию.
Хорошее обучение требует множество примеров, и ученые составили их из 7605 соединений с известной структурой и состояниями атомов. «В этом кроется решающая сила разработанного пакета, так как при обучении на большей базе результат распознавания лучше. Сейчас Knodle находится на шаг впереди подобных себе программ: он допускает всего 3.9% ошибок, тогда как ближайший конкурент 4.7%», объясняет Мария Кадукова. И это не единственное преимущество. Программный комплекс легко изменять под конкретную задачу. Например, в данный момент Knodle не работает с веществами, содержащими металлы, потому что эти соединения относительно редки. Но если окажется, что лекарство от Альцгеймера будет заметно эффективней, если в нем будет металл, то для адаптации программы потребуется лишь набрать базу с металлическими соединениями. Поэтому остается только догадываться, для какой неизлечимой на данный момент болезни найдут лекарство, используя этот инструмент.