Опубликована первая в мире нейросетевая модель, обученная на самом полном геноме человека

23 июнь 2022 16:40 #110481 от ICT
Исследователи из Института искусственного интеллекта AIRI обучили нейросетевую модель на самой полной на сегодняшний день сборке генома человека. Модель, названная GENA_LM, выложена в open source и доступна биологам по всему миру для использования в научных исследованиях. Геном – это совокупность наследственного материала, заключенного в клетку организма. ДНК же содержит в себе генетическую информацию, которая определяет характеристики человека – от цвета глаз до предрасположенности к определенным заболеваниям. Последовательность ДНК представляет из себя "текст", закодированный чередованием 4 "букв" – нуклеотидов. Размер генома человека составляет более 3 млрд. таких символов. Однако менее 2% нашего генома кодируют гены, с которых впоследствии образуются молекулы РНК, участвующие в синтезе белков. Остальные 98% генома – последовательность ДНК, которая не кодирует белки и до сих пор мало изучена. В последние годы в биоинформатике набирают популярность подходы, заимствующие методы обработки естественного языка. Эти методы позволяют выучить закономерности или, другими словами, построить модель последовательности элементов. Особенно важно, что знание, аккумулированное в модели ДНК в процессе обучения, можно использовать повторно для решения широкого класса исследовательских задач: поиск участков генома, выполняющих регуляторные функции в процессах считывания РНК, синтеза белков; определение влияния отдельных мутаций на интенсивность работы генов; предположение патогенного или доброкачественного эффекта от мутаций в ДНК, меняющих одну аминокислоту в белке, классификации живых организмов на основе данных секвенирования и многих других. В данный момент в мире уже представлен набор достаточно хороших моделей для последовательностей белков (например, ESM), но для последовательностей ДНК публично доступна только разработанная коллективом ученых из США модель DNABERT. По сравнению с белковыми последовательностями, ДНК намного длиннее, поэтому строить модель на последовательностях ДНК достаточно сложно. "Наша модель - первая языковая модель для ДНК, обученная на самой полной версии генома человека – T2T-CHM13, которая была опубликована в конце марта 2022 года. 1 Она может обрабатывать последовательности в 6 раз длиннее, чем DNABERT. Тестирование полученной ДНК модели на одной из задач генетики – предсказании последовательностей, способных "включать" гены (промоутеров) уже показало результаты превосходящие аналогичные с использованием DNABERT", - сообщила Ольга Кардымон, руководитель научной группы "Биоинформатика" Института искусственного интеллекта AIRI. В ближайшем будущем планируется улучшение самой модели и расширение ее возможностей̆. А для решения прикладных задач скоро будут выложены версии модели для предсказания сайтов сплайсинга, поиска функционально- важных малых рамок считывания белка (uORF), предсказания изменения интенсивности работы генов. Решение этих задач поможет понять больше о механизмах возникновения заболеваний и процессах образования злокачественных клеток. Список задач может быть расширен, исходя из научно- практических интересов биологов, биоинженеров и врачей-генетиков. "Опубликованная модель – лишь первый шаг нашего исследования. Впереди эксперименты по применению трансформерных архитектур с памятью, которые позволят увеличить размер входной последовательности ещё в несколько раз. Это позволит повысить точность модели и в итоге увеличит качество решения прикладных задач", - отметил Михаил Бурцев, директор по фундаментальным исследованиям Института искусственного интеллекта AIRI, руководитель научной группы "Новые нейронные архитектуры". Ссылка на источник


  • Сообщений: 103416

  • Пол: Не указан
  • Дата рождения: Неизвестно
  • Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.

    Похожие статьи

    ТемаРелевантностьДата
    Опубликована первая фотография на Meizu E214.72Среда, 19 апреля 2017
    "Первая в истории пересадка головы человека" может быть дерзкой рекламой новой видеоигры, заподозрили геймеры12.23Четверг, 23 апреля 2015
    Nokia расширяет возможности человека в мире, объединенном коммуникациями11.49Вторник, 17 мая 2016
    Выпущена первая в мире SIM-карта для 5G11.47Вторник, 26 февраля 2019
    Создана первая в мире ЖК-панель 8К для мониторов11.34Пятница, 02 октября 2015
    Заработала «первая в мире» межконтинентальная сеть 5G11.34Вторник, 21 февраля 2017
    Выпущена первая в мире банковская Bitcoin-карта11.22Понедельник, 23 ноября 2015
    Первая в мире 1 ТБ флешка продается по цене ноутбука11.22Понедельник, 08 апреля 2019
    В Германии появится первая в мире автономная сеть 5G11.22Вторник, 17 декабря 2019
    Первая в мире флешка емкостью 1 ТБ вышла в продажу по цене смартфона10.99Четверг, 16 мая 2019

    Мы в соц. сетях