[ЗВУК] Сборка генома — не единственная технология, которая позволяет изучать геномы организмов. Подход ресиквенсинг, или перечитывание, позволяет характеризовать генетические вариации штаммов или популяций. Этот подход возможно использовать, например, для анализа бактерий или архей, равно как и более длинных геномов, то есть более крупных организмов, в том случае, если существует референсный геном, то есть хорошо прочитаный геном близкого родственника. Этот подход помогает лучше понять структуру бактериальных сообществ, функцию генов в бактерии, находящейся в различных селективных условиях или мутагенизированных штаммов, то есть выравнивание ваших прочтений против референсного генома покажет отличие одного от другого и области, в которых эти отличия находятся. Следующий этап — аннотация генома. Это процесс интерпретации сиквенсных данных с использованием биологической информации. Что же записано в нашем геноме? Какова же биологическая информация, которая там имеется? Для этого нам нужно определить, какие есть гены, и начинаем мы с того, что определяем их физическое начало и конец. Этот процесс называется gene prediction, или предсказание генов, то есть определение на последовательности ДНК кодирующих и некодирующих областей. Для этого используются разные методы и разные методы для кодирующих и некодирующих областей генома. Ab initio и подход, основанный на гомологии, используется для белок-кодирующих областей. Анализ tRNA, rRNA и sRNA — для некодирующих частей генома. Как же происходят предсказания генов? Сначала идентифицируются общие мотивы в известных генах, затем строится компьютерная модель, которая аккуратно описывает эти общие мотивы. Затем построенная модель используется для сканирования неохарактеризованных последовательностей, чтобы найти области, которые похожи на области, используемые в модели. И затем осуществляется тестирование и валидация полученных предсказаний. К статистическим, или ab initio, методам, используя статистические свойства ДНК для определения генов, относятся такие популярные компьютерные программы как GLIMMER, он в основном используется для прокариотических геномов, GeneMark, который используется как для прокариотических, так и эукариотических геномов, и ряд других программ. Программы, использующие метод гомологии, основан на сравнении последовательности ДНК с известными белковыми структурами или на схожести известных генов, и к ним относятся такие популярные программы как TBLASTN, TBLASTX, Procrustes и GeneWise. Аннотация геномов включает в себя структурную аннотацию, то есть определение геномных элементов, таких как открытая рамка считывания и их координаты на геноме, структура гена, кодирующие области, расположение регуляторных мотивов. А также функциональную аннотацию, то есть определение биологической информации и ее принадлежность к генетическим элементам, что включает в себя биохимическую функцию, биологическую функцию, регуляцию и экспрессию генов. Гены никогда не работают в изоляции. Наоборот, они вовлечены в большое количество взаимодействий. Биологические пути определены как серия таких взаимодействий между молекулами в клетке, которые ведут к образованию определенных продуктов или изменений в клетке. Такие пути приводят к сборке новых молекул, таких как жиры и белки. Они также могут способствовать включению и выключению генов. Анализ биологических путей сводит воедино всю информацию предсказанных генов, для того чтобы ответить на вопросы на клеточном уровне или на уровне целого организма. Он помогает интерпретировать данные в контексте биологических процессов и связей, приводит к анализу компонентов альтернативных путей, также позволяет проверить правильность аннотации генов, а также определяет метаболические и физиологические возможности организмов. Результаты биологических экспериментов, а также сопутствующего анализа нужно где-то хранить. Этой цели служит база данных, то есть организованные коллекции данных. Их на данный момент создано великое множество, служат они разным целям и задачам. Я привожу лишь очень короткий список баз данных, которые полезны в рамках этого курса и которые содержат информацию о геномах, о сиквенсе и структуре, и моделях белков, также информацию о разнообразных РНК и метаболитных путях. Биоинформатика нашла свое применение в огромном количестве областей знаний: это и микробиология, и разные области медицины, развитие новых лекарственных препаратов, изучение антибиотической устойчивости, эволюционные исследования, биотехнологии, изучение изменений климатических условий, создание альтернативных источников энергии, судебно- медицинская экспертиза и так далее. У каждой из этих областей есть свои специфические задачи, и для их решения требуются новые биоинформатические подходы и специфические программные продукты. Итак, биоинформатика — это биология и медицина, статистика и математика, программирование и алгоритмы, базы данных и онлайн-приложения. Об этом обо всем будет более подробно рассказано далее в нашем курсе. А пока я благодарю вас за то, что вы оставались со мной до конца этой лекции. До новых встреч! [ЗВУК]