[ЗАСТАВКА] Здравствуйте. Тема нашей сегодняшней лекции — сборка геномов. Итак, у нас в руках есть почищенные данные, и что же дальше? А дальше мы приступим к их анализу. Анализировать мы их можем очень по-разному и зависеть это будет от нашей задачи. Мы, например, можем проанализировать каждый вид отдельно. Но, как вы помните, у нас таких прочтений получилось очень много, и времени такой анализ займёт у нас тоже очень много. Помимо всего прочего, все эти прочтения очень короткие. На длине такого прочтения не помещается ген, по крайней мере, основная их масса, не поместится на такой короткой длине. Кроме того, мы можем попробовать собрать геном, то есть использовать все эти индивидуальные риды, чтобы восстановить всю последовательность. Такая сборка чаще всего применяется тогда, когда вы работаете с организмом, который ранее никогда не был изучен, и вы первый, кто его секвенирует. Однако, может оказаться так, что какой-то близкий родственник вашего организма уже ранее был просеквенирован и был проанализирован и для него была получена высококачественная сборка, которая получила название референс. В таком случае вы можете её использовать, и она поможет вам собрать ваш геном быстрее и с лучшим качеством. Кроме того этот же самый референсный геном, то есть геном близкородственного организма, может быть использован для того, чтобы приложить к нему все риды нашего изучаемого организма, и просмотреть, какова разница между ними двумя. То есть, например, изучить индивидуальные замены, точечные замены, снипы и так далее. Однако, использование такого метода не позволит вам проанализировать разницу, то есть, если есть протяжённые области, в которых ваш геном сильно отличается от референсного, то эта информация вся останется за кадром и вы не сможете её проанализировать. Однако, достоинства и недостатки этого подхода будут детально обсуждены в следующей неделе и мы не будет сейчас на них останавливаться. Мы вернёмся с вами к сборке de novo. То есть у нас была выделена ДНК, мы её фрагментировали и сейчас пытаемся восстановиться её... всю её последовательность обратно. Фрагментировать ДНК мы можем очень по-разному. Например, мы можем разделить её на фрагменты длиной 250—600 пар нуклеотидов, а можем разделить на большие, скажем, 4—8 килобаз. Далее с помощью молекулярно-биологических способов мы обрабатываем концы этих фрагментов в зависимости от того, какую секвенсную технологию мы далее применим, и в результате секвенса получаем в нашем случае два набора данных, каждый из которых является парным, то есть в каждом случае мы секвенируем концы наших фрагментов вне зависимости от того, какой длины они есть. В первом случае, когда расстояния между ридами короткие, мы называем библиотеку Paird-End или парной, во втором случае, хоть она тоже парная и тоже может быть также названа, однако её назвали Mate Pair, чтобы не путать с первой. Хочу заметить, что расстояния между этими прочитанными концевыми фрагментами совсем не строго фиксированы. Как вы помните из лекции по контролю качества, разброс длин в библиотеке очень зависит от качества, то есть от вашей работы в лаборатории. Зачем же нам нужны библиотеки разной длины, почему недостаточно одной? Используя только короткие фрагменты, то есть библиотеку с короткими вставками, мы можем соединить как риды между собой, так и полученные контиги сориентировать друг относительно друга, только в том случае, если они на геноме расположены очень близко друг от друга, то есть расстояние между парными ридами, находящимися в разных контигах, не будет превышать этой длины. Однако, если мы добавим сюда библиотеку с более длинными вставками, то мы сможем добавить к ним и более удалённые фрагменты, и таким образом удлинить нашу сборку. Она не приведёт к полному восстановлению, мы получим скеффолды, о которых мы говорили раньше, однако это будут уже более длинные контиги и более длинные скеффолды. Мы знаем, что в наших... что в скеффолдах часть последовательности просеквенирована полностью, то есть мы знаем всю нуклеотидную последовательность этих участков, но контиги между собой соединены так называемыми дырками. Эти дырки заполнены буквами N, постолько-поскольку конкретного сиквенса мы не знаем, называются они гэпы или дырки, и ещё у них есть такое название, так называемый captured gap. Это значит «захваченная дырка», потому что она расположена внутри скеффолда, и мы имеем о ней представление, как я уже говорила, где она расположена и приблизительно какой она длины. То есть нам известно расположение и ориентация контигов, которые расположены вокруг этой дырки. Во времена использования Сэнгеровской технологии для секвенирования геномов традиционно создавались три библиотеки: трехкилобазная, восьмикилобазная и двадцати-, двадцатипятикилобазная библиотека. Выбор таких размеров обуславливался необходимостью разрешения довольно характерных повторов в геномах. Например, трехкилобазная библиотека позволяла разрешить повторы, связанные с IS элементами, мобильные элементы, часто встречающихся в составе генома. А длина таких повторов приблизительно 2 килобазы, и трехкилобазная библиотека прекрасно справлялась с этими размерами. Однако, длины этой библиотеки не хватило бы для того, чтобы разрешить повтор, связанный с рибосомальными оперонами. Рибосомальные опероны обычно присутствуют на геноме больше, чем один раз, и повтор, который нужно правильно разложить, правильно разобрать, он имеет длину приблизительно 5 килобаз. Для этого и служили восьмикилобазные библиотеки. Кроме того в геномах часто встречаются дупликации, размеры которых варьируют, однако двадцати-, двадцатипятикилобазная библиотека позволяла решить большое количество из них. Иногда приходилось создавать и более длинные библиотеки, но это очень кропотливая работа, и она использовалась тогда, когда было совершенно необходимо и другого метода разрешить проблему не существовало. Как мы знаем, новые секвенсные технологии в состоянии секвенировать очень коротенькие фрагменты, и создание длинных библиотек для них довольно большая проблема. Однако, это не значит, что современные производители секвенсных машин не понимают важности этих длиноразмерных, разноразмерных библиотек, они прекрасно понимают, что особенности генома не считаются ни с какими секвенсными технологиями, и IS элементы, и рибосомальные опероны, и прочие осложнения генома, они совершенно не знают, какой секвенсной технологией будут проанализированы. Поэтому компании уделяют большое внимание созданию различных протоколов и уже преуспели в таких длинах, как 8, 10, 15, и вот недавно было объявлено даже о пятидесятикилобазной библиотеке, которые призваны помочь при сборке геномов. Давайте посмотрим, как же влияют рассмотренные нами библиотеки, то есть размеры вставок, на качество получаемой сборки. Использование только маленьких библиотек приводит к созданию большой коллекции коротких фрагментов, добавление к ней следующей по размеру, например, двух-, восьмикилобазной библиотеки позволяет существенно удлинить эти контиги и уменьшить их количество, десяти-, двадцатикилобазная библиотека улучшает этот процесс ещё дальше, приводя даже к возможности закрыть геномы, то есть закольцевать или полностью покрыть геном скаффолдами, использование с ещё более длинной библиотеки, которая раньше назыв... представляла фазмидные библиотеки, а теперь это специальные протоколы для повторения таких... для воспроизведения таких больших фрагментов, может привести даже к полному закрытию генома, то есть получению сборки, в которой не присутствует никаких дырок. Теоретически, сборка генома не представляет особой сложности, но для этого весь ваш геном должен быть равномерно покрыт, риды не должны содержать ни малейших ошибок, и проба должна быть абсолютно чистой, в ней не должно быть никакой контаминации. На самом деле, жизнь не настолько проста. Мы знаем, что очень часто фрагменты ДНК, отдельные области ДНК генома довольно неравномерно покрыты, есть области, в которых нет покрытия совсем, а есть очень низкие, это зависит от GC состава, это зависит от... от покрытия генома, то есть как много данных мы с вами произвели. Кроме того, как бы тщательно мы и ни вычищали, всё равно остаются некоторые ошибки, которые чаще всего встречаются в середине рида, но они могут быть и где угодно, а с другой стороны всегда есть некий процент так называемых химерных ридов, которые приводят к объединению тех фрагментов ДНК, которые на хромосоме на самом деле расположены весьма далеко друг от друга. И в результате мы получаем сборку, состоящую из правильно собранных контигов, контигов, содержащих ошибки сборки, а также присутствие фрагментов ДНК, не относящихся к изучаемому нами геному, но по тем или иным причинам ранее не обнаруженным. То есть я говорю о фрагментах контаминации. Особо хочу остановиться на особенностях метагеномных данных, так как они сложны, постольку-поскольку метагеномные пробы содержат большое количество различных организмов, это сообщества грибов, или микроорганизмов, или и тех и других вместе, например, живущих в болотах, в земле, в воде, кроме того, большой интерес представляют исследования микроорганизмов, населяющих наш желудок, желудок животных, а также те, которых можно найти на коже человека, например, или где-то ещё в естественной природе. Интерес к ним связан с тем, что раньше эти исследования были недоступны в силу дороговизны лабораторных методов, а теперь это стало возможным. И не только потому, что секвенсные технологии стали дешевле, а потому, что появились надёжные и довольно быстрые методы анализа данных. Так вот. Постольку поскольку это естественное сообщество организмов, их там обычно много. Даже самые простые пробы — это всё равно десятки организмов, сосуществующих вместе. Поэтому, например, такой вопрос, как контаминация, теряет до некоторой степени смысл, потому что, что считать контаминацией, не понятно. Организмы в естественных условиях живут не в равных количествах, а, кроме того, лабораторные методы выделения ДНК могут это неравновесие сдвинуть ещё сильнее, так как клеточные стенки у разных организмов разные, а используем мы, скажем, лизоцим, который на одни стенки действует лучше, а на другие хуже, и, таким образом, из каких-то микробов мы выделим больше ДНК, а из каких-то меньше. В результате этого мы просеквенируем их неодинаково, то есть геномы будут представлены разным образом, покрытие будет разное, и, соотвественно, у нас будет очень неравномерный... неравномерные данные. Кроме того, в таких сообществах часто сосуществуют либо близкие родственники, либо даже штаммы одного и того же организма, что приводит к увеличению числа повторов, и, кроме того, очень много похожих областей, которые повторяются из организма в организм и тоже собираются вместе, и разделить их довольно сложно. А если в дополнение к этому вы не сумели получить высокое качество, то разобрать такие ситуации будет довольно сложно. Кроме того, долгое время не существовало специального программного продукта Ассемблера, который мог бы работать с такими данными. Сейчас их существует два или три, но и они не могут произвести идеальной сборки. Следующим очень сложными примером является секвенс единичной клетки. Вы, наверное, слышали, что сейчас есть такие технологии, которые позволяют разделить метагеномную пробу ещё на клеточном этапе. То есть работать с индивидуальной клеткой. Мы берём одну клетку, выделяем из неё ДНК, амплифицируем её, чтобы наработать достаточное количество ДНК для создания последующих библиотек, и секвенируем уже этот амплифицированный материал. В результате амплификаций у нас получается далеко не равномерное покрытие, причем разница в покрытии бывает в тысячи раз, у нас существенно выше, чем в среднем, уровень ошибок в ридах, а также количество химерных соединений очень высоко. [ЗАСТАВКА]