[ЗВУК] И все же люди пытались собирать геномы, собирали их вполне успешно. Одним из наиболее старых алгоритмов сборки является так называемый Overlap-Layout-Consensus, то есть это подход, который находит все перекрывания между маленькими фрагментами, которые были получены с сиквенсных инструментов. Эти фрагменты называются ридами или прочтениями. Наглядно этот подход можно изобразить таким образом: то есть эти все фрагменты выравниваются друг против друга, находя наилучшее соответствие, затем они все объединяются в консенсус, и таким образом собирается информация о геноме. Этот подход был использован на протяжении довольно долгого времени и в основном применялся для старых технологий, длина ридов которых позволяла проводить такой анализ перекрываний ридов. Однако с появлением новых сиквенсных технологий возникли проблемы. Во-первых, это очень короткие риды, и стало довольно трудно находить перекрывания между ними, а кроме того, новые технологии производят настолько больше этих маленьких фрагментов, что компьютерная задача, которая стоит в связи с увеличением числа фрагментов, оказалась не по зубам этим старым сборщикам. На помощь этому подходу пришел De Bruijn grahp. Его суть заключается в том, что коротенькие риды разбиваются на маленькие фрагменты длиной k — так называемый k-mer. В нашем примере длина такого разбиения, такого шага будет 2. И мы разобъем нашу последовательность на фрагменты с перекрыванием в 1 нуклеотид. То есть мы разбиваем на AC, CG, GT, TC и TA. Теперь, если следовать последовательности, мы идем от AC к CG с перекрыванием в 1 нуклеотид, затем мы проходим до GT, и таким образом мы уже восстановили последовательность ACGT. Однако если вы присмотритесь, последовательность CGT повторяется в этом маленьком кусочке дважды. Поэтому наш следующий шаг идет от GT к TC, затем от TC к CG, и дальше до восстановления полной последовательности. Еще раз повторю: разбиения происходили вот таким вот образом с перекрыванием в 1 шаг, и мы прошли по этой цепочке, и даже маленький повтор не помешал нам в этом. Этот слайд я оставлю вам и надеюсь, вы получите удовольствие. Если вы сумеете прочитать фразу, зашифрованную здесь, значит вы совладали с графом De Bruijn. Одной из важнейших проблем, приводящих к сложностям к сборке генома, относится наличие повторов. Повторами называются идентичные или практически идентичные последовательности, которые встречаются больше чем 1 раз в геноме, и расположены они в различных местах, и присутствуют с в разном количестве копий. Существует несколько типов повторов. Это тандемные повторы или повторы, распространенные, то есть распределенные по хромосоме каким-то определенным или случайным образом. Риды, то есть фрагменты прочтения, принадлежащие к разным копиям одного и того же повтора, являются идентичными и представляют собой проблему для сборщика, и, таким образом, приводят к ошибкам в геноме, в сборке генома. Давайте рассмотрим пример неправильной сборки повторов. Зеленым отмечены области, которые встречаются больше чем 1 раз в нашем теоретическом геноме. На данный момент они расположены в разных контигах и не связаны между собой. Чем же определилось такое расположение, и действительно ли они должны быть так расположены? Если мы рассмотрим внимательно, как распределилась информация о парных ридах, то есть ридах, которые принадлежат к одному и тому же фрагменту ДНК, то мы увидим ошибки и увидим, что они расположены не таким образом, как нужно. Если на этапе финиширования мы сумеем разрешить эту проблему, то мы найдем ответ на вопрос и исправим ошибку в автоматической сборке генома, а именно: на нижней части рисунка представлен реальный геном. И отсюда мы делаем интересный вывод: оказывается, эта зеленая область, то есть этот повтор, существует дважды в нашем геноме. На первых этапах, когда ученые учились подобным методам и составляли алгоритмы, такие результаты проверялись экспериментальными методами с помощью PCR, и затем прекратили это делать, когда эволюировали созданные [НЕРАЗБОРЧИВО]. Однако повторы не являются единственной проблемой, приводящей к ошибкам в сборке и создающей проблему ассемблерам. К ним также относится контаминация, то есть примеси ДНК, не относящиеся к нашему геному; также артефакты PCR. Как вы вскоре узнаете, все сиквенсные технологии, особенно технологии нового поколения, они все используют этап PCR, и в результате этого возникают фрагменты с мутациями и химерные фрагменты. Кроме того, разного рода технологии плохо умеют прочитывать гомополимеры. К ним, например, относится 454 или Ion Torrent — технологии, о которых вы тоже услышите в ближайших лекциях. А также неубранные из ридов технологические фрагменты, такие как праймеры, адаптеры точно также вызывают проблемы у сборщиков, и они не знают, что с ними делать. Если этап очистки данных до assembly был проведен некачественно, то то это вызовет проблему и также приведет к ошибкам. Ну и полиплоидные геномы, о которых мы не будем рассказывать в рамках этой лекции, тоже приводят к большим проблемам в сборке. [ЗВУК] [ЗВУК] [ЗВУК]