[МУЗЫКА] У нас получилось построить индекс и, как вы видите, это было совсем не так страшно, как могло показаться. И теперь мы можем приступить к следующему этапу, а именно — запустить уже выравнивание ридов на получившийся индекс. Давайте посмотрим, что у нас умеет программа, которая называется Bowtie2. Опять же просто наберем ее название. Если вы ее установили правильно и она работает, то вам, возможно, нужно указать будет к ней путь, если вы его отдельно не прописывали, но если вы все сделали хорошо и правильно, то у вас должно просто вот так вот легко работать. Вот мы получили громадный набор инструкций. Здесь все несколько сложнее, чем было с построением индекса. Давайте потихонечку разберемся, по крайней мере с самыми важными частями. Вот... И первое — пример приблизительной строки, как это должно выглядеть. То есть у нас, опять же, есть некоторый набор параметров необязательный, у нас есть указание на наш построенный индекс. Дальше мы должны указать, какие файлы мы используем, то есть у нас есть параметры −1 и −2 для одной... ну для набора первого ридов и второго набора ридов, если они парные; мы можем использовать параметр −U, если мы используем сингл риды, или одиночные и в таком случае мы, кстати, можем их даже указать, что просто −U и два файла, или три, неважно. Вот... И последний файл мы... не файл, параметр... мы указываем имя файла, который получим на выходе, а именно sam файл. Sam он называется потому что sequence alignment map, и это файл, который именно будет содержать координаты для каждого из выровненных ридов. Если мы этот параметр не указываем, то вывод программы будет идти просто на экран. Вы можете, опять же, так проверить, все ли у вас правильно работает. Двигаемся дальше. У нас есть описания каждого из файлов, которые мы получили, ну и которые должны дать программе. Дальше. По дефолту Bowtie2 работает с ридами в формате FASTQ, но на самом деле это вовсе не обязательно, и вы можете выравнивать точно так же просто нарезанную фасту, или у вас... вы можете убрать все обозначения качества из ваших ридов и получить просто мультифасту, и вы тоже ее можете выравнивать на геном. Когда это может быть полезно? Ну в разных случаях, ну например если вы захотели использовать режим коррекции ридов из сборщика SPAdes, то на выходе он дает, по крайней мере в текущем варианте, вам просто мультифасту исправленную, у которой нету качества. Если вы эти риды в будущем захотите выровнять на геном, то вы, в общем-то, их можете использовать, правда качества уже не будет. Кроме того... но по дефолту программа работает с FASTQ, то есть вам вообще обычно не надо ничего говорить, чтобы что-то менялось. Опять же, вы должны указать, в какой системе, или в какой таблице именно отчета у вас находится качество. То есть есть Phred+33, есть Phred+64 и, в общем-то, у вас все будет в Phred+33, и 64 вы вряд ли встретите. Но если вы вдруг встретите, вы, скорее всего, об этом будете знать, и просто помните, что в этом случае нужно внести дополнительные изменения в командную строку. То есть, опять же, какие изменения? Вам отдельно вот добавить этот параметр в запуск, то есть среди остальных параметров в командную строку. У нас есть некоторые режимы, которые говорят о том, как мы, насколько чувствительно выравнивание идет, и можно работать очень быстро и грубо, либо можно работать медленно, но более аккуратно. Собственно, разницы, может, и не так много, но по дефолту у нас стоит чувствительный поиск, вот этот sensitive, то есть опять же менять ничего не надо. Да, и Bowtie умеет работать поскольку не только с выравниванием целых ридов, а может еще работать с выравниванием локального рида, когда у нас кусочек рида не выровнялся (мы сейчас это обсудим, для чего это может быть), и тут тоже отдельный набор настроек чувствительности. Гм-м-м.... Здесь не так интересно будет, просто параметр, связанный с тем, какой будет размер сида при поиске и насколько это будет чувствительно, насколько будет игнорироваться или не игнорироваться качество, но в нашем случае сейчас это ничего не нужно, не обращайте внимания. Следующий параметр, который, опять же, может быть важен тем из вас, кто по какой-либо причине занимается, скорее всего, работой с транскриптомами, поскольку это, как раз, два варианта выравнивания. У нас есть вариант вот этот end-to-end, который идет по дефолту, и когда у нас должен для выравнивания... чтобы у нас рид считался выровненным, он должен выровняться целиком. Вот... Кроме того, есть локальный вариант выравнивания, когда у нас часть рида может не выровняться. И, думаю, те, кто работает с транскриптомами уже догадались, почему это может быть. Давайте это изобразим... который, на самом деле... по крайней мере... точнее, геном транскриптом... и у нас есть РНК, которая состоит из разных частей. В геноме у нас есть интроны в белок-кодирующих частях, то есть в генах, а когда мы будем секвенировать РНК, там их не будет. В этом случае риды, которые получились с... при разбиении мРНК на короткие части, то есть он, например, оказался вот тут вот, рид и вот тут — они будут выравниваться на ваш оригинальный геном одним хвостом — сюда, другим хвостом — сюда. И в норме, при обычных настройках, такие риды будут считаться невыровненными. Но для тех, кто работает с различными сплайс-вариантами и смотрит вообще, какие есть изоформы и так далее это очень важные именно вот эти моменты, потому что по ним можно определить, какие интроны и как у нас сшивались, и нужно менять параметр выравнивания на локальный. На самом деле это все тоже может быть сделано автоматически, есть надстройка, отдельная программа над Bowtie2, которая называется TopHat и она, в общем-то, все это умеет делать, но опять же, из-за того, что выравнивание идет совершенно по другому принципу и там будут учитываться вот эти локальные несовпадения, она работает намного дольше. Так что, если что, будьте готовы, потому что это будет дольше, чем те примеры, которые мы разбираем сейчас. Ну и, естественно, интроны... не касаются бактерий, у нас вообще все просто. Продолжаем. Вот... ну на самом деле мы рассмотрели практически все самые важные параметры. Там есть еще пара моментов, связанных с тем, что программа не говорит о том, куда выровнялись риды, которые выравниваются несколько раз. То есть у нас в геноме могут быть повторы. Это, опять же, не очень касается бактерий, но в геномах эукариотических организмов есть множество повторов. И когда мы будем выравнивать, может оказаться, что один и тот же рид, если он из регионов с повторами, может выровняться в несколько мест. И обычно программа ищет по дефолту... как минимум, то есть она ищет... если он выровнялся в одно место — замечательно, уникальное выравнивание. Если он выравнивается больше, чем в одно, программа просто будет... отметит это прочтение, как выровнявшееся несколько раз. Есть дополнительный функционал, который может позволить вам, например, попытаться найти все потенциальные позиции, куда этот рид может выровняться, и такое вам, возможно, нужно, если вы занимаетесь изучением повторов, но обычно это редко используется. Но, опять же, будьте готовы, что если вы включите этот параметр, то файл выходной получится очень огромным, потому что у вас на каждую позицию будет... для каждой позиции отдельного рида будет записываться отдельная строчка. Ридов-повторов будет огромное количество, еще будет большее количество потенциальных позиций, куда он может выровняться, и это будет просто чудовищный размер, так что используйте осторожно. Ну что ж, давайте попробуем... А! Еще один важный параметр! Если у вас компьютер имеет счастье обладать несколькими процессорами, то вы можете значительно ускорить работу программы. Для этого есть параметр вот этот −p, после которого вы должны указать, сколько именно ядер вы сейчас можете использовать. Вот. Попробуем запустить программу. [МУЗЫКА]