[ЗАСТАВКА] Здравствуйте,
уважаемые слушатели курса!
И вот мы, наконец, добрались до пятой недели.
Пятая неделя будет у нас посвящена тому,
что мы можем делать с короткими последовательностями, или ридами,
или короткими прочтениями, о которых вы слышали до этого.
Давайте немного вспомним, откуда они вообще берутся.
И мы помним, что у нас есть некоторый прибор,
который называется секвенатор.
Они бывают разные.
И технологии могут быть весьма различные, это может быть Illumina,
это может быть 454, это может быть Ion Torrent, у каждого есть свои ошибки,
свои преимущества и недостатки, но, в среднем, можно сказать,
что 454 и Ion Torrent будут давать те риды немного больше по длине, чем Illumina,
но у Illumina считается значительно лучше качество и соотношение цена-качество.
И работать сегодня мы будем с ридами именно от Illumina.
Так вот, у нас есть секвенатор, в который,
для того чтобы у нас все хорошо работало, кроме реагентов,
необходимых для секвенирования, мы должны, безусловно, добавить геном.
А если?
это точнее не геном, а библиотеки, приготовленные из генома,
а работать мы будем с геном опять же бактерии просто для простоты,
потому что с бактериальным геномом сейчас вполне по силам работать даже на ноутбуке,
то есть для этого не придется эксплуатировать какую-то большую машину,
компьютер, и вы сможете сделать все даже на вполне домашнем устройстве, вот.
Геном бактериальный у нас в среднем имеет размер в 5 миллионов пар оснований,
что в общем-то немного.
И набор ридов тоже будет не очень большой.
Собственно, вы с этими ридами уже работали на прошлой неделе и должны были их
проверить контроль качества, то есть у вас после секвенирования есть несколько,
давайте назовем их файлы с ридами.
[ПАУЗА] Именно там находится
информация о коротких последовательностях, которые сделал секвенатор.
И риды бывают, на самом деле, парные и бывают одиночные.
И мы будем работать с парными ридами, потому что у нас одна
последовательность была прочитана сначала с одного конца и с другого.
То есть можно опять же вспомнить, как у нас выглядит парный рид, поскольку,
если это у нас будет последовательность ДНК,
то библиотека — это ее фрагмент,
и вот именно в таком направлении здесь у нас,
например, читается 2 фрагмента.
И характеристики рида, в таком случае, точнее, это библиотека,
с каждой библиотеки мы получим по 2 рида,
один из которых направлен в одну сторону, другой в другую сторону.
Что между ними, мы, на самом деле, без понятия, для каждой пары ридов.
Но есть очень важная вещь, которую мы все равно о них знаем,
мы знаем приблизительное расстояние.
Вот.
И перед тем как начать работать с ридами дальше,
мы должны их очистить и посмотреть, все ли там получилось, потому что опять же,
для того чтобы приготовить библиотеку, мы должны были использовать различные
адаптеры, индексы, и это все тоже, перед тем как начать с ними работать,
мы должны проверить, что их там нету, или, если они там есть, их надо исправить.
Плюс секвенатор может ошибаться, по разным причинам,
и эти ошибки нам тоже перед началом работы нужно было исправить.
И, допустим, мы со всем этим справились,
и у нас получился некоторый набор файлов, для простоты это будет 2 файла,
к которым есть один набор ридов и другой набор ридов.
И вот именно в этот момент наступает следующая проблема: а что с этим
можно делать?
Вообще, проблема того, что именно делать с получившимися ридами после секвенирования,
должна быть решена до того, как мы их получаем, поскольку и запуск прибора
стоит денег, и для решения проблемы могут потребоваться различные средства.
Но в текущий момент очень часто бывает так, что, поскольку цена секвенирования
становится все ниже и все больше людей хотят попробовать сделать хоть что-то и
заказывают, например, сиквенс чего-то без особого понимания, чего хотят сделать,
или обладая некоторым ограниченным набором сведений о том, как это сделать,
и попадают в некоторую ловушку, когда получают на руки файлы,
с которыми не очень понятно что произойдет дальше и вообще,
кто этим будет заниматься и что находится внутри.
И если есть люди, которые даже привыкли работать до этого с секвенированием от
приборов предыдущего поколения типа Сэнджеровского, и им понятно,
как открыть последовательность, как эти последовательности выравнивать и так
далее, то что делать с файлом, в котором находятся миллионы или тысячи
последовательностей коротких, не очень понятно.
Но вообще не так много вариантов.
Точнее, можно сказать, что их очень много, но если их сгруппировать,
то вариантов будет не очень много.
И у нас есть первое — это полногеномное секвенирование для сборки.
То есть мы секвенируем полный геном,
чтобы получить сборку и впоследствии, например, аннотация.
Это будет происходить в том случае, если мы секвенируем какой-то новый вид,
который до этого никто не изучал, или мы считаем, что тот вид, который уже был
собран, мы хотим пересобрать, мы думаем, что мы можем что-то улучшить.
По разным причинам мы хотим сделать полное геномное секвенирование и сборку.
Это будет, на самом деле, самая компьютерно-интенсивная по вычислительным
затратам задача, потому что потребует действительно и мощного сервера,
и много оперативной памяти, если мы не работаем с геномом бактерий,
потому что бактериальные геномы можно сделать даже на небольшом компьютере,
но на ноутбуке это все же будет долго.
То есть вам не нужен очень мощный сервер, но в общем, задача решаемая для бактерий.
Кроме полногеномного секвенирования, что же можно еще делать?
Есть задача, которая называется, на самом деле, ресеквенирование.
[ПАУЗА] Я думаю,
что это наиболее часто решаемая задача в текущее время, потому что, даже
если у нас есть геном, например, у нас есть геном человека, то несмотря на то,
что мы все в той или иной степени имеем его, у нас есть свои отличия.
И если нас интересует геном конкретно взятого человека, у которого определенные
заболевания или какие-то черты, которые мы хотим исследовать, то нам его нужно
ресеквенировать, но нам его не надо будет собирать, нам нужно будет только найти,
чем же текущий геном отличается то того, что был уже известен, и это намного проще.
И вот именно решением этой задачи мы и будем сегодня заниматься.
Но кроме того, есть еще несколько других задач,
которые тоже решаются аналогичными методами.
По крайней мере, поначалу,
то есть они на определенном этапе станут очень различными, но первый этап, а именно
выравнивание коротких последовательностей на геном будет одинаковый.
Что у нас еще бывает?
Мы можем исследовать транскриптом.
[ПАУЗА] и исследовать уровни экспрессии.
И в этом случае мы секвенируем не ДНК, а РНК, и правда, тут тоже бывают различия,
можно секвенировать транскриптом и собирать de novo мРНК,
а можно получить короткие риды и выровнять их на геном.
И по плотности этих ридов, по тому, на какие гены они выровнялись,
мы можем достаточно много рассказать о том,
что происходило в момент сбора материала, то есть какие гены были активны,
какие были более активны, какие менее активны, какие вообще не работали.
И на этом все еще не заканчивается.
Потому что есть еще один вариант, который называется Chip-seq.
Прошу прощения, что будет на английском, дело в том, что так будет проще запомнить.
Здесь chip — это аббревиатура не от микрочипа, а от chromatin
immunoprecipitation, а именно это описание метода, аббревиатура, описывающая метод,
с помощью которого получаются эти короткие последовательности,
поскольку мы берем не весь геном, а как бы это происходило.
Например, мы можем исследовать метилирование с помощью Chip-seqа.
И вот у нас есть геном, некоторые позиции в котором метилированы.
При этом у нас есть белок,
который умеет связываться с этими регионами, которые метилированы.
Вот.
И дальше мы можем сделать хитрую вещь,
мы можем отрезать последовательности,
которые связаны с белками и в будущем секвенировать
только те фрагменты, которые были связаны с белком.
На самом деле, так исследуется не только метилирование,
так исследуются еще, например, сайты связывания,
сайты связывания транскрипционных факторов и в общем любые, на самом деле,
последовательности, которые связываются с белком, то есть последовательности ДНК,
которые связываются с белком, или метелирование, но здесь тоже, по сути,
опосредованно связывается с белком.
[ЗАСТАВКА]