課程信息
14,919

第 6 門課程(共 6 門)

100% 在線

立即開始,按照自己的計劃學習。

可靈活調整截止日期

根據您的日程表重置截止日期。

高級

完成時間大約為27 小時

建議:4 hours/week...

俄語(Russian)

字幕:俄語(Russian)

您將獲得的技能

Data ScienceMachine LearningVowpal WabbitData Visualization (DataViz)

第 6 門課程(共 6 門)

100% 在線

立即開始,按照自己的計劃學習。

可靈活調整截止日期

根據您的日程表重置截止日期。

高級

完成時間大約為27 小時

建議:4 hours/week...

俄語(Russian)

字幕:俄語(Russian)

教學大綱 - 您將從這門課程中學到什麼

1
完成時間為 24 分鐘

Неделя 1

...
2 個閱讀材料, 1 個測驗
2 個閱讀材料
Обзор проектов10分鐘
Как это работает?10分鐘
1 個練習
Выбор проекта4分鐘
完成時間為 11 小時

Неделя 1: Lesson Choices

Choice 1: В этом проекте мы будем решать задачу идентификации пользователя по его поведению в сети Интернет. Это сложная и интересная задача на стыке анализа данных и поведенческой психологии. В качестве примера, компания Яндекс решает задачу идентификации взломщика почтового ящика по его поведению. В двух словах, взломщик будет себя вести не так, как владелец ящика: он может не удалять сообщения сразу по прочтении, как это делал хозяин, он будет по-другому ставить флажки сообщениям и даже по-своему двигать мышкой. Тогда такого злоумышленника можно идентифицировать и "выкинуть" из почтового ящика, предложив хозяину войти по SMS-коду. Этот пилотный проект описан в статье на Хабрахабре. Похожие вещи делаются, например, в Google Analytics и описываются в научных статьях, найти можно многое по фразам "Traversal Pattern Mining" и "Sequential Pattern Mining". | Choice 2: Выстраивание взаимоотношений с клиентами или customer relationship managmenet (CRM) является важным звеном в функционировании любого бизнеса. От того, насколько хорошо простроена работа с аудиторией зачастую зависит успех всей компании. В проекте вы столкнететь с одной из наиболее актуальных задач из области CRM: прогнозирование оттока пользователей или churn prediction. Суть задачи заключается в заблаговременном нахождении сегмента пользователей, склонных через некоторый промежуток времени отказаться от использования некоторого продукта или услуги. Точное и своевременное нахождение таких пользователей позволяет эффективно бороться с их оттоком, например, выявлять причины оттока и принимать меры по удержанию клиентов. Эта задача актуальна для большинства организаций, оказывающих услуги в сегменте B2C и вдвойне актуальна в областях, где распространение услуги близко к отметке 100%. Хороший пример такой области – рынок мобильной связи, где насыщение уже фактически произошло, и как следствие постепенно снижается прирост клиентской базы. В такой ситуации задача удержания клиентов и выстраивания с ними взаимоотношений выходит на первый план. В процессе работы над проектом вы научитесь математически ставить задачу прогнозирования оттока, строить и оптимизировать прогнозные модели, оценивать их качество и экономический потенциал. И, конечно, полученные знания и опыт вы сможете применять в дальнейшем для решения аналогичной задачи в сфере вашей работы . | Choice 3: Задача этого проекта — научиться предсказывать количество поездок в ближайшие часы в каждом районе Нью-Йорка. Для того, чтобы её решить, сырые данные необходимо агрегировать по часам и районам. Агрегированные данные будут представлять собой почасовые временные ряды с количествами поездок из каждого района. Похожие задачи возникают на практике, если вам необходимо спрогнозировать продажи большого количества товаров в большом количестве магазинов, объём снятия денег в сети банкоматов, посещаемость разных страниц сайта и т.д. | Choice 4: В этом проекте вам предстоит решать задачи анализа тональности текстов в нескольких разных постановках. Начнется все с несложных экспериментов на отзывах на фильмы, в ходе которых вы построите простую модель и немного доработаете ее. Затем вам предстоит поучаствовать в соревновании по сентимент-анализу отзывов на товары и сделать интерактивную демонстрацию для своего алгоритма, которую можно будет показать даже тем, кто никогда не видел Python и машинное обучение. После этого вы поупражняетесь в парсинге веб-страниц и столкнетесь с жестокой реальностью - к вам придет заказчик, который захочет от вас сентимент-анализ отзывов на определенную категорию товаров, но вот выборку для обучения придется собирать самим. Как и угадывать, что же заказчик называет негативными отзывами, а что позитивными. В конце проекта вам потребуется сделать демонстрацию и для этого алгоритма, чтобы заказчик мог с ним поиграться, а не только лишь ориентироваться на качество из контеста....
5 個視頻 (總計 58 分鐘), 3 個閱讀材料, 4 個測驗
5 個視頻
Чтение данных из файлов11分鐘
Запись файлов, изменение файлов8分鐘
Pandas. Data Frame11分鐘
Pandas. Индексация и селекция13分鐘
3 個閱讀材料
Общее описание проекта "Идентификация интернет-пользователей"10分鐘
Прогнозирование оттока пользователей телекоммуникационной компании10分鐘
Жёлтое такси в Нью-Йорке10分鐘
2
完成時間為 10 小時

Неделя 2: Lesson Choices

Choice 1: На второй неделе мы продолжим подготавливать данные для дальнейшего анализа и построения прогнозных моделей. Конкретно, раньше мы определили что сессия – это последовательность из 10 посещенных пользователем сайтов, теперь сделаем длину сессии параметром, и потом при обучении прогнозных моделей выберем лучшую длину сессии. Также мы познакомимся с предобработанными данными и статистически проверим первые гипотезы, связанные с нашими наблюдениями. | Choice 2: На прошлой неделе мы познакомились с задачей и данными. Пора задуматься о том, с какими особенностями и трудностями нам предстоит работать в процессе построения модели прогнозирования оттока. Как может сказаться на качестве модели то, что данные не сбалансированы по классам? Какие метрики качества подходят в таких случаях? Каким будет KPI? Как организовать процесс оценки решения с помощью кросс-валидации, какую схему выбрать? Как следует обрабатывать данные разного типа (например, категориальные) для того, чтобы использовать их при построении модели? На все эти вопросы нам предстоит ответить на этой неделе. | Choice 3: На этой неделе вам предстоит освоить работу с геоданными, научиться рисовать объекты на статистических и динамических картах, а также понять, для каких прямоугольных районов прогнозировать спрос на такси на самом деле нужно. | Choice 4: На этой неделе вам предстоит поэкспериментировать с признаками в задаче анализа тональности отзывов....
3 個視頻 (總計 25 分鐘), 4 個測驗
3 個視頻
Биномиальный критерий для доли7分鐘
Доверительные интервалы на основе бутстрепа8分鐘
3
完成時間為 8 小時

Неделя 3: Lesson Choices

Choice 1: Теперь мы займемся визуальным анализом данных и построением признаков. Сначала мы вместе построим и проанализируем несколько признаков, связанных со временем посещения сайта, потом Вы сможете сами придумать и описать различные признаки. На этой неделе задание имеет вид Peer-Review, так что творчество здесь активно приветствуется. Если задействуйте IPython-виджеты, библиотеку Plotly, анимации и прочий интерактив, всем от этого будет только лучше. | Choice 2: На этой неделе вам предстоит построить модель временного ряда для одной из зон; вы можете выбрать любую. Если вы забыли, как в питоне можно прогнозировать временные ряды, пересмотрите первую неделю пятого курса. | Choice 3: Настало время перейти к построению моделей! Давайте начнем с построения так называемых бейзлайнов - построим несколько моделей, которые в дальнейшем будем использовать в качестве первого приближения для будущей модели. Часто для решения подобных задач используются линейные модели, а также ансамбли, например, случайный лес или градиентный бустинг | Choice 4: Итак, вы уже немного познакомились с задачей. Теперь попробуйте поучаствовать в соревновании по анализу тональности текстов и побить бейзлайн (или вовсе выйти в топ участников)....
2 個視頻 (總計 18 分鐘), 4 個測驗
2 個視頻
Визуализация данных в sklearn12分鐘
4
完成時間為 9 小時

Неделя 4: Lesson Choices

Choice 1: Теперь мы наконец подойдем к обучению моделей классификации, сравним на кросс-валидации несколько алгоритмов, разберемся, какие параметры длины сессии (session_length и window_size) лучше использовать. Также для выбранного алгоритма построим кривые валидации (как качество классификации зависит от одного из гиперпараметров алгоритма) и кривые обучения (как качество классификации зависит от объема выборки). | Choice 2: Итак, мы научились обрабатывать данные, выбрали схему кросс-валидации и определились с метриками качества. Пора переходить к оптимизации модели. На этой неделе вам предстоит принять участие в соревновании на платформе kaggle inclass! Цель такого соревнования - преодолеть предложенное baseline решение, а, главное, обсудить и сравнить предложенные решения на форуме. Какие признаки оказали наибольший вклад в модель? Как лучше обрабатывать категориальные признаки? Нужно ли делать отбор признаков, А балансировать выборку? Экспериментируйте с данными и обсуждайте ваши решения на форуме! | Choice 3: На прошлой неделе вы научились прогнозировать временной ряд со сложной сезонностью с помощью модели ARIMA на примере одной из географических зон. На этой неделе вы построите такие прогнозы для каждой зоны. Чтобы не подбирать вручную огромное количество моделей, вам понадобится сделать кластеризацию рядов. | Choice 4: Теперь, когда у вас уже получается делать неплохие решения задачи сентимент-анализа, пора научиться собирать для вашего алгоритма интерактивную демонстрацию в виде простенькой веб-странички, чтобы на него могли посмотреть в действии не только те, кто может запустить ipython notebook....
4 個測驗
5
完成時間為 8 小時

Неделя 5: Lesson Choices

Choice 1: На этой неделе мы вспомним про концепцию стохастического градиентного спуска и опробуем классификатор Scikit-learn SGDClassifier, который работает намного быстрее на больших выборках, чем алгоритмы, которые мы тестировали на 4 неделе. Также мы познакомимся с данными соревнования Kaggle по идентификации пользователей и сделаем в нем первые посылки. По итогам этой недели дополнительные баллы получат те, кто попадет в топ-30 публичного лидерборда соревнования. | Choice 2: На прошлой неделе мы познакомились с задачей и данными, пришло время приготовить датасет для построения моделей. Пора задуматься о том, с какими особенностями и трудностями нам предстоит работать в процессе построения моделей прогнозирования оттока. Как может сказаться на качестве модели то, что данные не сбалансированы по классам? Какие метрики качества подходят в таких случаях? Каким будет KPI? Как организовать процесс оценки решения с помощью кросс-валидации, какую схему выбрать? Как следует обрабатывать данные разного типа(например, категориальные) для того, чтобы использовать их при построении модели? На все эти вопросы нам предстоит ответить на этой неделе. | Choice 3: Класс моделей ARIMA недостаточно богат для наших данных: с их помощью, например, никак нельзя учесть взаимосвязи между рядами. Нам нужна более сложная модель. Давайте займёмся сведением задачи массового прогнозирования рядов к регрессионной постановке! | Choice 4: Не всегда в вашем распоряжении уже есть готовая выборка для построения модели и оценки ее качества, иногда ее нужно собрать самому. На этой неделе мы будем учиться парсить веб-страницы....
4 個測驗
6
完成時間為 9 小時

Неделя 6: Lesson Choices

Choice 1: На этой неделе мы познакомимся с популярной библиотекой Vowpal Wabbit и попробуем ее на данных соревнования. Знакомиться будем на данных Scikit-learn по новостям, сначала в режиме бинарной классификации, затем – в многоклассовом режиме. Далее будем классифицировать рецензии к фильмам с сайта IMDB. Наконец, применим Vowpal Wabbit к нашему соревнованию. Материала немало, но Vowpal Wabbit того стоит! | Choice 2: Выстраивание взаимоотношений с клиентами или customer relationship managmenet (CRM) является важным звеном в функционировании любого бизнеса. От того, насколько хорошо простроена работа с аудиторией зачастую зависит успех всей компании. В проекте вы столкнететь с одной из наиболее актуальных задач из области CRM: прогнозирование оттока пользователей или churn prediction. Суть задачи заключается в заблаговременном нахождении сегмента пользователей, склонных через некоторый промежуток времени отказаться от использования некоторого продукта или услуги. Точное и своевременное нахождение таких пользователей позволяет эффективно бороться с их оттоком, например, выявлять причины оттока и принимать меры по удержанию клиентов. Эта задача актуальна для большинства организаций, оказывающих услуги в сегменте B2C и вдвойне актуальна в областях, где распространение услуги близко к отметке 100%. | Choice 3: На этой неделе вам предстоит попробовать добавить в вашу регрессионную модель дополнительные признаки. Дайте волю своему воображению! Такие моменты — одни из лучших в работе специалиста в науке о данных. | Choice 4: Теперь вы готовы окунуться в более агрессивную симуляцию реальной жизни. Вам нужно будет разработать модель, которая будет давать точные прогнозы на тестовой выборке заказчика, но обучающую выборку для вас собрать не готовы - придется выкручиваться самостоятельно. Усугубляет ситуацию то, что вы даже не знаете ответов на выборке заказчика, но можете периодически отправлять свои прогнозы на проверку....
4 個測驗
7
完成時間為 20 分鐘

Неделя 7

...
2 個閱讀材料
2 個閱讀材料
Финальные титры10分鐘
Стань ментором специализации10分鐘
完成時間為 8 小時

Неделя 7: Lesson Choices

Choice 1: Теперь остался последний шаг – объединить все сделанное ранее! | Choice 2: Выстраивание взаимоотношений с клиентами или customer relationship managmenet (CRM) является важным звеном в функционировании любого бизнеса. От того, насколько хорошо простроена работа с аудиторией зачастую зависит успех всей компании. В проекте вы столкнетесь с одной из наиболее актуальных задач из области CRM: прогнозирование оттока пользователей или churn prediction. Суть задачи заключается в заблаговременном нахождении сегмента пользователей, склонных через некоторый промежуток времени отказаться от использования некоторого продукта или услуги. Точное и своевременное нахождение таких пользователей позволяет эффективно бороться с их оттоком, например, выявлять причины оттока и принимать меры по удержанию клиентов. Эта задача актуальна для большинства организаций, оказывающих услуги в сегменте B2C и вдвойне актуальна в областях, где распространение услуги близко к отметке 100%. | Choice 3: Ваш проект почти закончен! На этой неделе вам предстоит оформить результат, используя интерактивные графики. | Choice 4: Вы неплохо потрудились и справились с задачей заказчика. Дело за малым - нужно презентовать ему свое решение, а для этого неплохо было бы снова собрать демонстрацию....
4 個測驗
4.7
44 個審閱Chevron Right

80%

完成這些課程後已開始新的職業生涯

64%

通過此課程獲得實實在在的工作福利

熱門審閱

創建者 TBJul 16th 2018

Excellent project which gives an opportunity to practice the skills you earned during the previous courses. Nice job, guys!

創建者 VTJun 29th 2017

Проект по сентимент-анализу немного примитивный, но в общем-то все было достаточно неплохо. Может, сделаю и другие :)

關於 莫斯科物理科学与技术学院

Московский физико-технический институт (неофициально известный как МФТИ или Физтех) является одним из самых престижных в мире учебных и научно-исследовательских институтов. Он готовит высококвалифицированных специалистов в области теоретической и прикладной физики, прикладной математики, информатики, биотехнологии и смежных дисциплин. Физтех был основан в 1951 году Нобелевской премии лауреатами Петром Капицей, Николаем Семеновым, Львом Ландау и Сергеем Христиановичем. Основой образования в МФТИ является уникальная «система Физтеха»: кропотливое воспитание и отбор самых талантливых абитуриентов, фундаментальное образование высшего класса и раннее вовлечение студентов в реальную научно-исследовательскую работу. Среди выпускников МФТИ есть Нобелевские лауреаты, основатели всемирно известных компаний, известные космонавты, изобретатели, инженеры....

關於 Yandex

Yandex is a technology company that builds intelligent products and services powered by machine learning. Our goal is to help consumers and businesses better navigate the online and offline world....

關於 机器学习和数据分析 專項課程

Мы покажем, как проходит полный цикл анализа, от сбора данных до выбора оптимального решения и оценки его качества. Вы научитесь пользоваться современными аналитическими инструментами и адаптировать их под особенности конкретных задач. В рамках специализации вы освоите основные темы, необходимые в работе с большим массивом данных, в т.ч. современные методы классификации и регрессии, поиск структуры в данных, проведение экспериментов, построение выводов, базовая фундаментальная математика, основы программирования на Python. Мы разберём, как построить рекомендательную систему, оценить эмоциональную окраску текста, спрогнозировать спрос на товар, оценить вероятность клика по рекламе и т.д. В финале вам потребуется выполнить проект собственной системы, решающей любую актуальную для бизнеса задачу. Результатом будет наглядная работающая модель, которую вы сможете использовать в вашей повседневной работе или продемонстрировать на собеседовании. Все, прошедшие специализацию, могут принять участие в Программе трудоустройства. Если вы заинтересованы в новых проектах, новых перспективах и возможностях - пройдите обучение по Специализации и подайте заявку....
机器学习和数据分析

常見問題

  • 注册以便获得证书后,您将有权访问所有视频、测验和编程作业(如果适用)。只有在您的班次开课之后,才可以提交和审阅同学互评作业。如果您选择在不购买的情况下浏览课程,可能无法访问某些作业。

  • 您注册课程后,将有权访问专项课程中的所有课程,并且会在完成课程后获得证书。您的电子课程证书将添加到您的成就页中,您可以通过该页打印您的课程证书或将其添加到您的领英档案中。如果您只想阅读和查看课程内容,可以免费旁听课程。

  • Курс "Анализ данных: финальный проект" перезапускается раз в два месяца, в отличии от предыдущих курсов специализации, которые перезапускались раз в две недели.

還有其他問題嗎?請訪問 學生幫助中心