В машинном обучении встречаются задачи, где нужно изучить структуру данных, найти в них скрытые взаимосвязи и закономерности. Например, нам может понадобиться описать каждого клиента банка с помощью меньшего количества переменных — для этого можно использовать методы понижения размерности, основанные на матричных разложениях. Такие методы пытаются сформировать новые признаки на основе старых, сохранив как можно больше информации в данных. Другим примером может служить задача тематического моделирования, в которой для набора текстов нужно построить модель, объясняющую процесс формирования этих текстов из небольшого количества тем.
提供方

課程信息
學生職業成果
20%
25%
27%
您將獲得的技能
學生職業成果
20%
25%
27%
提供方

莫斯科物理科学与技术学院
Московский физико-технический институт (Физтех) является одним из ведущих вузов страны и входит в основные рейтинги лучших университетов мира. Институт обладает не только богатой историей – основателями и профессорами института были Нобелевские лауреаты Пётр Капица, Лев Ландау и Николай Семенов – но и большой научно-исследовательской базой.

Yandex
Yandex is a technology company that builds intelligent products and services powered by machine learning. Our goal is to help consumers and businesses better navigate the online and offline world.

E-Learning Development Fund
Фонд развития онлайн-образования (ФРОО) объединяет образовательные стартапы, проекты в области EdTech и запускает собственные онлайн-программы в области машинного обучения, программирования, мобильной разработки, VR, дизайна и IT. Мы выстраиваем экосистему для обучения на всех стадиях жизненного цикла: от идеи и поиска средств на производство образовательной программы до поддержки, продаж и маркетинга. А сотрудничество с крупнейшими образовательными платформами позволяет запускать онлайн-курсы с максимальным эффектом и пользой для всех заинтересованных сторон.
教學大綱 - 您將從這門課程中學到什麼
Кластеризация
Добро пожаловать на курс "Поиск структуры в данных"! В этом курсе вы узнаете про задачи машинного обучения, в которых требуется не предсказать целевую переменную, а найти некоторые внутренние закономерности в данных — например, сгруппировать объекты по схожести, или определить наиболее важные признаки. В первом модуле мы изучим задачу кластеризации, направленную на поиск групп близких объектов. Вы узнаете про основные подходы к её решению, а также узнаете, как можно выбрать хороший алгоритм кластеризации, не имея правильных ответов.
Понижение размерности и матричные разложения
В предыдущем модуле мы обсуждали, как кластеризовать объекты, а в этом модуле займёмся признаками. Нередко возникают ситуации, в которых далеко не все признаки нужны для решения задачи — или же нужны все, но при этом их слишком много. В этом случае нужно перейти в новое признаковое пространство меньшей размерности. Для этого можно либо отбирать наиболее важные признаки, либо порождать новые на основе исходных — мы обсудим оба подхода. В частности, мы разберёмся с методом главных компонент, который используется в самых разных задачах машинного обучения. Затем мы перейдём к матричным разложениям — мы изучим несколько методов, позволяющих получить приближение исходной матрицы в виде произведения нескольких матриц меньшей размерности. Такая аппроксимация часто используется в задачах машинного обучения, например, для понижения размерности данных, восстановления пропущенных значений в матрицах и построения рекомендательных систем.
Визуализация и поиск аномалий
Добро пожаловать на третью неделю курса! В ней мы обсудим две задачи: обнаружение аномалий и визуализация данных. Обнаружение аномалий направлено на поиск объектов, которые являются особенными в некотором смысле. Например, это могут объекты с такими значениями признаков, которые далеки от имеющихся в обучающей выборке — вполне ожидаемо, что на таких объектах модель выдаст очень плохие прогнозы. Вы узнаете, как можно формально дать определение аномалий и с помощью каких методов можно решать задачу их поиска. Вторая задача, о которой мы поговорим — это визуализация, то есть отображение многомерной выборки в пространство размерности два или три. В теории визуализация близка к понижению размерности — но за счёт того, что нам нужно найти всего два или три признака, можно использовать очень сложные нелинейные методы.
Тематическое моделирование
Люди уже много веков сохраняют свои знания в виде книг, а крупнейшая на сегодняшний день коллекция информации — Интернет — состоит из огромного количества текстов. Тексты, по сути, являются наиболее популярным видом данных, и поэтому очень важно уметь искать в них закономерности. Тематическое моделирование — это способ семантического анализа коллекции текстовых документов. Тематическая модель позволяет для каждого документа найти темы, которые его описывают, и кроме того показывает, какие слова характеризуют ту или иную тему. Другими словами, мы находим более компактное представление большого набора текстов в виде нескольких тем. С математической точки зрения тематическая модель — это еще один вид матричного разложения, где в качестве исходной матрицы выступает матрица частот слов в документах. На четвертой неделе мы поговорим о том, где применяют тематические модели, какие они бывают, как их строить и как оценивать.
審閱
來自ПОИСК СТРУКТУРЫ В ДАННЫХ的熱門評論
Отличный вводный курс, как и вся специализация. Доступно и понятно изложены все базовые вещи, которые могут потребоваться в повседневной деятельности в качестве data scientist.
Интересный курс, замечательные преподаватели. Есть моменты когда лекция довольно сложная, а тест простой, это оставляет тревожное ощущение недоученности :)
Отличный и интересный курс. Только устарело задание на BigArtm. Не актуально видео, установить библиотеку самому не тривиально.
Большая-большая работа. Спасибо преподавателям, МФТИ, Яндексу за возможность изучать предмет таким невероятно крутым способом
關於 机器学习和数据分析 專項課程
Мы покажем, как проходит полный цикл анализа, от сбора данных до выбора оптимального решения и оценки его качества. Вы научитесь пользоваться современными аналитическими инструментами и адаптировать их под особенности конкретных задач.

常見問題
我什么时候能够访问课程视频和作业?
我订阅此专项课程后会得到什么?
Is financial aid available?
還有其他問題嗎?請訪問 學生幫助中心。