Данные — это нерв XXI века. У интернет‐магазинов есть огромное количество записей о совершённых пользователем покупках и о предшествовавших им действиях. У лечебных учреждений есть много данных о диагнозах, которые поставили врачи, и об историях болезней. У «Яндекса» есть петабайты данных о том, как люди ищут что‐то в Интернете. Все эти данные могут приносить нам какую‐то пользу. Но как же её извлечь? Наука про извлечение закономерностей из данных так и называется — наука о данных, или Data Science. Она пытается понять, как можно из данных самой разной природы получить ответы на некоторые вопросы. Разделы науки о данных, которые освещают разные методы получения таких ответов, называются «Машинное обучение» и «Анализ данных». >> Одна из самых древних задач, в которых применимы методы анализа данных, это задача прогнозирования. Прогнозировать можно что угодно: продажи товаров в магазинах, рейтинги телесериалов, пробки, погоду, землетрясения. В Древнем Вавилоне для построения прогнозов использовали информацию о расположении червей в гнилой печени овцы. В III веке до нашей эры Дельфийский оракул строил свои предсказания, вдыхая галлюциногенные пары этилена. Более современный подход заключается в использовании исторических данных. Например, для магазинов мы, как правило, знаем историю продаж всех товаров за всё время существования магазина. Наблюдения за погодой ведутся уже сотни лет. Методы машинного обучения и анализа данных могут проанализировать такую историческую информацию, найти в ней какие‐то закономерности и на основании этих закономерностей научиться предсказывать будущее. Простейшие из таких методов в XX веке появились даже в пакетах офисных программ. С тех пор модели и средства прогнозирования продолжали развиваться. Современные методы позволяют находить существенно более сложные закономерности и строить намного более точные прогнозы. >> А вот ещё одна задача. В популярных социальных сетях, например в «Твиттере», в день появляются сотни миллионов записей. Люди пишут обо всём: о чём они думают, что происходит в их жизни, что их беспокоит. Если у вашей компании есть клиенты, то наверняка вам интересно узнать, что думают о вас эти клиенты, особенно если это мнение негативное. Но вряд ли вы сможете нанять человека, который сможет читать хотя бы миллион записей в день, даже если он сможет фильтровать записи, смотреть только те, где упоминается ваша компания, их всё‐равно будет слишком много. А вот машинное обучение позволяет построить модель, которая будет отделает негативные отзывы о вашей компании от всего остального. Этой модели не нужно будет платить зарплату, и при этом вы сможете быстро реагировать на любые негативные записи, которые пишут о вас в Интернете. >> Имея большое количество данных, можно попытаться понять их скрытую структуру. Например, зная, какие товары нравятся пользователям, можно попытаться понять их интересы и на этой основе предложить им что‐то ещё. Приблизительно так работает рекомендательная система. Кстати, впервые они появились на сайтах интернет‐магазинов около 20 лет назад, а сейчас распространились даже в такие далёкие от электронной коммерции области, как банковское дело или сотовая связь. Имея персональные рекомендации, можно не только порадовать пользователя, но и принести пользу бизнесу. Например, существенная часть покупок онлайн‐магазина Amazon обеспечивается за счёт рекомендательных систем, работающих на основе методов машинного обучения. >> Ещё методы анализа данных могут позволить выявлять аномальные состояния системы. Например, наблюдая за показаниями многочисленных датчиков в самолёте, можно заметить, что одна из деталей нуждается в ремонте. В этом случае мы можем избежать аварии или снизить расход топлива. Или например, наблюдая за транзакциями по банковским картам, можно заметить нетипичную транзакцию и приостановить действие карты. Банк сможет позвонить клиенту и уточнить, всё ли у него в порядке. >> Данных с каждым годом становится всё больше. Поэтому растёт спрос на специалистов по их анализу. Так, по данным профессиональной социальной сети LinkedIn, умение анализировать данные — навык, на который работодатели чаще всего обращали внимание при поиске сотрудников в прошлом году. Специалист по анализу данных должен уметь сформулировать задачу в терминах машинного обучения, найти подходящие для её решения данные, а также построить прогнозную модель, имеющую хорошее качество и способную приносить пользу бизнесу. Анализ данных — наука, в которой работают хорошо обоснованные теоретические методы, а также эвристики. Но лишь их грамотное сочетание позволяет успешно решать практические задачи. [МУЗЫКА]