[ЗАСТАВКА] В этом видео мы поговорим о том, какие бывают типы задач обучения на размеченных данных или обучения с учителем, и обсудим несколько их примеров. В прошлый раз мы обсуждали общую постановку задачи обучения с учителем. В ней есть обучающая выборка, то есть набор пар «объект и ответ» — объектов и ответов, которые нужно предсказывать для этих объектов. И нужно найти такой алгоритм из семейства алгоритмов A (красивое), на котором будет достигаться минимум функционала ошибки, то есть найти такой алгоритм, который будет лучше всего решать нашу задачу, лучше всего подходить к нашей обучающей выборке. В зависимости от того, какие именно ответы должны возвращать алгоритмы в этой задаче, зависит, с каким типом задачи мы имеем дело. Иными словами, тип задачи определяется пространством ответов, которое мы обозначали Y (красивое). Замечу, что бывают и другие задачи, не только обучения с учителем, но об этом в следующем видео. А первый пример, о котором мы поговорим, это задача бинарной классификации. В этих задачах пространство ответов состоит из всего двух элементов, их обычно обозначают как 0 и 1 или –1 или +1. Множества объектов, которые относятся... которые имеют один ответ, например ответ «–1», называются классом, и говорят, что нужно уметь относить объект к одному из двух классов или классифицировать эти объекты. Давайте рассмотрим простой пример. Если у нас каждый объект описывается всего двумя признаками, то есть выборка двумерная, то можно эту выборку нарисовать. По одной оси отложим значение первого признака, по другой — значение второго признака, и каждая точка в этих осях будет обозначать один объект обучающей выборки. По сути, задача классификации состоит в том, чтобы провести некоторую разделяющую кривую, которая будет отсекать один класс от другого, разделять синие и красные точки. Примеров задачи бинарной классификации очень много. Например, можно предсказывать, понравится ли пользователю фильм — то, о чем мы уже говорили. Или, например, вернет ли клиент кредит или не вернет — задача кредитного скоринга, очень популярная в банковской сфере. Или, например, нужно ли делать пациенту операцию, будет ли операция иметь долгосрочный положительный эффект. Или можно просто предсказывать, качественное ли вино, сделано ли оно по всем канонам или это дешевая подделка. Классов может быть не два, а больше. Задача, в которой конечное число классов, например K штук, называется многоклассовой классификацией. Визуально это означает следующее. Допустим, признаков все еще два, но при этом цветов точек (а цвет обозначает класс точки, класс объекта) будет больше. В этом случае надо провести не одну разделяющую кривую, а много. Для каждого класса будет своя кривая, которая отсекает этот класс от всех остальных. Понятно, что это уже более сложная задача. Какие есть примеры задач многоклассовой классификации? Например, можно пытаться понять, из какого сорта винограда сделано вино. Понятно, что сортов конечное количество, значит это многоклассовая классификация. Или, например, можно определять тематику научной статьи. Из какой области эта статья? Она про математику, про физику, про биологию или, может быть, про философию? Или, например, можно пытаться понять по фотографии, какой тип машины там присутствует: мотоцикл, легковая или грузовая машина? Это может понадобиться, чтобы автоматически определять, какую плату за проезд по платной дороге взять с автомобилиста по фотографии его машины возле КПП. Классов может быть не конечное число. Если классов бесконечное количество, например ответом может быть любое вещественное число, то мы имеем дело с задачей регрессии. Собственно, в задачах регрессии пространство ответов — это все вещественные числа. Давайте разберем простой пример. Нам нужно предсказать рост человека по его весу. В этом случае по оси x мы отложим вес человека в килограммах — признак, по оси y отложим ответ — рост человека в сантиметрах. Каждая точка будет соответствовать одной паре «объект–ответ». В нашем примере очень легко видеть, что зависимость почти линейная. Можно провести прямую, которая будет очень хорошо предсказывать рост человека по его весу. Есть и более сложные примеры задач регрессии. Например, предсказание температуры на завтрашний день. Понятно, что температура — это вещественное число. Или, например, предсказание прибыли магазина в следующем году, или определение возраста человека по его фотографии. Еще одним примером задачи обучения с учителем является задача ранжирования. Это довольно тяжелая задача, о которой мы не будем говорить в этом курсе, но знать о ней очень полезно. Это задача, с результатом решения которой вы сталкиваетесь каждый день, когда ищете что-то в поисковике, например в Яндексе. Ранжирование поисковой выдачи заключается в следующем. Пользователь вводит некоторый запрос. Например, ему хочется найти картинки с котятами. И у нас есть множество всех страниц в Интернете, которые нам известны. Это миллиарды или даже триллионы страниц. И нужно отсортировать все эти страницы по тому, насколько они подходят под запрос пользователя, насколько они отвечают на его вопрос. Понятно, что очень непросто отсортировать, отранжировать такое количество документов, но эта задача вполне решаемая. Итак, мы обсудили основные постановки задач обучения с учителем. Это бинарная многоклассовая классификация, это регрессия. Также мы немножко поговорили о ранжировании. А в следующем видео поговорим о задачах обучения без учителя.