[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Здравствуйте всем! Сегодня мы начинаем четвертый модуль нашего курса, который будет посвящен построению линейной регрессионной модели. С одной стороны, линейная регрессионная модель — это логичное продолжение разговора о взаимосвязях между признаками, который мы ведем в течение всего этого курса. С другой стороны, у регрессионной модели есть ряд преимуществ. Она отличается все-таки от всего того, что мы обсуждали раньше. Каким образом? Если вы помните, в самом начале курса мы классифицировали, подразделяли взаимосвязи на функциональные и корреляционные. И если функциональная взаимосвязь — это какая-то четкая формула, когда мы можем посчитать значение одного признака, зная значение другого, то корреляционные — это какие-то взаимосвязи встречаемости признаков, которые видны на больших совокупностях, но рассчитать один признак из другого мы не можем. Мы пока говорили только о корреляционных взаимосвязях, а регрессионная модель позволяет как раз построить функциональную зависимость. Здесь мы не только видим взаимосвязь между признаками, но и можем, зная значение другого признака или других признаков, посчитать, чему будет равен зависимый признак, тот, который мы пытаемся предсказать. Это вторая особенность регрессионной модели, что мы можем действительно что-то предсказать на ее основе. Мы не только исследуем взаимосвязь признаков, но мы можем спрогнозировать, чему будет равен наш отклик или зависимая переменная в зависимости от того, какие значения принимают факторы или независимые переменные. Третья особенность регрессионной модели в том, что мы можем смотреть не только парные взаимосвязи, но и множественные. Раньше мы видели, смотрели на взаимосвязь только двух признаков между собой. В случае с регрессионной моделью, она бывает как парная, где у нас один фактор и один отклик, так и множественная, где у нас один отклик прогнозируется на основе нескольких факторов. Итак, посмотрим на уравнение регрессии, как же собственно описывается это самая функциональная зависимость. Как я сказала, бывает простая и множественная. Начнем с простой, ее иногда называют парной или однофакторной регрессионной моделью. Здесь мы видим, что у нас в составе уравнения есть следующие компоненты: y — это отклик, это та переменная, значение которой мы хотим прогнозировать; a — это константа или свободные параметры, свободный член; b — это регрессионный коэффициент; x — это собственно фактор, это признак, который влияет на y, то есть на отклик, а b — это коэффициент регрессии, который отражает технический угол наклона линии регрессии, а также показывает нам на силу вклада, на силу связи y и x, на силу связи фактора и отклика. Мы еще подробнее об этом неоднократно поговорим. Кроме того, что у нас есть отклик, константа и фактор, у нас есть еще ε, или остатки. Это та часть модели, та часть уравнения, которая тоже, к сожалению, с неизбежностью должна в нем присутствовать. Это та часть, которая моделью не объясняется. y = a + bx — это часть, которая понятна. Знаем x, можем вычислить y. A ε — это та часть, которая непредсказуема, это остатки, это тот разброс, который линией регрессии не объясняется, и с ним работать — это отдельная задача, о чем у нас будет отдельный разговор в следующих лекциях модуля. Если мы посмотрим на уравнение множественной регрессии, то мы увидим, что принцип там в общем-то тот же, только факторов много. Мы с вами даже на уровне здравого смысла понимаем, что мало что зависит всего лишь от одного фактора. Большинство феноменов нашей окружающей действительности зависит от множества параметров, и множественная регрессия как раз позволяет это учитывать. Мы видим, здесь опять же есть отклик, есть константа, есть ε необъяснимый, а в середине набор, фактор и соответствующий этому фактору регрессионный коэффициент. В чем прелесть такой подачи? Во-первых, мы можем действительно увидеть многофакторные взаимосвязи. Во-вторых, мы можем увидеть, как каждый отдельный признак влияет на отклик, если мы зафиксируем значения всех остальных. Это то, чего мы раньше делать не могли, регрессионная модель позволяет это сделать. Сложностей с этим не меньше, чем преимуществ, об этом мы тоже опять-таки подробнее поговорим потом. Пример простой линейной регрессии вы видите сейчас на экране. Это взаимосвязь между ростом и весом человека, странноватая немножечко задача, но для начала пойдет. Мы видим такую форму облака, которая намекает нам на положительную взаимосвязь. Чем выше человек, тем больше человек весит, что, в общем, справедливо, по крайней мере, до какого-то возраста это так. Люди растут, люди увеличиваются вверх и вширь, начинают больше весить. Но мы прекрасно понимаем, что, если мы будем прогнозировать вес только на основе роста, то мы с высокой вероятностью будем достаточно серьезно ошибаться. Автор, конечно, выписал уравнение, на основании которого, зная рост человека, можно рассчитать, сколько человек будет весить с некоторой ошибкой. Мы понимаем, что ошибка будет довольно большой. На это нам намекает и форма облака, мы видим, что оно не очень плотно лежит вдоль линии, этой, возможно регрессионной, которая это объясняет. Во-вторых, даже на уровне здравого смысла нам понятно, что вес человека определяется не только ростом, а иногда и не столько ростом, сколько большим количеством других причин. Люди могут по-разному питаться, люди могут не одинаковое количество времени в сутках двигаться, плюс ко всему с возрастом набор веса становится легче, а потеря веса, к сожалению, сложнее. Вот только несколько переменных, которые могут значимо влиять на то, сколько будет весить человек. Возраст важен, пол совершенно точно дифференцирует, количество пробегаемых километров или сжигаемых калорий тоже будет иметь значение. Если мы построим модель, которая будет учитывать совместное влияние этих признаков, такая модель почти наверняка будет существенно точнее, чем та модель, которая основана только на соотношении веса и роста. Уравнение такой модели выглядело бы приблизительно так. Откликом у нас продолжает быть вес, то есть мы прогнозируем, сколько будет весить человек. Факторами у нас уже получается набор. У нас есть константа, плюс у нас появляется регрессионный коэффициент к первому фактору и фактору роста, потом регрессионный коэффициент ко второму фактуру и возраст и так далее. И плюс, естественно, у нас остается ε. Ошибаться мы в любом случае будем, но в случае с такой грамотно построенной многофакторной моделью почти наверняка ошибка будет не такой большой и не такой серьезной, а модель будет гораздо более вменяемая. Кроме таких учебных и немного смешных задач, можно решать задачи гораздо более серьезные. К примеру, прогнозировать стоимость жилья в зависимости от того, насколько далеко от метро находится дом, сколько в нем этажей, какой площади квартира, каков уровень криминогенности района и так далее. Или, к примеру, можно прогнозировать доход человека в зависимости от уровня его образования, уровня квалификации и других причин, которые, как мы знаем, могут определять уровень благосостояния. В этом курсе в течение всего этого модуля мы будем также рассматривать регрессионную модель, полученную на реальных данных. Мы будем строить уравнение регрессии, полученное на данных поисковой выдачи компании 2GIS за март 2017 года по запросу «поесть». Мы будем прогнозировать количество переходов на сайт фирмы, сколько переходов на сайт получит компания в зависимости от нескольких переменных. Что у нас есть? У нас есть количество кликов, у нас есть количество звонков, у нас также есть день недели, в который происходят все эти события. Также у нас есть переменная, отражающая, есть ли у фирмы аккаунты в социальных сетях. Кроме того, у нас есть признак, в котором записана медианная позиция фирмы в поисковой выдаче. То есть на какой странице, на каком месте она находилась при заданной строке поиска. В следующей лекции мы поговорим о том, как собственно готовить данные. Не все из этих переменных беспроблемные, все из этих переменных нужно специальным образом подготавливать. Мы и посмотрим на эту модель по нескольким причинам. Во-первых, потому что это реальные данные, это реальная задача, которую приходится решать каждый день. Во-вторых, потому что эта задача показательна в том плане, насколько всё красиво выглядит в теории и насколько всё сложно бывает на практике. Разные виды данных, разные сложности с этими данными, и все возможные проблемы, с которыми можно столкнуться на регрессионном пути, эта модель позволит нам увидеть. Давайте потихонечку к этому перейдем.