[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Рассмотрим теперь построение линейных парных и множественных моделей регрессии на примере анализа цены за аренду квартиры. Мы также уже работали с этим файлом, импортируем его в пакет. Вспомним ещё раз, какие переменные содержались у нас в таблице. Во-первых, у нас была информация по двум типам квартир, это гостинки и квартиры в многоквартирных домах. Далее шла цена за аренду квартиры в месяц, этаж, общее количество этажей в доме, метраж квартиры и информация о наличии мебели: меблированная это квартира или нет. В принципе, все эти показатели могут влиять на цену. И наша задача сейчас — построить регрессионную модель зависимости цены от факторов. Как логично предположить, наиболее значимым фактором может являться площадь квартиры. Начнём с построения обычной линейной модели парной регрессии, зависимости цены квартиры от её площади. Для начала построим график, диаграмму рассеяния, и посмотрим, как расположены эти наблюдения. Используем функцию plot, где мы строим зависимость цены от метража, выбирая данные из нашего созданного объекта data_f. Посмотрим этот график. То есть, как мы и предполагали, с увеличением площади квартиры цена возрастает. И логично предположить, что здесь может быть линейная зависимость, судя по диаграмме рассеяния и по расположению точек. Давайте построим обычную линейную модель парной регрессии. Для этого используем уже известную нам функцию lm, linear model, где в качестве формулы определяем зависимость цены от метража. Данные выбираем из объекта data_f. Создаём первую регрессионную модель reg1. Вот у нас объект был создан. Посмотрим, что он содержит. Сразу перейдём к части, которая содержит информацию о результатах регрессионного анализа, и мы здесь видим, что при исследовании зависимости цены квартиры от её площади линейная модель парной регрессии определяется вот такими параметрами: свободный член составляет 5860,5, а коэффициент, стоящий перед переменной метраж, составляет 210,9. Далее среднеквардатические ошибки, значение статистики Стьюдента для проверки гипотезы о незначимости парметров, которые можно сравнить с критическим уровнем либо вывод можно сделать на основании значения p-value. И для свободного члена, и для параметра, стоящего перед фактором, обе величины существенно меньше, чем уровень значимости 0,05, то есть мы видим, что статистическая значимость обоих парметров достаточно высока. Коэффициент детерминации этой модели составляет 61%, и по статистике Фишера мы видим, что нулевая гипотеза о неадекватности модели отклоняется, то есть эту модель можно считать адекватной. Добавим построенную линию регрессии к нашей диаграмме рассеяния. Вот мы видим линию, описывающую зависимость цены от метража. С помощью построенной модели мы можем строить прогнозы. В частности, для того чтобы нам получить доступ к информации об оценённых значениях, мы можем через знак доллара обратиться к объекту reg1 и вывести подогнанные значения, то есть оценённые значения зависимой переменной. Они представляют собой среднее ожидаемое значение зависимой переменной при соответствующем значении фактора, то есть, например, если мы подставляем здесь выбранное на оси x какое-то значение площади, точка, лежащая на красной линии, а именно её координата y будет определять среднюю ожидаемую цену. Выведем все значения по всем имеющимся переменным x. Вот мы видим набор этих цен. Дальше можем вывести только коэффициенты, которые мы получили при оценке, то есть эти значения из таблицы. Это значения 5860 и 210. Мы можем получить таблицу ожидаемых значений цены за квартиру при соответствующих значениях метража, которые содержались в исходной таблице. Объединим два вектора этих данных в один и посмотрим, какая таблица у нас получилась, то и данная таблица сейчас содержит исходные значения метража, которые были у нас даны в исходной таблице, а во втором столбце мы видим среднюю ожидаемую расчётную цену за аренду квартиры такой площади. Если мы хотим получить прогноз для какого-то нового значения x, то есть для нового значения фактора, который представляет собой в нашем случае площадь квартиры, мы должны задать вектор следующим образом. Первое значение будет равно единице, потому что согласно модели первое значение умножается на парметр a. a у нас идёт самостоятельным слагаемым, то есть со множителем с ним идёт единица, а далее идёт плюс bx, то есть параметр b будет умножаться на значение фактора, и вот здесь мы как раз должны задать значение x, для которого хотим построить прогноз. Мы сформировали новую квартиру, для которой будем строить этот прогноз, и далее мы должны умножить a на единицу и прибавить b, умноженное на значение аргумента. Мы перемножаем коэффициенты с вектором, соответствующим новой квартире, и получаем среднее ожидаемое значение цены за квартиру данной площади в соответствии с построенной моделью. [МУЗЫКА] [МУЗЫКА]