[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Уважаемые слушатели, в данном уроке мы рассмотрим построение и анализ регрессионных моделей. Рассматривать мы это будем на примере анализа зависимости роста и веса школьников третьих-четвертых классов, то есть детей девяти и десяти лет. С этими данными мы с вами уже работали. Для них мы делали предварительную обработку данных, рассчитывали основные числовые характеристики и также выявляли корреляции между различными показателями. В частности, было установлено, что рост и вес коррелированы. Целью данного урока является определение типов взаимосвязи веса от роста. Для начала устанавливаем рабочую директорию и импортируем соответствующую таблицу. Как вы помните, в этой базе у нас было достаточно много различных показателей: пол, рост, вес, значение пресса и длина прыжка. Сейчас мы будем работать только с двумя переменными. Это переменная роста и переменная веса. Посмотрим диаграмму рассеяния этих двух величин и попробуем установить возможные взаимосвязи между ними. Строим график. И как видно из полученного рисунка, у нас имеется некоторая зависимость: возрастание веса при увеличении роста. Для того чтобы описать функционально вид этой зависимости, мы построим регрессионную модель. Для начала я предлагаю построить обычную линейную модель регрессии, то есть построить прямую и найти коэффициенты этой прямой, которая бы наиболее оптимальным образом описывала взаимосвязи между рассматриваемыми величинами. В пакете R построение парной линейной модели реализовано функцией lm — linear model. Для того чтобы построить эту модель, мы создаем новый объект. Далее, используем функцию lm. Как видите, здесь выпадает подсказка. Первым аргументом должна идти формула взаимосвязи. Мы должны указать сначала зависимую переменную, а потом то, что является фактором, то есть ту переменную, от которой она предположительно зависит. И нужно указать набор данных, откуда эти величины выбираются. Объект, содержащий информацию о переменных, это наш объект data. Это мы и указываем в аргументе. Выполняем эту операцию. У нас был создан объект reg1. То есть наша первая регрессионная модель. Для того чтобы посмотреть результаты этой регрессии, мы обращаемся к операции Summary, в аргументе которой указываем имя данной переменной. Появляется достаточно большая таблица. Давайте посмотрим, какую информацию мы с вами получили. Во-первых, была использована функция lm, формула зависимости веса от роста из базы data. Далее идут числовые характеристики или описательные характеристики, относящиеся к шуму, то есть к остаткам модели: минимальное значение, максимальное значение, медиана, первый и третий квартили. Основная информация по регрессионному анализу содержится у нас вот в этой части. Что мы здесь видим? Мы видим оцененные параметры модели, то есть оценку параметра свободного члена и оценку параметра, стоящего перед зависимой переменной. Давайте немножко вспомним теорию. То есть сейчас у нас строится модель вот такого вот вида, где y — это зависимая переменная веса, x — это переменная роста. То есть у нас предположительно имеет место такая линейная зависимость. А ε — это индивидуальные отличия отклонения от построенной модели, поскольку у нас не все дети при одинаковом росте имеют одинаковый вес. Эти отклонения или ошибки модели у нас учтены в случайной составляющей. Нашей задачей была оценка параметров a и b. Это мы и получили в нашей таблице. Intercept — это свободный член, то есть оценка параметра a, а вот здесь мы получили оценку параметра b. Далее следуют среднеквадратичные отклонения, или ошибки оценивания. В следующем столбце стоят величины статистики Стьюдента для проверки гипотезы о значимости соответствующих параметров. Обращаясь к теоретической части, в этом столбце у нас проверяется гипотеза о том, что каждый параметр равен нулю. Соответственно, проверяется он с помощью статистики Стьюдента. И если статистика оказывается больше критического уровня, соответствующего уровню значимости α, то мы отклоняем нулевую гипотезу о его равенстве нулю и принимаем решение о статистической значимости соответствующего коэффициента регрессии. В нашем случае нет необходимости находить критическое значение статистики Стьюдента, поскольку помимо значения t, у нас также выводится значение p-value, то есть сравнение может идти по сравнению данной величины с заданным уровнем значимости α. Если уровень значимости мы выбираем, равным 0,05, а значение p-value меньше, а в нашем случае особенно для второго параметра — параметра b, эти величины существенно меньше α, то мы отклоняем нулевую гипотезу о равенстве нулю данных коэффициентов и выносим решение об их статистической значимости. В пакете R также имеются небольшие подсказки. Как вы видите, в каждой строке рядом со значениями p-value у нас стоят звездочки, которые показывают статистическую значимость соответствующего результата. При вероятности p-value от 0 до 0,001, у нас высокая статистическая значимость, и она обозначается тремя звездочками. От 0,001 до 0,01 — это умеренная, но тем не менее, тоже достаточно высоко статистически значимая величина. От 0,1 до 0,5 мы также выносим решение о наличии статистической значимости. А при более высоких значениях p-value мы принимаем гипотезу о том, что соответствующие параметры равны нулю и не значимы в модели. Также очень важной характеристикой при построении регрессионной модели является значение коэффициента детерминации, или квадрат множественного коэффициента корреляции. В нашем случае данное значение получилось 0,56. Коэффициент детерминации является мерой общего качества уравнения регрессии, и вычисляется он по следующей формуле. Мы должны из единицы вычесть отношение так называемой остаточной дисперсии к общей дисперсии. Правильней сказать в этом случае, это не совсем оценки дисперсии, это остаточная сумма квадратов и общая сумма квадратов. Если привести эти величины к общему знаменателю, и учесть тот факт, что общая сумма квадратов является суммой, остаточной суммой квадратов, которая объясняется влиянием шума, и объясненной суммы квадратов, которая обусловлена влиянием фактора, приводя к общему знаменателю формулу для коэффициента детерминации, мы можем выразить его немножко иначе, то есть через объясненную дисперсию. Получается, что коэффициент детерминации показывает нам долю вариативности зависимой переменной, обусловленную именно влиянием фактора. Чем выше коэффициент детерминации, тем сильнее влияние фактора. Вообще, его значения могут лежать в интервале от нуля до одного. Для того чтобы ответить на вопрос об адекватности уравнений регрессии, мы должны проверить нулевую гипотезу о том, что коэффициент детерминации равен нулю. Эта гипотеза проверяется с помощью статистики Фишера, которая вычисляется по вот такой вот формуле. Она имеет распределение Фишера с числом степеней свободы: первое, равное числу параметров. В данном случае мы работаем с парной моделью. То есть у нас один фактор. Первое число степеней свободы равно числу факторов (в данном случае у нас парная регрессия, соответственно, один фактор). Второе равно объему выборки минус два. Мы находим критическое значение статистики Фишера при заданном уровне значимости α. И если эта статистика меньше критического значения, то при уровне значимости α, мы принимаем нулевую гипотезу о неадекватности модели. Конечно, в нашем случае нам было бы гораздо важнее эту гипотезу отклонить. И как мы видим, для нашего значения коэффициента детерминации, равного 0,56, статистика Фишера равна 35,85, первое число степеней свободы равно единице (потому что у нас один фактор), 28, вторая степень свободы — это объем выборки минус два, (у нас 30 наблюдений, соответственно, мы получаем значение 28). И значение p-value для гипотезы о неадекватности модели, то есть о равенстве нулю соответствующего значения коэффициента детерминации, очень-очень маленькое, существенно меньше уровня значимости 0,05. Соответственно, гипотеза о неадекватности модели отклоняется, и мы можем вынести решение о том, что модель адекватна. Также обратите внимание, что рядом с коэффициентом детерминации, или квадратом множественного коэффициента корреляции, у нас появляется еще скорректированный, или подправленный, коэффициент детерминации, который в данном случае равен 0,54. Скорректированный, или подправленный, коэффициент детерминации представляет собой не смещенную оценку коэффициента детерминации. То есть квадрат множественного коэффициента корреляции у нас вычисляется по такой формуле: где в числителе и в знаменателе используются, соответственно, остаточная сумма квадратов и общая сумма квадратов. При этом впереди у нас нет никаких коэффициентов. Если же мы будем смотреть на числитель, как на оценку остаточной дисперсии, а на знаменатель — как на оценку общей дисперсии, нам нужно записать коэффициент с учетом степеней свободы. В этом случае мы получаем такое соотношение. И данная формула называется скорректированным, или подправленным, коэффициентом детерминации. Он используется для сравнения моделей в том случае, если модели содержат разное количество параметров. По результатам проведения нашего регрессионного анализа мы получили оценки коэффициентов линейной модели: оба параметра значимые, и модель адекватна. Теперь мы можем построить линию регрессии, а именно, прямую регрессии на нашем графике. Для этого мы используем в пакете R команду abline, которая добавит к уже существующему графику линию, построенную на основании полученных значений. Линию сразу проведем красным цветом, здесь это указано у меня в параметрах, вот эта линия описывает нам зависимость роста и веса, если предположить, что эта зависимость носит линейный характер. [МУЗЫКА] [МУЗЫКА]