[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Уважаемые слушатели, в данном уроке мы рассмотрим с вами построение парных моделей регрессии в пакете SPSS. Рассматривать мы будем на уже знакомом нам наборе данных и будем строить модель зависимости веса от роста для школьников третьих-четвертых классов. Откроем уже знакомый нам файл. Файл, Открыть, Данные. Данные хранятся в таблице Excel, открываем соответствующую таблицу. Также читаем имена переменных из первой строки, данные считываем с первого листа. И у нас появляется таблица, с которой мы с вами уже работали. Первая переменная содержит информацию о поле школьника, далее следуют рост, вес, пресс, длина прыжка. В данном случае нам потребуются для работы только две переменные — это вторая и третья, то есть переменная, содержащая значения роста и веса. Для начала проверим, каков тип наших переменных, каким образом они были импортированы. Заходим на вкладку Представление переменных. Понятно, что пол у нас текстовая переменная в номинальной шкале. А интересующие нас переменные рост и вес — числового типа, и они измеряются в количественных шкалах. Для начала построим обычную парную модель регрессии. Прежде чем переходить непосредственно к регрессионному анализу, имеет смысл построить диаграмму размаха. Для этого мы зайдем в раздел Графика, Устаревшие диалоговые окна, Рассеяние / Точки. Мы построим простую диаграмму рассеяния, выберем ее, она здесь сразу выбирается по умолчанию, и далее нам нужно задать переменные, для которых мы будем строить зависимость. Мы предполагаем, что вес зависит от роста. Логично откладывать значения зависимой переменной по оси y, а значения фактора по оси x. Следовательно, по оси y мы должны отложить значение веса, а по оси x значение роста. В принципе, мы можем не указывать никаких дополнительных параметров, этой информации нам уже достаточно для построения графика, а именно диаграммы рассеяния, мы можем нажать OK. В журнале у нас появляется график, описывающий данную зависимость. Как мы уже видели это при работе с этими данными в пакете R, у нас прослеживается некоторая зависимость веса от роста, то есть с увеличением роста значение веса также увеличивается. Или малым значениям роста соответствуют меньшие значения веса в среднем, а большим значениям роста соответствуют большие. Сейчас мы хотим построить некоторую линию, функцию f(x) на плоскости, которая будет оптимальным образом описывать вот эту тенденцию, описывать зависимость веса от роста. Для начала построим обычную простую регрессию, то есть линейную модель парной регрессии. [БЕЗ_ЗВУКА] Для построения линейной модели регрессии мы заходим в раздел Анализ, Регрессия, Линейная. Что нам необходимо здесь задать? В первую очередь, нам нужно задать значение зависимой переменной. Зависимой переменной у нас будет вес. Мы выбираем ее в списке переменных и заносим в соответствующую графу. Далее нам нужно задать факторы. В зависимости от того, с парной или множественной моделью мы работаем, у нас может быть или один фактор, или факторов может быть несколько. Сейчас мы строим простую регрессию, то есть нам необходимо построить линейную модель от одного фактора. В качестве фактора мы выбираем значение роста и вносим его в графу независимых переменных. Далее желательно пройти в раздел статистики и посмотреть, что нам будет предложено в процессе анализа. Мы получим коэффициенты регрессии, если нам необходимы доверительные интервалы для параметров, мы также можем здесь указать, при этом мы можем задать уровень в процентах, для которого мы хотим построить доверительный интервал. Также может быть выведена матрица ковариации, есть еще отдельный блок Работа с остатками. Например, если у нас предполагается, что наблюдения могут быть зависимыми, мы можем проверить гипотезу о связи наблюдений с помощью статистики Дарбина — Уотсона. Сейчас нам это пока не потребуется, мы ограничимся теми значениями, которые нам предлагает пакет. Продолжаем, нажимаем OK. И в нашем журнале появляется информация о результатах регрессионного анализа. Первое — это какие переменные, собственно, анализировались. Зависимая переменная у нас была вес, фактором был рост. Далее, в следующем окне мы видим информацию об общей адекватности модели. Для нашей модели коэффициент детерминации, или он же квадрат множественного коэффициента корреляции, составляет 0,56. Это достаточно высокое значение. В данном окне у нас представлен коэффициент корреляции, квадрат коэффициента корреляции, который совпадает с коэффициентом детерминации и описывает общую адекватность модели. Также здесь содержится значение скорректированного коэффициента детерминации и стандартная ошибка оценки. В следующем окне мы видим информацию по дисперсионному анализу. Объясненная дисперсия, то есть дисперсия наблюдений, объясненная фактором. Остаточная дисперсия и общая дисперсия. Значение статистики Фишера для проверки общей адекватности модели. И мы видим, что значение p-value, определяющее значимость нашей модели, существенно меньше уровня значимости 0,05. Соответственно, влияние фактора можно признать статистически значимым. Далее следует информация о параметрах, то есть собственно оценки регрессионной модели. Оценка свободного члена, оценка коэффициента, стоящего перед фактором, их среднеквадратичные ошибки, стандартизованный коэффициент регрессии, который в данном случае совпадает с коэффициентом корреляции. Как мы видим, два значения 0,749 в данной таблице и также 0,749 в первой таблице. И значение p-value для проверки значимости параметров, то есть для проверки гипотезы о том, что данные параметры равны 0. Как мы видим, значения p-value существенно меньше, чем 0,05, соответственно, нулевые гипотезы о незначимости соответствующих параметров отклоняются, и оба параметра значимы. То есть мы построили вполне адекватную модель с двумя значимыми параметрами. Но если задуматься, значение коэффициента свободного члена, равного −42, не имеет смысла при построении модели зависимости роста и веса. То есть у нас объект нулевой размерности не может иметь какой-то отрицательный вес. И как мы это рассматривали в прошлый раз при работе с этими данными в пакете R, мы вспомнили про индекс массы тела, который связывает нам значение веса со значением роста в квадрате. Давайте попробуем теперь построить регрессионную модель, но теперь уже не линейного вида, когда у нас фактор присутствует с квадратом. Для этого нам сначала нужно создать новую переменную. Для того чтобы преобразовать уже имеющиеся переменные, мы сейчас воспользуемся преобразованием переменных, которые можно выполнять в пакете SPSS. Что нам нужно? Нам нужно взять переменную рост, которая сейчас у нас в сантиметрах, перевести в метры и полученные величины возвести в квадрат. Давайте посмотрим, как это делается. Преобразование, Вычислить переменную. Для начала создадим переменную роста в метрах. Назовем ее «Рост М» и возьмем уже имеющийся набор данных из переменной «рост» и разделим на 100. У нас была создана новая переменная, которая представляет Тот же самый рост, но теперь уже переведённый в метры. Также можно создать ещё одну дополнительную переменную, которая будет представлять значение роста, возведённый в квадрат, то, что требуется для вычисления индекса массы тела. Преобразование, вычислить переменную, назовём эту переменную, например, «Рост 2». И для того чтобы вычислить её, возьмём значение роста в метрах и возведём в квадрат. Для возведения в степень используется двойная звёздочка. У нас в журнале появляется информация о создании этих переменных, они были вычислены, действия были выполнены. И в нашей исходной таблице появились две новые переменные. Теперь мы можем построить обычную парную модель регрессии, но теперь уже в качестве фактора у нас будет выступать наша переменная «Рост 2». Анализ. Регрессия. Линейная. В качестве зависимой переменной мы возьмём вес, а вот в качестве независимой переменной нам нужна переменная «Рост 2», поэтому исходную переменную, которую мы брали на предыдущем шаге мы вернём обратно в таблицу, а возьмём в качестве независимой переменной переменную «Рост 2». Нажимаем ОК. У нас также достаточно высокий коэффициент корелляции, 0.751, квадрат коэффициента корелляции, который совпадает с коэффициентом детерминации и описывает нам общую адекватность модели, также достаточно высок и равен 0.564. И мы получили оценки параметров модели. При этом модель у нас оценивалась двумя параметрами при наличии свободного члена. Но если вы посмотрите на первую строку, где у нас имеется информация о константе, то есть о свободном члене, мы видим, что значение p-value, описывающее значимость данного параметра, больше, чем .005, то есть получается, что для данного параметра мы должны принять гипотезу о незначимости, то есть о равенстве 0. Свободного члена в данной модели быть не должно. Для того чтобы рассмотреть новую модель с тем же самым фактором, но теперь уже без свободного члена, мы должны сделать следующее. Заходим ещё раз в анализ, регрессия, линейная. Оставляем те же самые переменные, но заходим на вкладку «Параметры». Сейчас у нас здесь указано «Включить в уравнение константу», то есть у нас по умолчанию в модели присутствует свободный член, и при проведении регрессионного анализа строится его оценка. Нам она не нужна, и мы эту константу убираем. Продолжить. ОК. У нас появляется новая таблица с результатами регрессионного анализа, где теперь оценивается только один параметр, который стоит перед ростом в квадрате, и его значение равно 16.97. Вы можете сравнить полученный результат с предыдущим, полученным в пакете R, вы увидите, что вы получили абсолютно то же самое значение, и все выводы относительно индекса массы тела справедливы и для данной ситуации. [МУЗЫКА] [МУЗЫКА]