[ЗВУК] [ЗВУК] [ЗВУК] Уважаемые слушатели, в данном уроке мы рассмотрим построение парных моделей регрессий в пакете Statistica. Рассматривать мы это будем всё на том же примере данных о школьниках третьих и четвертых классов. Мы уже строили эту регрессионную модель в пакете R, в пакете SPSS, а теперь посмотрим, как аналогичные действия могут быть выполнены в пакете Statistica. Итак, мы предполагаем, что переменные «рост» и «вес» у нас связаны, при этом вес у нас выступает в качестве зависимой переменной, рост выступает в качестве предсказывающей переменной. То есть мы с вами строили модель зависимости веса от роста. Первое, что мы делаем, мы можем построить диаграмму рассеяния, чтобы посмотреть, как связаны между собой эти переменные. Для этого мы заходим в раздел «Графика» / Scatterplots (диаграммы рассеяния). Выбираем этот пункт. Далее нам нужно указать переменные по оси x и по оси y. Как правило, по оси x откладывают независимую переменную, по оси y — зависимую переменную. Соответственно, по оси x нам нужно отложить значение роста, а по y — значение веса. Нажимаем Ok. На данном графике у нас представлена диаграмма рассеяния, и посмотрите сразу же на этот же график: у нас пакет Statistica автоматически выводит оцененное уравнение регрессии. То есть мы видим значение свободного члена, равное −14, а значение коэффициента, стоящего перед независимой переменной, — 0,34. В принципе, модель у нас уже построена, и график этой прямой также накладывается на диаграмму. Но если мы хотим провести более строгий, более детальный регрессионный анализ, нам нужно пройти в другой раздел. Закроем этот график. Сохранять его не будем. [БЕЗ_СЛОВ] Вернемся к нашей исходной таблице и пройдем в раздел «Статистика», где у нас находится раздел регрессионного анализа. Для этого мы заходим в Statistics / Multiple Regression. Обратите внимание, что сейчас мы будем строить парную, а не множественную регрессию. Мы рассматриваем влияние только одного фактора, но можно считать, что парная регрессия является частным случаем множественной регрессии, где у нас p (то есть количество факторов) = 1. Поэтому мы все равно заходим в этот раздел и определяем переменные. Здесь у нас стоит подсказка, в каком окне какую переменную нам нужно указать. В первом окне нужно указать Dependent variable, то есть зависимую переменную. Это у нас переменная «вес». В соседнем окне у нас стоит Independent variable, то есть независимая, или предсказывающая, переменная. Это переменная «рост». Нажимаем Ok. Далее можно продолжить анализ без указания каких-то дополнительных опций. Сразу проходим далее, нажимая кнопку Ok. В этом окне у нас появляется коэффициент корреляции. Квадрат этого коэффициента дает нам коэффициент детерминации. Далее следует подправленный коэффициент детерминации, а также рядом мы видим значение статистики Фишера, число степеней свободы для нее. Первая степень свободы определяет количество факторов, вторая равна n − 2, то есть объем выборки −2. У нас было 90 наблюдений, соответственно, вторая степень свободы равна 88. И значение p-value для проверки гипотезы о неадекватности модели, то есть о том, что коэффициент детерминации равен нулю. Как видим, значение p-value существенно меньше, чем 0,05. Соответственно, с высокой надежностью гипотеза h0 о том, что модель неадекватна, отклоняется. Внизу под таблицей мы видим также значение стандартизованного коэффициента регрессии. То есть это коэффициент β с крышкой. Он показывает корреляцию зависимой переменной y с фактором. Для того чтобы получить более детальную информацию о параметрах модели и их значимости, мы нажимаем на кнопку Summary: Regression results (подвести итоги регрессии). И здесь мы видим, что коэффициент свободного члена у нас равен −14. Его стандартное отклонение равно 8,7. А вот статистика Стьюдента у нас меньше порогового значения, о чем говорит значение p-value — больше, чем уровень значимости 0,05. Соответственно, для данного коэффициента гипотеза о незначимости принимается, и в модели мы должны положить его равным нулю. Как это сделать, рассмотрим чуть позже. А сейчас посмотрим на параметр, стоящий перед фактором. Его значение равно 0,34. Стандартная ошибка, значение статистики Стьюдента, которое очевидно больше критического уровня, так как значение p-value существенно меньше уровня значимости 0,05. То есть данный параметр у нас значим, присутствует в модели, соответственно, связь зависимой переменной с фактором также значима, но нам нужно немножко скорректировать нашу модель, для того чтобы убрать незначимый параметр из нее. Как это сделать? Вернемся в наш анализ, раскрыв последнее окно Multiple regression. Вернемся на шаг назад и перейдем в дополнительные настройки. Нам нужно сейчас найти пункт, где можно положить параметр свободного члена, равный нулю. Для этого ставим галку в первой строке Advanced options и проходим далее — Ok. Опять заходим на вкладку Advanced, и здесь у нас есть специальная строка «Работа со свободным членом». Сейчас свободный член (или Intercept) у нас включен в модель (Include in model). Раскроем этот список и видим, что мы можем положить этот параметр равным нулю (Set to zero). Выбираем этот пункт, нажимаем Ok, и у нас появляется информация пакета Statistica о том, что для регрессии, проходящей через начало координат, то есть без свободного члена, коэффициент детерминации представляет пропорцию объясненной дисперсии относительно начала координат. То есть это значение нельзя сравнивать со значением коэффициента детерминации, который рассчитывается в случае, когда свободный член в модель включается. Об этом мы с вами говорили, когда строили регрессионные модели в других пакетах. Также вы можете в презентации познакомиться, какие конкретно формулы используются в этом случае для расчета коэффициента детерминации. Мы принимаем эту информацию к сведению, соглашаемся с ней и нажимаем Ok. После этого у нас получаются пересчитанные уже по другим формулам значения корреляционного коэффициента, его квадрат, который совпадает с коэффициентом детерминации. В данном случае, как уже было сказано, мы не можем сравнивать эти результаты с предыдущими, мы просто проходим далее и посмотрим на значения параметров и их значимость. В данной модели у нас остался всего один параметр, отвечающий за влияние фактора. Значение данного параметра равно 0,23. Стандартная ошибка, значение статистики Стьюдента и значение p-value, говорящее о том, что этот параметр действительно в модели значим. Тем самым мы построили регрессионную модель, а именно линейную модель парной регрессии без свободного члена зависимости роста от веса. Но как вы помните, основываясь на информации об индексе массы тела, мы с вами решили, что наиболее оптимальной будет зависимость веса от роста в квадрате, когда рост выражается в метрах. Давайте немножко преобразуем наши исходные данные и построим такую модель. Нам нужно добавить к нашей таблице переменную, которая будет содержать значение роста, выраженный в метрах, возведенный в квадрат. Для этого нам нужно преобразовать соответствующую переменную «рост». Добавим к таблице еще один столбец. Для этого мы заходим в Vars / добавить (Add). Нам нужна одна переменная, и нужно внимательно посмотреть, куда мы будем эту переменную вводить. Ну, в принципе, здесь большой разницы нет, достаточно логично добавить эту переменную после переменной роста, поэтому мы укажем, что мы будем добавлять ее вот сюда. И нажмем "OK". Поскольку у нас уже проводился некоторый анализ данной таблицы, и сейчас мы вносим определенные изменения в эту таблицу, у нас опять появляется окно с предупреждением, что анализ в процессе. Мы соглашаемся с этим предупреждением, и в нашем списке появляется новый столбик с новой переменной. Сейчас мы в эту переменную создадим значение роста в метрах, возведенное в квадрат. Назовем эту переменную, например, "Рост 2". Теперь нам нужно преобразовать переменную, содержащуюся во втором столбце. Для этого нам нужно взять переменную "Рост", разделить на 100, чтобы выразить данную величину в метрах, и полученные значения возвести в квадрат. В данном случае для возведения в квадрат используется вот такой символ. Нажимаем "OK", выражение в порядке, и вот у нас появилась новая переменная, которую мы теперь будем использовать в качестве фактора для нашей регрессионной модели. Повторим все аналогичные действия, которые мы делали до этого. Заходим в Statistics, "Множественная регрессия". Начнем новый анализ. В качестве зависимой переменной выберем вес, в качестве независимой переменной выберем рост в квадрате. Нажимаем "OK", и вот у нас новый корреляционный коэффициент и, соответственно, коэффициент детерминации. Модель по-прежнему адекватна о чем говорит значение пи-value для статистики Фишера, то есть значение меньше чем 0,05. Следовательно, гипотеза о том, что коэффициент детерминации равен 0 и модель неадекватна отклоняется. Посмотрим коэффициенты. Подвести итоги регрессии. Опять мы видим, что параметры, стоящие перед фактором, у нас значимы. Значение пи-value для него меньше, чем 0,05. А вот параметры свободного члена оказываются незначимыми. Значение пи-value хоть и не намного, но тем не менее больше уровня значимости, соответственно гипотеза о равенстве его 0 должна быть принята. Нам нужно построить новую модель без свободного члена. Заходим туда же, открываем анализ множественной регрессии, возвращаемся на шаг назад, выбираем переменные. Их можно оставить так же. Переходим на вкладку advanced. Выбираем первую строку, нажимаем "OK". У нас появляется новое окно, которое мы не видили раньше. Заходим на вкладку advanced. В строке intercept выбираем set to zero. Положить равному 0. Нажимаем "OK". Опять то же самое предупреждение о том, что мы сейчас работаем с регрессионной моделью без свободного члена. Принимаем эту информацию. Коэффициенты у нас пересчитаны. Нам нужна информация о регрессионных коэффициентах, стоящих перед факторами. Нажимаем "подвести итоги регрессии". И вот мы видим значение параметра, которое в данном случае равно 16,9. Если вы вспомните, чему был равен индекс массы тела для данной возрастной группы, вы вспомните, что такое примерно значение мы и получали для нормы. [МУЗЫКА] [МУЗЫКА]