[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Уважаемые слушатели, в данном уроке мы рассмотрим, как сгенерировать регрессионную модель непосредственно в пакете Statistica и как для нее провести регрессионный анализ. Сейчас мы попробуем построить с вами линейную модель парной регрессии, то есть одну зависимую переменную, на которую будет влиять один фактор. Мы получим выборку, содержащую 100 наблюдений. Для этого нам нужно сначала создать таблицу, содержащую 100 строк. Нажимаем новый «Файл», новая «Таблица», пусть будет десять переменных, хотя все мы их не будем использовать, и определим десять наблюдений. Нажимаем OK. Вот у нас открылась таблица, в которой сейчас мы будем проводить генерацию. Для того чтобы сгенерировать регрессионную модель, нам нужно задать значение факторной переменной, задать два параметра — параметр свободного члена и параметр, стоящий перед фактором, а также вектор шума. В первой переменной Var1 мы создадим значение детерминированной факторной переменной. Пусть это будут значения, начинающиеся с 0,1 с шагом 0,1. Сделаем это следующим образом. Назовем эту переменную x, и далее, как в Excel, выполним автозаполнение первого столбца, указав закономерность: первое значение будет 0,1, следующее значение будет 0,2. Далее выделяем первые две строки и проводим до конца до последнего наблюдения. Вот у нас появились все значения. Дальше нам нужно задать вектор шума. Чтобы он соответствовал условиям Гаусса — Маркова, необходимо, чтобы он подчинялся нормальному распределению с нулевым математическим ожиданием и некоторой заданной дисперсией. Мы сгенерируем выборку, подчиняющуюся стандартному нормальному распределению. Для этого заходим в переменную Var2, назовем эту величину E, а здесь в окне функций используем функцию генерации нормального распределения. Это функция RndNormal. [БЕЗ_ЗВУКА] Вот она у нас появилась в подсказке. Выбираем ее. Математическое ожидание мы оставим нулевым, то есть ничего добавлять не будем, а в аргументе нам нужно указать среднеквадратическое отклонение. Пусть это будет стандартный нормальный шум, то есть дисперсия будет равна 1. Соответственно, среднеквадратическое отклонение в скобках мы также указываем, равное 1. Нажимаем OK. И у нас появляется 100 значений стандартно распределенной нормальной величины. Далее в следующую ячейку мы сформируем значение y. Значение y — назовем так нашу переменную — будут формироваться по стандартной формуле a + bx + шум. Определим самостоятельно значения параметров. Например, пусть параметр свободного члена равен 5. Далее параметр, отвечающий за влияние фактора, пусть будет равен 2, умножить. И нам нужно умножить это на x. У нас есть два способа обратиться к первому столбцу. Мы можем обратиться к нему по имени, то есть написав здесь x. Если же у вас названия переменных достаточно длинные или еще набраны кириллицей и вам не очень удобно набирать их здесь в строке функций, можно обратиться к переменной по номеру. То есть первый столбец у нас имеет номер 1, далее 2, 3 и так далее. Для того чтобы обратиться к ячейке по номеру, мы должны указать маленькую букву v и номер соответствующей ячейки. То есть у нас есть два способа набрать в данном случае нашу модель. Либо 5 + 2 * v1 + v2, и абсолютно аналогичное действие мы получим, если наберем 5 + 2 * x + e. Чтобы наша модель имела вид, более похожий на теоретический, давайте оставим ее в таком виде. И нажмем OK. Вот у нас появились соответствующие значения зависимой переменной. Давайте посмотрим, как связаны между собой значения x и y. Для этого построим диаграмму рассеяния. Заходим в «Графику», диаграммы рассеяния — Scatterplot, вторая строка. И здесь укажем переменную — по x значение фактора, то есть x; по y — значение зависимой переменной y. Нажимаем OK. OK. Вот так вот выглядит наше облако точек, определяющее связь переменных x и y. Как видим, они все достаточно плотно лежат вокруг прямой, которая также была автоматически построена в пакете, где вверху указано уравнение данной прямой. 4,8 — это оценка параметра a, который мы задали равный 5. А 2,02 — это значение коэффициента, стоящего перед x. Мы его задавали равным 2. Понятно, что имеются некоторые погрешности, но тем не менее оценки достаточно близки к соответствующим теоретическим значениям. То есть в принципе по нашим наблюдениям регрессионное уравнение уже построено. Для того чтобы провести более детальный анализ, мы сейчас перейдем в нашу исходную таблицу и проведем регрессионный анализ для данной модели. Закроем пока это окошко, вернемся к исходной таблице и зайдем в раздел Statistics, множественная регрессия. У нас парная регрессия, но она является частным случаем множественной регрессии, когда количество факторов p = 1. Заходим сюда, выбираем переменные, dependent variable, зависимая переменная, y; independent variable, независимая переменная, x. Указываем их в соответствующих окнах, нажимаем OK, и OK. Коэффициент корреляции для данной модели равен почти 0,98, что говорит об очень сильной связи зависимой переменной с фактором. Детерминация модели также очень высока и составляет почти 96 %. Соответственно при проверке гипотезы о неадекватности модели по Фишеру мы получаем очень низкое значение p-value, которое существенно меньше уровня значимости 0,05, что говорит о высокой статистической значимости построенной регрессионной модели. Здесь мы видим стандартизованный коэффициент регрессии, который для парной модели совпадает с коэффициентом корреляции. Для того чтобы получить более детальную информацию о параметрах модели, мы проходим в результаты регрессии. В столбце b мы видим оценки параметров, в строке Intercept — оценку свободного члена, в строке x — параметр, стоящий перед факторной переменной. Значение параметра свободного члена мы задавали, равный 5, получили 4,8. Для параметра, стоящего перед фактором, мы задавали значение, равное 2, и получили также очень близкое ему значение. В следующем столбце мы видим стандартные ошибки для обоих параметров. Далее следуют значения статистики Стьюдента, в скобках указано число степеней свободы (n − 2). У нас было 100 наблюдений минус 2, получаем 98. И значение p-value о незначимости данного параметра для каждого параметра соответственно. Как видим, это значение очень мало. Конечно, это не чистый ноль, если мы сюда зайдем, мы видим, что у нас имеются также значимые разряды, но тем не менее это число крайне мало, порядка 10 в −36-й степени, то есть значимость этих параметров очень высока. Соответственно, модель, которая была у нас указана на диаграмме, которую мы строили, является высоко детерминированной, и мы можем использовать ее для прогноза. Для того чтобы построить прогноз регрессионной модели, мы можем поступить следующим образом. В окне регрессионного анализа Можно пройти на вкладку residuals prediction, в частности, нас сейчас будет интересовать прогнозирование. Нажимаем на эту вкладку, и здесь есть кнопка «Предсказать зависимую переменную». При этом будет построен как точечный, так и интервальный прогноз, где вы можете указать соответствующий уровень. По умолчанию это значение указывается 0.05. Нажимаем на кнопку и у нас появляется окно, в которое мы должны ввести значение x, для которой хотим предсказать зависимую переменную. Последнее значение в наборе факторов у нас было 10, допустим, я хочу сделать прогноз для следующего шага, то есть 10.1. Вводим это значение в окно факторной переменной и нажимаем ОК. У нас появляется окошко с расчетами. То есть переменная x, которая была равна 10.2, была взята с весом, равным значению оцененного коэффициента, стоящего перед ней, далее к этом значению было добавлено значение свободного члена и точечный прогноз получился равными 25.25. При этом границы 95%-ного доверительного интервала равны, соответственно, 24.8 и 25.7. То есть с вероятностью 95 % значение предсказываемой переменной будет лежать в этом интервале. [БЕЗ_ЗВУКА] [БЕЗ_ЗВУКА] Для проведения анализа остатков можем зайти в следующий раздел. Нажимаем на summary residuals и predicted, то есть остатки и предсказания, и получаем детальную информацию о наблюдаемых значениях, о предсказанных значениях, об остатках нашей модели, ну и так далее. Если мы хотим провести анализ остатков, мы можем выделить соответствующую переменную, указать ее в исходной таблице и, например, построить гистограмму для полученных значений. Выполняем стандартные действия, смотрим на гистограмму остатков, на которую сразу пакет Statistica накладывает гауссовский колокольчик, как видим, естественно, у нас имеются отклонения, но тем не менее, форма не сильно противоречит нормальному закону. Для более детального анализа мы можем проверить гипотезу о нормальности остатков. Для проверки гипотезы о нормальности остатков мы идем в раздел statistics, distribution fitting — подгонка распределения, выбираем нормальное распределение, которое у нас является непрерывным, соответственно, в группе Continuous distribution, нажимаем ОК. Проверку будем делать для четвертой переменной. И подводим итог, summary. Как видим, для переменной 4 проводилась проверка на нормальность, значение хи-квадрат получилось 10.7 при числе степеней свободы равным 7. Значение p-value для проверки гипотезы равно 0.15, что выше уровня значимости 0.05, соответственно, остатки подчиняются нормальному закону. Учитывая все проделанные действия, мы можем считать, что построенная регрессионная модель адекватна и она может быть использована для прогнозирования. [МУЗЫКА] [МУЗЫКА]