[МУЗЫКА] [МУЗЫКА] Уважаемые слушатели. Данный урок посвящен корреляционному анализу количественных данных, а именно парному коэффициенту корреляции Пирсона и тому, как этот анализ реализован в пакете Statistica. Для начала давайте вспомним немножко теории. Парный коэффициент корреляции Пирсона описывает связь между двумя случайными переменными x и y. Теоретически парный коэффициент корреляции Пирсона вычисляется вот по такой формуле, обозначается он чаще всего r (x, y), в числителе стоит ковариация, то есть математическое ожидание произведения отклонений случайной величины x от ее математического ожидания и случайной величиной y от ее математического ожидания, деленное на произведение среднеквадратических отклонений. Когда речь идет о статистике, на основании наблюдений за переменными x и y мы можем построить оценку данного коэффициента корреляции, а именно построить выборочный парный коэффициент корреляции. Он рассчитывается по следующей формуле. Обозначается выборочный коэффициент r с крышкой, в числителе стоит оценка ковариации, в знаменателе стоит произведение среднеквадратических отклонений, полученных на основании наблюдений. Посмотрим, что представляет собой эта величина. Допустим, для какой-то пары xi, yi оба значения больше соответствующих средних. То есть xi больше своего среднего, yi больше своего среднего. Соответственно, обе скобки будут иметь положительный знак, плюс на плюс будет давать нам знак плюс, и данное слагаемое общую сумму будет увеличивать. Если для какой-то пары xi, yi оба значения меньше соответствующих средних, тогда минус на минус будет опять давать знак плюс, и такое слагаемое тоже будет увеличивать общую сумму. Если же для какой-то пары xi больше среднего, а yi меньше среднего, соответственно, плюс на минус будет давать знак минус, и такое слагаемое общую сумму будет уменьшать. Если в сумме будут преобладать положительные слагаемые, тогда коэффициент корреляции будет расти, и это будет говорить о прямой положительной связи между величинами x и y. Если в сумме будут преобладать отрицательные слагаемые, коэффициент корреляции будет уменьшаться, принимать отрицательные значения, и это будет говорить о наличии обратной связи. Если же количество положительных и отрицательных слагаемых будет примерно одинаково, а значение коэффициента будет близко к 0, это будет говорить об отсутствии связи, но, конечно, это будет требовать более строгой проверки. Для начала посмотрим на графики, как коэффициент корреляции реагирует на связь между переменными x и y. На данном графике были смоделированы величины x и y с корреляционным коэффициентом, равным 0. Диаграмма рассеяния выглядит вот таким вот образом. И если мы найдем среднее значение x, среднее значение y и посмотрим точки, как они соотносятся со своими средними, можно видеть, что точки, обозначенные на графике синим, будут увеличивать коэффициент корреляции, точки, обозначенные красным, будут коэффициент корреляции уменьшать. В данном случае их количество примерно одинаковое, и коэффициент корреляции, как уже было сказано, равен 0. Далее была смоделирована ситуация, когда коэффициент корреляции равен 0,3. Также вы можете видеть на графике, как на это реагирует диаграмма рассеяния. Аналогичные результаты для коэффициента корреляции, равного 0,7. Как видите, здесь уже выраженное преобладание точек с положительным знаком. То есть здесь у нас значение x больше среднего значения y, также больше среднего, то есть плюс на плюс. Здесь значение x меньше среднего, значение y также меньше среднего, тоже знак минус на минус дает плюс. А красные точки, соответственно, плюс на минус и минус на плюс. В данном случае коэффициент корреляции дает значение 0,7. Аналогичная ситуация для коэффициента корреляции 0,9. И единичную корреляцию мы получаем в том случае, если имеется строгая линейная зависимость между переменными, то есть все точки xi, yi лежат на одной прямой. Значения парного коэффициента корреляции Пирсона лежат в диапазоне от −1 до +1, или по модулю от 0 до 1. Чем больше значение коэффициента корреляции по модулю, тем сильнее связь. При этом, чем ближе это значение к 1, тем более выраженная прямая связь. Чем ближе значение к −1, тем более выражена отрицательная связь. Чем ближе к 0, тем связь между переменными слабее. Но для того чтобы строго ответить на вопрос о наличии либо отсутствии корреляционной связи, необходимо проверить гипотезу о равенстве 0 корреляционного коэффициента. То есть необходимо проверить нулевую гипотезу о том, что теоретически коэффициент корреляции равен 0. Делается это с помощью статистики Стьюдента, имеющей число степеней свободы n − 2, где n — это объем выборки, статистика рассчитывается по следующей формуле. Это оценка коэффициента корреляции деленная на √(1 − r²) * корень из числа степеней свободы, n − 2. Если данная статистика по модулю меньше критического значения, соответствующего уровню значимости α, нулевая гипотеза об отсутствии корреляционной связи принимается. Если же значение статистики по модулю больше или равно критическому значению, в этом случае нулевая гипотеза отклоняется, и найденное выборочное значение корреляционного коэффициента признается как значимым, а величины — связанными. Но для того чтобы строго проверить эту гипотезу и для того, чтобы статистика имела действительно распределение Стьюдента, необходимо, чтобы были выполнены следующие условия. Во-первых, коэффициент корреляции можно оценивать по этой формуле, если x и y подчиняются двумерной нормальной совокупности. И второе условие — объем выборки должен быть достаточно велик, то есть объем должен быть не менее 200, а лучше превышать 200 наблюдений. Давайте теперь посмотрим на примере в пакете Statistica, как рассчитывается данный коэффициент и как проверяется гипотеза о его статистической значимости. Рассмотрим три величины: x1, x2, x3. Объем выборок равен 200, то есть первое условие о достаточном количестве наблюдений у нас выполнено. Теперь нам нужно еще проверить, подчиняются ли эти выборки нормальному закону. Для начала можно построить гистограммы для каждой переменной, Graphs, Гистограмма, Переменная 1, OK. Как мы видим, данная гистограмма достаточно неплохо соответствует нормальному распределению. Сделаем аналогичные действия для двух других переменных. Возьмем вторую переменную. Как видим, также график не противоречит нормальному закону. И следующая, третья, переменная. График также напоминает гауссовский колокольчик, то есть не противоречит нормальному закону. Теперь проверим строго гипотезы о нормальности. Используем все известные нам критерии, которые имеются в пакете Statistica, а именно критерий согласия Пирсона, или критерий Хи квадрат, критерий Колмогорова — Смирнова с поправками Лиллиефорса и критерий Шапиро — Уилка. Для начала зайдем в Statistics, основные статистики таблицы, таблица частот, вкладка Нормальность, укажем здесь все основные необходимые нам критерии. Поскольку теоретические и математическое ожидания, дисперсия нам неизвестны, мы используем сразу поправки Лиллиефорса. Здесь мы можем выбрать все три переменные, нажимаем OK, и кнопка теста нормальности. Как видим, по критерию Шапиро — Уилка для всех трех переменных принимаются гипотезы о нормальном распределении. То есть все значения p-value превосходят уровень значимости 0,05. И только для второй переменной по критерию Лиллиефорса значение p-value получилось меньше уровня значимости. Давайте проверим теперь также нормальность по критерию Хи квадрат. Statistics, Distribution Fitting, Непрерывные законы распределения, Нормальный закон. Переменная первая. Параметры, в принципе, сейчас нас не сильно интересуют. Нам нужно просто ответить на вопрос — подчиняется ли выборка нормальному закону? Сразу нажимаем Summary. Для данной гипотезы значение p-value равно 0,52, что больше уровня значимости 0,05, поэтому по данному критерию мы можем сделать вывод о нормальности первой выборки. Дальше, возьмем следующую выборку — X2. Для нее вероятность p-value равна 0,28, что также превышает уровень значимости 0,05. И для последней третьей выборки проводим аналогичный анализ. И, как видим, что здесь значение p-value чуть меньше, чем 0,05. То есть получилось, что первая выборка по всем трём критериям, то есть критерий Лиллиефорса, критерий Шапиро — Уилка и критерий хи-квадрат, нормальность принимается. Для второй выборки по критерию хи-квадрат и по критерию Шапиро — Уилка мы принимаем гипотезу о нормальности. И для третьей выборки по критерию Лиллиефорса и Шапиро — Уилка мы также принимаем нормальность. То есть наши данные не противоречат нормальному закону, и мы можем корректно применять для оценки их связи коэффициент парной корреляции Пирсона. Где этот анализ находится в статистике? Для того чтобы рассчитать корреляцию между различными переменными, мы должны зайти в Statistics > Основные статистики/Таблицы. Поскольку мы уже заходили в этот раздел для того, чтобы рассчитать таблицы частот, статистика предлагает нам либо продолжить текущий анализ, либо начать новый. Сейчас мы пойдем в корреляционный анализ, поэтому начнем новый. И во второй строке вы видите корреляционные матрицы. Это то, что нам как раз сейчас нужно. Выбираем эту строку, нажимаем OK. Если у нас имеются два списка переменных, для которых мы хотим посчитать перекрестные корреляции, мы выбираем, соответственно, два листа. Сейчас мы хотим для всех трех имеющихся переменных рассчитать все возможные парные связи. Следовательно, мы можем нажать на первую кнопку и выбрать все три переменные. При этом будут рассчитаны корреляции — каждая с каждой. Для начала пока просто подведем итог. Как видите, результатом данного анализа являются оценки средних имеющихся величин, оценки дисперсии всех трех величин, а дальше следует квадратная матрица с рассчитанными парными коэффициентами корреляции, где каждый коэффициент корреляции рассчитан по формуле, которую мы только что видели с вами в презентации, то есть каждый коэффициент рассчитывается по этому соотношению. Статистика красным цветом выделяет отклоненные гипотезы. В данном случае проверяемая гипотеза о том, что теоретическое значение соответствующего коэффициента корреляции равно нулю. Следовательно, если гипотеза принимается, то мы отклоняем решение о том, что переменные связаны, если же гипотеза отклоняется, то мы выносим решение о том, что имеется статистически значимая корреляционная связь между исследуемыми переменными. Как видим, корреляция между переменной X1 и X2 очень сильная, статистически значимая. Корреляционная связь между переменными X1 и X3 чуть слабее, но тоже является статистически значимой. И примерно такая же корреляционная связь между переменными X2 и X3. Если вам нужна строгая проверка гипотезы о статистической значимости данной корреляции, мы можем это сделать, как только что посмотрели в презентации, по критерию Стьюдента. То есть кроме, собственно, самого значения коэффициента корреляции, мы можем также вывести в пакете Statistica значение соответствующих статистик Стьюдента для каждого коэффициента корреляции, а также значение p-value для проверки гипотезы. Для этого нам нужно создать матрицу с более подробным отчетом. Посмотрим, как это делается. Вернемся в окно расчета корреляции. Перейдем на вкладку Options и выберем последнюю строку — показать детальную таблицу результатов. Нажимаем «Подвести итог». И, как видите, теперь таблица у нас стала гораздо более подробная. То есть у нас, помимо математических ожиданий и дисперсии, оцененных по наблюдениям, приводятся также выборочные значения коэффициентов корреляции для каждой пары. Естественно, корреляционный коэффициент переменной X1 с X1 будет равен единице, так же как для переменной X2 и X3. А вот все перекрестные корреляции, они у нас приводятся здесь. Для них дополнительно приводится значение корреляционного коэффициента в квадрате, значение статистики Стьюдента, которую мы только что видели с вами в презентации, и значение p-value для проверки гипотезы о незначимости соответствующего коэффициента. Как видите, для всех трех значений величина p-value очень-очень мала — практически равна нулю. Соответственно, гипотезы о незначимости этих корреляций отклоняются. Данные коэффициенты значимые, то есть имеются парные связи между всеми тремя переменными. Пакет Statistica также предлагает достаточно интересный график — Color Map, которая, помимо расчета коэффициента, также с помощью цвета выделяет силу или степень значимости данного коэффициента. Сверху указана шкала. Как видите, возможные значения корреляционного коэффициента лежат от −1 до +1. И, в зависимости от степени связи, соответствующая ячейка выделяется цветом разной интенсивности. Тем самым мы можем, глядя на график, более наглядно, визуально оценить степень связи между имеющимися величинами. Синяя шкала соответствует прямой связи, красная шкала соответствует обратной связи. [БЕЗ_ЗВУКА] Также на вкладке Advanced мы можем построить диаграммы рассеяния для всех парных связей между тремя переменными. В частности, если мы рассмотрим связь переменной X1 и X2, для которой значение корреляционного коэффициента примерно равно 0,74, мы увидим вот такой график. Мало того, на эту диаграмму размаха также добавляется функция регрессии и сразу же строится доверительный интервал для функции регрессии. Но регрессионный анализ мы с вами будем рассматривать чуть позже в следующем модуле. Сейчас обратите внимание просто на степень рассеяния этих точек и на облако, которое они при этом образуют. Аналогично, если мы возьмем, например, переменные первую и третью, как видите, размах у нас получился чуть шире, а коэффициент корреляции для данной ситуации стал чуть меньше. [МУЗЫКА] [МУЗЫКА]