[МУЗЫКА] [МУЗЫКА] Уважаемые слушатели! В данном уроке мы рассмотрим ранговую корреляцию и как она реализована в пакете STATISTICA. Рассматривать мы будем на примере оценок школьников, 25 учащихся одного класса, по четырем дисциплинам: математика, физика, литература и иностранный язык. Предполагаемая гипотеза о том, что оценки по техническим дисциплинам — по математике и физике — должны быть достаточно сильно связаны, а также могут быть связаны оценки по гуманитарным предметам, в данном случае по литературе и иностранному языку. Для того чтобы оценить степень тесноты статистической связи между исследуемыми показателями, мы должны использовать ранговый коэффициент корреляции, потому что оценки, которые представлены в нашей таблице, измерены в порядковой шкале. Давайте вспомним немножко теории. Ранговый корреляционный анализ применяется для изучения степени тесноты статистической связи между ранговыми, или порядковыми, переменными. В зависимости от того, нужно ли исследовать парные связи или связь сразу между несколькими переменными, выбираются различные коэффициенты ранговой корреляции. Порядковые переменные представляют собой место некоторого объекта в упорядоченном ряду. При этом это упорядочивание может быть как абсолютно самостоятельным, так и переходом от некоторой количественной величины. При решении задачи ранговой корреляции, у нас имеется таблица «Объект-Свойство», где n объектов упорядочиваются по какому-то признаку. Предполагается, что у нас имеется n объектов, то есть наблюдения по i от 1 до n, и p различных способов их упорядочить. Для исследования степени тесноты статистической связи между двумя столбцами такой матрицы, или, как их еще называют, ранжировками, используется, в частности, парный коэффициент корреляции Спирмена, который рассчитывается по формуле 1. В данном случае, у нас имеется два столбца матрицы xk и xj, то есть упорядочивание n объектов по двум свойствам. Мы находим разности рангов, возводим их в квадрат, суммируем по всем объектам, умножаем на коэффициент 6 / (n³ — n) и вычитаем это выражение из единицы. Полученный по данной формуле коэффициент корреляции Спирмена принимает свои значения от −1 до +1, или, по модулю, от 0 до 1. При этом значение коэффициента равно 1 при полном совпадении ранжировок, а равно −1, когда у нас идет обратное ранжирование. Например, для пяти объектов по одной ранжировке 1-2-3-4-5, по второй — 5-4-3-2-1. Все остальные значения лежат в диапазоне от −1 до +1. Чем ближе по модулю величина к единице, тем связь сильнее, чем она ближе к нулю, тем связь слабее. Но дело в том, что данный коэффициент можно рассчитывать по Формуле 1 только в том случае, если ни одна из исследуемых ранжировок не содержит повторов. Если же в одной ранжировке содержатся одинаковые ранги, как, например, в нашем случае для оценок у нас несколько значений 3, несколько значений 4 и 5. В этом случае необходимо использовать поправки. Поправки вычисляются по формуле 2. Здесь mk — это число групп повторяющихся рангов. У нас таких групп в каждой ранжировке будет три. То есть это группа учащихся, получивших оценку «удовлетворительно», группа получивших оценку «хорошо», и, соответственно, «отлично». И nlk — это число совпадающих рангов в каждой группе, то есть число троек, число четверок, и число пятерок в каждой ранжировке соответственно. Таким образом, для каждой ранжировки будет получена некоторая поправка по данной формуле, а далее коэффициент 1 уже будет пересчитан по формуле 3, которая определяется вот таким образом. Но нам рассчитывать это вручную не придется, так как он замоделирован в пакете STATISTICA, нам нужно только выбрать правильный раздел анализа. Вернемся к нашей таблице данных и рассчитаем коэффициенты корреляции для нее. Итак, вот наша таблица с четырьмя ранжировками. Давайте рассчитаем парные коэффициенты корреляции Спирмена для данной таблицы. Для этого мы заходим в раздел Statistics — Непараметрика, так как ранговый коэффициент корреляции является непараметрическим, он используется для неколичественных данных. И, как вы видите, в третьей строке у нас рассчитываются корреляции Спирмена, Кендалла и так далее. Нас сейчас интересует коэффициент корреляции Спирмена. Заходим сюда, нажимаем OK. Самый простой анализ, который мы можем сделать в этом случае, это задать полный список имеющихся переменных. То есть выбираем сюда четыре величины и нажимаем на клавишу «Расчет коэффициента корреляции Спирмена». При этом мы получаем самую обычную квадратную матрицу перекрестных корреляций всех четырех переменных. Естественно, на диагонали этой матрицы у нас стоят единицы, так как у нас имеется прямая связь каждого предмета самого с самим. А вот для, например, математики и физики мы видим, значение данного коэффициента равно примерно 0,73. STATISTICA нам цветом подсказывает, какие гипотезы у нас отклоняются. В данном случае везде проверяемая гипотеза о том, что теоретическое значение коэффициента корреляции Спирмена равно нулю. Соответственно, если гипотеза отклоняется, то мы выносим решение о том, что соответствующее значение корреляционного коэффициента является статистически значимым. Следовательно, между оценками по математике и физике имеется достаточно сильная корреляционная связь. Также мы видим, что у нас как статистически значимая была отмечена корреляция между гуманитарными предметами — Литература-Иняз, и, соответственно, Иняз-Литература, так как данный коэффициент является симметричным. Это значение равно примерно 0,6, и также является статистически значимым. Также у нас имеются ненулевые корреляции по остальным предметам, в частности, математика и иностранный язык — значение, примерно, 0,22. Но, как видите, в этом случае, данное значение, как статистически значимое, уже не принимается. Все остальные корреляции имеют еще более низкое значение, и также не являются статистически значимыми. Если вы хотите строго проверить гипотезу о том, что данный коэффициент статистически значим, в этом случае мы должны проверить гипотезу о равенстве нулю данного коэффициента с помощью статистики Стьюдента. Делается это аналогично тому, как и проверяется гипотеза о значимости парного коэффициента корреляции Пирсона. Нулевая гипотеза о том, что теоретическое значение соответствующего коэффициента для ранжировок k и j равно нулю. Нулевая гипотеза принимается при уровне значимости α, если значение статистики по модулю не превосходит критическое значение. Для того чтобы посмотреть значение статистики Стьюдента в пакете STATISTICA и соответствующее ему значение p-value, мы должны провести более подробный анализ. Раскроем окно текущего анализа и выберем вот в этом пункте не квадратную матрицу, а детальный отчет. В этом случае нам нужно заново переопределить переменные, то есть в данном случае предполагается два списка. Мы можем указать часть переменных здесь, часть — здесь. Но мы хотим каждую с каждым, поэтому оба списка мы указываем в левом и правом окне одновременно. Нажимаем OK и так же рассчитываем коэффициент. Теперь у нас получается чуть более подробная таблица, то есть мы видим все парные связи, в том числе и симметричные, то есть Математика-Физика и здесь же Физика-Математика; естественно, коэффициенты будут одинаковые. Доступный объем наблюдений — в данном случае это не так критично, так как у нас нет пропусков в таблице, поэтому все значения равны полному объему выборки. Если же для каких-то наблюдений у нас были бы пропущены значения, вот эта величина могла немножко варьироваться. Значения корреляционного коэффициента указаны во втором столбце. В третьем столбце указано значение статистики Стьюдента с числом степеней свободны n − 2, то есть, в нашем случае, это получается 23. И последний столбец — значение p-value. То есть мы видим, что для корреляционного коэффициента, указывающего степень связи между математикой и физикой, значение p-value очень мало, существенно меньше, чем 0,05, следовательно, гипотеза о незначимости корреляционного коэффициента у нас отклоняется, и вот это значение коэффициента корреляции Спирмена признается как статистически значимое. Аналогично, для связи между гуманитарными предметами — литературой и иностранным, также значение p-value очень мало, и мы выносим решение о том, что имеется статистически значимая корреляционная связь. Там, где у нас было значение 0,22 примерно, для математики и иностранного языка, значение p-value равно 0,3, что выше, чем 0,05, поэтому принять данное значение, как статистически значимое, мы не можем. То есть изначально наши гипотезы подтверждаются — о том, что имеются связи между техническими предметами, а также имеются связи между гуманитарными предметами. Для оценки степени тесноты статистической связи сразу между всеми имеющимися переменными мы можем применить коэффициент конкордации Кендалла, не путайте его, пожалуйста, с парным коэффициентом корреляции Кендалла тау. Для расчета коэффициента конкордации, то есть множественной ранговой корреляции, мы можем зайти в следующий раздел пакета STATISTICA. Статистика — Непараметрика — Сравнение нескольких зависимых групп. Нажимаем OK. И вот здесь, рядом с критерием Фридмана, мы видим коэффициент конкордации Кендалла. Именно его мы сейчас и будем рассчитывать для наших переменных. Для этого нужно определить все четыре переменные и нажать соответствующую кнопку. Коэффициент конкордации находится у нас вот здесь в верхней строке, и, как видите, значение данного коэффициента не слишком высоко. То есть между всеми четырьмя переменными связь у нас оказывается не очень сильная, так как между математикой-физикой и литературой-иностранным парные связи у нас выражены, но остальные перекрестные связи оказались статистически незначимыми. Поэтому в совокупности для данной группы статистическая значимость данного коэффициента не принимается. [МУЗЫКА] [МУЗЫКА]