[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Уважаемые слушатели, в данном уроке мы рассмотрим, как можно рассчитывать парные коэффициенты корреляции в пакете R. Рассмотрим новый скрипт для расчета парных коэффициентов корреляции. Для начала установим рабочую директорию, откуда мы будем считывать файлы с данными. Посмотрим, что директория установилась правильно. А теперь для начала загрузим файл, который мы уже рассматривали в пакете Statistica и SPSS, содержащий три переменные: x1, x2, x3, которые подчиняются нормальному закону распределения, для которого мы рассчитывали парный коэффициент корреляции Пирсона. Сейчас эти данные находятся в текстовом файле корреляции Пирсона, мы будем считывать заголовки из первой строки, разделители между данными у нас — знак табуляции, при этом используется десятичная запятая. Для того чтобы данные были считаны корректно, мы должны указать все это в аргументах нашей функции read.table. Считываем данные. Можно проверить, каким образом считалась наша таблица. Мы можем вывести ее здесь на консоль или можем посмотреть вот этот объект, нажимая на имени переменной в рабочем пространстве. Вот у нас открывается эта же таблица. Вернемся обратно в файл и теперь для расчета корреляционного коэффициента будем использовать функцию языка R cor. Можем вывести справку, для того чтобы посмотреть, как правильно оформляется эта функция и каковы ее аргументы. Давайте прочитаем про нее. В окне подсказок у нас появляется информация о данной функции. Это функция пакета Stats, при этом у нас есть три аналогичные функции: функция расчета дисперсии, ковариации и корреляции. Вот здесь их описание. Как видите, они достаточно простые, у них не так много аргументов, и, в частности, сейчас нас интересует расчет коэффициента корреляции. У этой функции может быть либо один аргумент x, содержащий таблицу или матрицу нескольких переменных, в этом случае коэффициент корреляции будет рассчитываться попарно между всеми столбцами соответствующей таблицы, либо можно указать два аргумента, то есть две переменные, в которых содержатся наблюдения, и тогда корреляция будет рассчитана между ними. Также в качестве метода предлагается расчет парного коэффициента корреляции Пирсона, в случае если наши данные количественные, и также два коэффициента парной корреляции для порядковых переменных, то есть коэффициенты ранговой корреляции Кендалла и Спирмена. Для начала для нашей таблицы мы рассчитаем обычные коэффициенты корреляции для всей матрицы, то есть беря попарно ее столбцы. При это если мы сами не зададим метод, по умолчанию будет выбран парный коэффициент корреляции Пирсона. Вот так просто оформляется данная функция, это cor, примененный к таблице данных tab1. Выведем эту таблицу. Как видите, у нас имеется простая квадратная таблица, в данном случае 3 на 3, на диагонали которой стоят, естественно, единицы, а на недиагональных элементах стоят значения парных коэффициентов корреляции Пирсона. Мы видим, что значения этих коэффициентов достаточно большие, особенно для связи первой и второй переменной значение равно почти 0,74, но при этом мы не можем самостоятельно оценить степень тесноты связей между этими переменными, так как нам нужно корректно провести проверку гипотезы о значимости соответствующих коэффициентов. Если мы хотим проверить, значимы ли коэффициенты, в этом случае мы будем использовать более подробный анализ. А для начала давайте рассмотрим, как можно было к этой функции обратиться чуть проще. То есть если мы хотим рассчитывать не все парные связи, а только между какими-то конкретными двумя выделенными переменными, мы можем обратиться к этой функции, указав второй аргумент. То есть в качестве первого мы берем значение первой переменной, в качестве второго аргумента — значение второй переменной. И тогда данная операция даст нам одно значение парного коэффициента корреляции связи между выбранными переменными. Итак, теперь давайте посмотрим, как можно было вывести более подробную таблицу с проверкой значимости соответствующих коэффициентов. В этом случае мы должны обратиться не к операции cor, а к операции cor.test. Возьмем те же самые две переменные и сделаем для них более подробный анализ. Как видите, теперь мы получили уже более детальный анализ, то есть помимо расчета собственно самого коэффициента корреляции, который мы видим здесь, мы также видим значение статистики Стьюдента с числом степеней свободы n − 2. n — это объем выборки, он у нас был равен 200. 200 − 2, мы получаем число степеней свободы 198. И мы видим, что значение p-value для проверки гипотезы о незначимости соответствующего коэффициента очень-очень мал, существенно меньше уровня значимости α 0,05. Соответственно, нулевая гипотеза о незначимости коэффициента отклоняется, и мы выносим решение о том, что коэффициент значим. Также, как вы видите, здесь у нас выводится 95-процентный доверительный интервал для нашего коэффициента. То есть с вероятностью 95 % значение теоретического коэффициента корреляции лежит между вот этими указанными границами. Несмотря на то, что данные исходные у нас количественные, для них также может быть вычислен коэффициент ранговой корреляции Спирмена. В этом случае мы должны в аргументе должны указать метод расчета корреляционного коэффициента. То есть мы можем использовать абсолютно те же самые функции, в которых изначально по умолчанию метод выбирался по коэффициенту корреляции Пирсона. Теперь мы указываем метод Спирмена. Выполняем аналогичные действия, и сначала получаем обычную квадратную таблицу перекрестных значений для всех имеющихся переменных. Далее, если мы укажем только два конкретных столбца этой таблицы, мы получим значение одного коэффициента также без детальных расчетов. И обратите внимание на то, что значение коэффициента корреляции Пирсона и значение коэффициента корреляции Спирмена достаточно близки, но, естественно, немного отличаются друг от друга. И также с помощью функции cor.test мы можем вывести результаты более подробного анализа. Также теперь импортируем данные с оценками по математике, физике и иностранному языку для школьников. Мы уже работали с этой таблицей в других пакетах, теперь посмотрим расчет соответствующих коэффициентов в пакете R. Импортируем данные. Можем посмотреть содержимое этой таблицы. Как видите, это уже знакомое нам значение. Поскольку эти величины у нас измеряются в порядковой шкале, мы можем применить здесь только коэффициент корреляции Спирмена. Поэтому, во-первых, мы можем рассчитать его для всей таблицы, указывая в аргументе метод Спирмена. Получаем квадратную таблицу размера 4 на 4 в соответствии с количеством анализируемых переменных, где на диагонали также стоят единицы, а на недиагональных элементах — корреляции соответствующих дисциплин, то есть математики и физики (значение примерно 0,73), математики и литературы, математики и иностранного языка. Но здесь та же самая проблема. Мы видим, что какие-то коэффициенты очень высокие, какие-то коэффициенты очень низкие. Но для того, чтобы строго провести проверку о значимости соответствующих корреляционных коэффициентов, мы должны провести более детальный анализ. Для начала посмотрим, как посчитать парную корреляцию, а следующей функцией посмотрим, как этот анализ сделать более подробно. То есть в этой строке мы рассчитываем обычный парный коэффициент корреляции между двумя указанными переменными, а в следующей строке, применяя функцию cor.test, мы можем вывести результаты более подробного анализа. То есть здесь у нас, помимо самого значения коэффициента, также выводится значение соответствующей статистики и значение p-value для гипотезы о незначимости коэффициента. Поскольку в данном случае значение p-value очень мало, существенно меньше уровня значимости α, нулевая гипотеза о незначимости данной корреляции отклоняется. И мы выносим решение о том, что имеется статистически значимая корреляционная связь между анализируемыми переменными. Также мы можем проверить гипотезу о значимости либо незначимости корреляции, например, между математикой и литературой или математикой и иностранным языком. Здесь у меня в исходном файле этой функции не было, давайте наберем ее сразу на консоли. Стрелками вверх мы можем пролистать список уже выполненных команд, здесь я заменю дисциплину «физика» на, например, «иностранный язык», и выполним эту операцию. Как видите, здесь значение статистики у нас указано в этой строке и рядом стоит значение p-value, которое теперь стало намного больше, чем уровень значимости 0,05, соответственно, нулевая гипотеза о незначимости коэффициента корреляции принимается. И мы можем сделать вывод о том, что между оценками по математике и иностранному языку корреляционная связь статистически незначима. Для того чтобы визуально оценить степень тесноты статистической связи, можно построить корреляционное поле или диаграмму рассеяния для анализируемых переменных. Давайте, например, для первой таблицы, для переменных x1 и x2, для которых мы ранее рассчитали корреляцию, построим диаграмму рассеяния. Это делается с помощью функции plot, [БЕЗ_СЛОВ] из первой таблицы мы возьмем переменную x1 и также из первой таблицы переменную x2. И в окне графики у нас появляется диаграмма рассеяния. Мы видим концентрацию точек в виде вот такого вытянутого облака, что говорит о наличии возможной связи между данными переменными. [МУЗЫКА] [МУЗЫКА]