[ЗВУК] [ЗВУК] [ЗВУК] Уважаемые слушатели, данный видеоурок посвящен анализу таблиц сопряженности в пакете Statistica. Рассматривать мы его будем на уже знакомом нам примере связи двух признаков A и B. Изначально задача ставилась следующим образом: было 356 пациентов, для которых исследовались два заболевания — некоторое заболевание A и некоторое заболевание B. Если пациент страдал или имел предрасположенность к этому заболеванию, соответственно, для него указывалось значение 1, если нет — то 0. И нужно было определить, есть ли связь между ними, то есть повышает ли вероятность проявления одного заболевания вероятность появления другого. Импортируем эти данные в пакет Statistica и посмотрим, как для них можно составить таблицу сопряженности и провести соответствующий анализ. Заходим в File, Открыть. Это у нас файл AB в таблице Excel. Открываем соответствующий документ. Откроем ее просто в виде обычной таблицы и считаем данные с первого листа. Нажимаем Ok. То есть у нас два столбца A и B и, соответственно, 357 строк: 356 наблюдений и одна строка заголовка. Это мы должны указать, что именно переменные берутся из первой строки. Нажимаем Ok, и вот у нас появляется соответствующая таблица. То есть сейчас у нас два признака, и в каждом столбце содержится значение 0,1. При этом 0 и 1 воспринимаются не как числа, а как текстовые метки — проявление либо не проявление соответствующего заболевания. Здесь у нас мог стоять, вообще говоря, либо какой-то символ, либо буквенное выражение. Группировка бы шла просто по этим значениям. Для того чтобы провести анализ таблиц сопряженности в пакете Statistica, мы заходим в раздел Statistics, Многомерный разведочный анализ, Анализ соответствия. Для начала мы должны определить, в каком виде у нас имеются исходные данные. Здесь возможны несколько вариантов. Если они представлены в переменных с указанием уровня соответствующего признака, мы должны выбрать первый пункт, то есть данные у нас содержатся в строках и требуют табуляции, то есть требуют формирование таблицы сопряженности, которой пока у нас нет. Если же у нас уже имелась таблица сопряженности, то есть у нас данные были бы сгруппированы и указаны их частоты, мы бы выбрали соответствующий пункт. Пока оставляем метку в первой строке и укажем, в каких конкретно строках и столбцах у нас содержатся исходные данные. По строкам нашей таблицы сопряженности мы будем откладывать, например, значение признака A, а по столбцам таблицы сопряженности у нас будут указаны значения признака B. Нажимаем Ok, значения берутся все, имеющиеся в данном случае в нашей таблице, и нажимаем Ok. Как вы помните, проверка гипотезы о независимости признаков проверяется с помощью коэффициента квадратичной сопряженности, которая имеет хи-квадрат распределение. То есть эта статистика хи-квадрат и это как раз указано вверху нашей таблицы: значение статистики хи-квадрат, число степеней свободы. Оно определяется как (m − 1) × (k − 1), где m и k — это, соответственно, уровни каждого признака. Признак A у нас имеет два уровня, то есть m = 2, признак B также имеет два уровня, то есть тоже k = 2. (2 − 1) × (2 − 1) дает нам одну степень свободы. Значение p-value при проверке гипотезы о несвязанности данных признаков равно 0,014. Это значение меньше, чем заданный уровень значимости 0,05, соответственно, на уровне значимости 0,05 наша нулевая гипотеза о независимости признаков отклоняется. Отсюда мы можем сделать вывод о том, что признаки связаны. Если мы хотим посмотреть, как выглядит таблица сопряженности, мы можем перейти на вкладку Review и посмотреть, что представляют собой в данном случае наблюдаемые частоты. На основании наших исходных данных была составлена следующая таблица сопряженности. То есть среди наших 356 наблюдений 195 не обладают ни признаком A, ни признаком B, или в другой интерпретации можно сказать, что они обладают первым уровнем признака A и первым уровнем признака B. Аналогично 122 наблюдения, которые либо не обладают признаком A и обладают признаком B, если же у нас было бы два независимых уровня каждого фактора, мы бы сказали, что это первый уровень признака A и второй уровень признака B. Ну и так далее аналогично. Также в столбце и строке Total мы видим суммарное количество наблюдений по строке либо по столбцу и общее количество наблюдений, которое содержится в нашей таблице. Аналогично можно посмотреть процент наблюдений по строкам, либо процент наблюдений по столбцам. Либо еще есть вариант рассмотреть процент относительно общего объема выборки. Давайте скопируем значения частот, то есть нашу таблицу сопряженности, и перенесем ее в исходную таблицу. [БЕЗ_СЛОВ] Добавим две переменные [БЕЗ_СЛОВ] и внесем сюда скопированные данные. Предположим теперь, что изначально у нас были данные не по наблюдениям, а сразу была составлена таблица частот, и нам нужно проанализировать только на основании этих частот, как связаны между собой признаки. Для этого мы можем провести аналогичный анализ. Раскрываем это окно, и теперь в окне входных данных мы выбираем частоты без группирующих переменных. То есть у нас указана только таблица частот или, как мы ее называем с вами, таблица сопряженности. Ставим галку в третьей строке, задаем переменные. Теперь это у нас две вновь созданные переменные, выбираем их и нажимаем Ok. Как видите, мы попадаем в то же самое окно с результатами анализа. Мы видим то же самое значение статистики хи-квадрат с одной степенью свободы, и значение p-value равно 0,014. Это меньше чем уровень значимости 0,05. Соответственно, мы делаем тот же вывод о том, что гипотеза о независимости признаков отклоняется, соответственно, в нашем случае признаки статистически связаны. Далее мы получаем доступ ко всем тем же окнам, в частности мы можем посмотреть процентное соотношение частот и так далее. [ЗВУК] [ЗВУК]