[МУЗЫКА] [МУЗЫКА] Здравствуйте, уважаемые слушатели. Тема заключительной серии наших занятий — дисперсионный анализ. Дисперсионный анализ, или ANOVA, сокращение от англоязычного словосочетания Analysis of variances. Это целая группа методов, основное назначение которых — сравнение средних. Как только возникают задачи сравнения более двух средних, мы обращаемся к дисперсионному анализу. Именно этим обусловлена неизменная популярность и наибольшая частота применения этой группы методов анализа. Дисперсионный анализ был разработан Фишером в 20-е годы специально для анализа экспериментальных данных. Методологи науки отмечают, что разработка эта имела колоссальное значение для многообразия экспериментальных планов, которые мы имеем на сегодняшний день. А, кроме того, знание дисперсионного анализа позволяет компактно формулировать исследовательские гипотезы, а также компактно излагать результаты исследований в терминах главных эффектов факторов и эффектов их взаимодействия. На экране представлены основные понятия дисперсионного анализа. Фактор X, независимая переменная, является группирующий номинальный, который делит испытуемых на выборки. Каждому уровню фактора соответствует выборка. Следующее понятие — зависимая переменная. Зависимая переменная Y всегда метрическая, соответственно, уровню фактора соответствует среднее значение зависимой переменной. Факторы различают на межгрупповые и внутригрупповые. Межгрупповой фактор — тот, уровню которого соответствуют независимые выборки. Примеры межгруппового фактора: это группа и уровни — контрольная, экспериментальная; или пол — мужской, женский; или порядок рождения в семье — старший, средний, младший и так далее. Уровням внутригруппового фактора соответствуют зависимые выборки, или повторные измерения. Например, фактор: до, после. И уровни его измерения зависимой переменной: до воздействия и после воздействия. И, наконец, еще одно понятие — ковариата. Ковариата — это метрическая независимая переменная, которая может быть включена в анализ наряду с факторами. Отдельно ковариату не рассматривают, а ковариата включается наряду с факторами в модель дисперсионного анализа. Теперь рассмотрим, используя эти понятия, виды дисперсионного анализа и их основные проблемы. На экране они перечислены. Самый простой вариант дисперсионного анализа — это однофакторный ANOVA. Предполагает изучение связи одной номинальной переменной, имеющей более двух градаций, и одной метрической переменной. Соответственно, речь идет о сравнении нескольких средних значений. Дополнительная проблема, которая возникает при проведении однофакторного дисперсионного анализа, это множественные сравнения средних, которые используются для уточнения результатов однофакторного дисперсионного анализа. Отметим, что каждый последующий вариант дисперсионного анализа включает в себя проблемы и предыдущих вариантов дисперсионного анализа. Более сложный вариант дисперсионного анализа — многофакторный ANOVA. Он предполагает изучение влияния двух или более факторов на одну зависимую переменную. Главные проблемы этого варианта дисперсионного анализа — это главные эффекты факторов и взаимодействие факторов. Следующий вариант дисперсионного анализа — ANOVA с повторными измерениями. Предполагает изучение влияния на зависимую переменную не только межгрупповых, но и внутригрупповых факторов. То есть этот вариант дисперсионного анализа предполагает наличие, по крайней мере, одного внутригруппового фактора, образованного обычно повторными измерениями. Следующий вариант дисперсионного анализа — это многомерный дисперсионный анализ, или MANOVA, Multivariate ANOVA. Специфической проблемой этого варианта дисперсионного анализа является применение многомерных критериев. Дело в том, что данный вариант дисперсионного анализа позволяет сравнивать выборки не по одной зависимой переменной, а по множеству зависимых переменных. И поэтому термин многомерный относится к зависимой переменной. Отметим, что почти все варианты дисперсионного анализа являются весьма сложными в вычислительном отношении, и последние два варианта требуют для своего использования специальных компьютерных программ. В SPSS методы со второго по четвертый имеют несколько иное название, называются они общие линейные модели, ОЛМ, или по-английски General Linear Models, GLM. Название это связано с тем, что в последнее время в существенной степени были усовершенствованы процедуры вычислений в дисперсионном анализе, и они были приближены к модели регрессии, к линейным моделям. Принципиальная идея дисперсионного анализа. В дисперсии зависимой переменной выделяются две составляющие. Межгрупповая дисперсия, которая обусловлена влиянием фактора, и внутригрупповая дисперсия, которой обусловлена влиянием всех остальных причин, помимо этого фактора. Соответственно, дисперсия зависимой переменной раскладывается на две составные части: факторная составляющая изменчивости, которая обусловлена различиями между выборками, точнее, различиями средних значений, и дисперсия ошибки, или внутригрупповая изменчивость, которая обусловлена всеми иными причинами, помимо изучаемого фактора. Соответственно, чем сильнее различаются групповые средние, тем больше факторная составляющая изменчивости. А чем выше изменчивость внутри каждой группы, тем выше дисперсия ошибки. Статистическая значимость определяется соотношением факторной составляющей дисперсии к дисперсии ошибки. Также возможно вычисление величины эффекта, которая обозначается зачастую R², как и квадрат корреляции, и равен он отношению факторной составляющей изменчивости к общей изменчивости зависимой переменной. В качестве введения в особенности расчета в дисперсионном анализе рассмотрим пример сравнения двух выборок. Предположим, даны две выборки, для которых известны среднее значение и стандартное отклонение дисперсии, а также численности их выборок. И требуется определить общую дисперсию объединенной выборки. Общая дисперсия объединенной выборки равна, как вы видите, сумме квадратов отклонения от средних, деленное на N − 1. Сумма квадратов отклонений от средних, в данном случае, в дисперсионном анализе, называется SS общая, sum of squares общая. И она равна сумме квадратов межгрупповой и сумме квадратов внутригрупповой. Каким образом это получается? Предположим, нам необходимо объединить две выборки и вычислить дисперсию объединенной выборки. Дисперсия объединенной выборки состоит из двух составных частей: из дисперсии межгрупповой и дисперсии внутригрупповой. Отметим, что если бы средние значения двух выборок не различались бы или различались бы минимально, то тогда межгрупповая составляющая изменчивости, межгрупповая дисперсия была бы равна 0. И дисперсия объединенной выборки равнялась бы дисперсии внутригрупповой. Вы видите формулу внутригрупповой дисперсии. В числителе этой формулы сумма квадратов внутригрупповая, в знаменателе (N − 1). Если же средние различаются и различаются существенно, то добавляется межгрупповая составляющая. Вы видите на экране формулу для ее вычисления. В числителе сумма квадратов для межгрупповой составляющей. Соответственно, сумма квадратов общая равна сумме квадратов межгрупповой плюс сумме квадратов внутригрупповой. Зная эти величины, мы можем посчитать величину эффекта различия между двумя группами, r², формулы представлены на экране. Также можно посчитать общую дисперсию при объединении более двух групп. Таким образом общая сумма квадратов равна сумме квадратов межгрупповой + сумме квадратов внутригрупповой. Отметим, что r² как показатель величины эффекта различий между группами равен отношению суммы квадратов междгрупповой на сумму квадратов общей. Формулы вы видите на экране. Отметим, что в случае двух выборок эта величина равна квадрату корреляции Пирсона и квадрату бисериальной корреляции.