Сейчас вы побываете в шкуре аналитика, к которому пришли заказчики и принесли кучу каких-то материалов, с просьбой построить модель. Опытный специалист не станет сразу же создавать модель и делать выводы. Он должен быть уверен, что не построить колосс на глиняных ногах, ибо старая статистическая мудрость гласит: "garbage in, garbage out". Откуда же нам ждать удара при анализе данных? На самом деле очень часто сбор данных проходит по принципу, который иногда называют ДДПР, давай-давай потом разберемся, и вот, аналитик получая такие данные, может не знать всех подводных камней сбора материала, но он должен их выявить. Данные могут не отвечать многочисленным ограничениям регрессионного анализа, и характер данных и связи между ними может требовать доработки данных, преобразования, стандартизация и тому подобное. Все эти подводные камни надо научиться находить. И как нам справится со сложностями? Часть осмысления данных необходимо провести до построения модели. Это так называемый разведочный анализ модели, а вот часть надо до того выпуска, поскольку мы построили модель подойти к критически к тому, что мы получили и далее, провести анализ валидности модели. Таким образом двухступенчатый анализ данных требуется для того, чтобы не построить того самого колосса на глиняных ногах. Давайте подробнее рассмотрим тактику анализа данных. В первую очередь нужно осмыслить дизайн сбора материала, чтобы понять, являются ли отдельные наблюдения взаимно независимыми. Это очень важный момент, потому что иногда скрытые группирующие переменные могут привести к тому, что данные в вашем анализе будут взаимосвязаны друг с другом, что отразится на оценке статистической значимости тех или иных параметров модели. Соответственно, мы должны найти нет ли скрытых группирующих факторов, они еще называются случайными факторами, и вот про проблемы, связанные с присутствием подобных скрытых факторов у нас будет специальный курс. Далее, мы должны понять, нет ли в переменных пространственных или временных автокорреляций, то есть нет ли взаимосвязи между величинами в вследствие каких-то сложных временных или пространственных закономерностей организации материала. Все это нужно учесть. Следующий момент, нужно проверить, нет ли отскакивающих значений. Такие значения иногда могут быть следствием ошибок в исходных данных, например, появляющихся при набивки данных. Все это надо выявить до того, как мы начали работать с построением модели. Далее, третье, на что надо обратить внимание, это на распределение зависимой переменной. Речь идет именно о ней, о зависимой переменной, поскольку зависимые переменные могут иметь очень разную природу, то дело в том, что методы, которые мы далее будем применять, они очень сильно зависят от того, какова форма распределения зависимой переменной. Чаще всего мы привыкли работать с так называемым нормальным распределением, практически все курсы статистики работают именно с этим статистическим распределением. Однако, у этого распределения есть некоторые проблемы. Оно всем хорошо кроме того, что область определения нормально распределенных величин от минус бесконечности до плюс бесконечности, то есть, в результате моделирования поведение той или иной зависимой переменной мы по умолчанию соглашаемся с тем, что регрессионная модель будет предсказывать в том числе и отрицательные значения, но представьте себе, что вы работаете с зависимой переменной, такой как доля того или иного явления в общем количестве явлений или вы работаете с не отрицательными счетными величинами, которые не могут принимать значения меньше нуля. В такой ситуации применение нормального распределения будет довольно грубой аппроксимацией, поэтому мы должны быть уверены в том, что распределение зависимой переменной соответствует тому распределению, которое будет лежать в основе нашего регрессионного анализа, поэтому сейчас мы будем говорить только о тех ограничениях, которые имеют отношение к нормально распределенным величинам, но мы должны помнить, что если моделируемая величина подчиняется другой форме статистического распределения, то мы должны сказать всем стоп, придется работать с более сложными моделями. Про такие модели - будем говорить отдельно, в специальном курсе, про них мы еще не говорили. Еще одна вещь, на которую аналитик должен обратить внимание, это характер связи между переменой отклика и предикторами. На самом деле далеко не обязательно эта связь может быть линейным. Если выявляется не линейные зависимости, то нужно правильно выбрать тип модели. Не все зависимости можно моделировать с помощью простых регрессионных моделей. Иногда необходимо подобрать специальные преобразования, которые приведут к тому, что применение линейных моделей станет обоснованным. Ну и наконец, пятое место, на которые можно найти подводные камни, это характер связи между предикторами. Мы должны выяснить, независимы ли эти предикторы, нужно проверить, нет ли между ними взаимосвязи или коллинеарности, как его называют. О том почему это важно и как это проверить, поговорим позже в этом самом модуле, который мы сейчас с вами изучаем. Собственно, только теперь, пройдя пять предыдущих пунктов, мы переходим к построению модели. Но построив ее, мы не должны останавливаться, мы переходим к следующему этапу. Если мы работаем с моделями, в которых используются нормальное распределение переменного отклика, то мы должны выяснить, независимы ли наблюдения друг от друга. Проверяем это еще раз. Речь уже идет не о дизайне эксперимента, а модели и есть специальные методы для того чтобы понять, связаны друг с другом или независимы друг от друга наблюдения или нет. Далее, присутствует ли гетерогенность дисперсии. Это очень важный момент, проверка на гетероскедастичность. О ней мы тоже должны помнить. И соответствует ли распределение остатков модели нормальному распределению? Если нарушение условий применимости не выявлено, то можно начать осмыслять результаты построения модели. Если же выявлены нарушения условий применимости, то надо задуматься о том, верно ли подобран тип модели и все ли хорошо с данными, то есть мы в нашей игре должны вернуться к пункту один или пройти все с самого начала.