В этой лекции мы разберем понятие автокорреляции. Это ситуация, в которой нарушается одна из предпосылок классической линейной модели регрессии, предпосылка теоремы Гаусса-Маркова о независимости различных ошибок между собой. Итак, для проверки гипотез, для построения доверительных интервалов и получения качественных выводов об оценках мы предполагали, что ошибки, относящиеся к разным наблюдениям, ε_i и ε_j независимы или, строго говоря, что математическое ожидание произведения двух разных ошибок при фиксированных Х равно 0. Что произойдет, если эта предпосылка будет нарушена, и что с этим можно сделать? Во-первых, когда логично ожидать, что у нас будет автокорреляция, то есть что математическое ожидание произведения двух разных ошибок не будет равняться 0? Ситуация автокорреляции возникает при наличии некоторой близости наблюдений. Близость может быть, как правило, в двух смыслах: во времени или в пространстве. Например, если мы изучаем зависимость количества пришедших клиентов на фирму в зависимости от количества рекламы, то есть мы изучаем эффективность рекламы, и у нас есть данные по одной и той же фирме за разные моменты времени, логично ожидать, что наблюдения, относящиеся к соседним моментам времени, вчера и сегодня, будут сильно зависимы. Например, вчера и сегодня была плохая погода, поэтому, несмотря на нашу супер рекламу, к нам никто не пришел, все сидели дома, и никто не показывал носа на улицу. Второй распространенной причиной автокорреляции является наличие близости наблюдений в пространстве. Если я исследую данные по регионам, скажем, исследую, какие факторы влияют на миграционные потоки, то так может оказаться, что миграционные потоки соседних регионов сильно связаны между собой, и если у меня наблюдения относятся к двум соседним в географическом смысле регионам, то ошибки ε_i и ε_j, относящиеся к двум соседним регионам, будут связаны между собой и коррелированы, и предпосылка о нулевом математическом ожидании произведения будет нарушена. Автокорреляцию подробно изучают две соответствующие дисциплины, которые, можно сказать, самостоятельные: это анализ современных рядов и пространственная эконометрика. Мы рассмотрим всего лишь небольшое введение в проблему автокорреляции и для начала укажем, что автокорреляция, вообще говоря, уже не такое безобидное явление, как условная гетероскедастичность. В прошлой лекции мы увидели, что условная гетероскедастичность, даже если она присутствует, никак не влияет на состоятельность оценок β с крышкой, то есть с ростом количества наблюдений β с крышкой, оценки, получаемые методом наименьших квадратов, все больше и больше похожи на настоящие неизвестные β, которые мы хотим оценить. С автокорреляцией все не так безопасно. Даже в очень простой ситуации может случиться так, что оценки β с крышкой в ситуации коррелированных ошибок не являются состоятельными. И сейчас мы расссмотрим простой пример такой ситуации. Рассмотрим простой пример, в котором, казалось бы, несложная зависимость между ε приводит к несостоятельности оценок. В идеале, при отсутствии ошибок полностью математическое ожидание y_t равнялось бы просто β₁ + β₂ x_t. И, соответственно, если бы не было ошибок в классической формуле β₁ + β₂ x_t + ε_t, если бы вот эта составляющая отсутствовала, то мы бы наблюдали следующую идеальную картину. Здесь x, здесь y, и без ошибок все было бы очень просто. Были бы x_1, x_2, x_3 и так далее. И соответствующие y идеально ложились бы на прямую. Это было бы без ситуации ошибок. Вот это была бы прямая β₁ + β₂ xt. Соответственно, в такой ситуации не было бы никаких проблем с оценкой коэффициентов β₁ и β₂. Можно было бы взять всего два наблюдения и по двум наблюдениям сразу идеально построить прямую. А теперь предположим, что наши ошибки ε_t имеют очень простую структуру. Во-первых, они все равны между собой, то есть ε1 = ε2 = ε3 = ... = εn, и при этом принимают одновременно одни и те же значения, равные либо -1, либо +1, с вероятностью, равной по 1/2. И я наблюдаю y_t, равный β₁ + β₂ x_t + ε_t. При этом я подчеркиваю, что ε здесь не независимы, они зависимы, причем зависимость у них тривиальная, все они равны между собой. Что произойдет в этом случае? Соответственно, наблюдаемый y будет равен β₁ + β₂ x_t + ε_t, но каждый ε будет либо равен +1, либо -1. Соответственно, я буду наблюдать один из двух вариантов: либо я буду наблюдать прямую на единичку выше, чем настоящая, вот это будет прямая возможная прямая β₁ + β₂ x_t + ε_t, либо я буду наблюдать точки, на единичку выше настоящей прямой, либо я буду наблюдать точки, на единичку ниже, чем истинная зависимость β₁ + β₂ x_t + ε_t. Здесь ε_t = -1, а здесь все ε_t = +1. И, соответственно, сколько бы ни было наблюдений, даже если n стремится к бесконечности, то сколько бы ни было наблюдений, увидев одну из этих двух пунктирных прямых, я никогда не смогу понять, где же была настоящая, была ли настоящая выше пунктирной или ниже пунктирной, поскольку у меня по-прежнему с ростом количества наблюдений нет никакой информации о том, чему же были равны ε: 1 или -1. Автокорреляция может иметь очень сложную богатую структуру, и одних только сокращений можно набрать несколько страниц: AR, MA, ARMA, ARIMA, VAR и так далее. Мы рассмотрим автокорреляцию довольно простой структуры, мы рассмотрим структуру авторегрессии порядка p или автокорреляции порядка p. Начнем мы с порядка p = 1. Это означает, что сегодняшняя ошибка ε_t равна какой-то константе ρ помножить на предыдущую, вчерашнюю ошибку ε_{t-1}, плюс еще одна случайная составляющая u_t. Вот эти новые случайные составляющие u_t предполагаются независимыми между собой, одинаково распределенными, не зависящими от регрессоров, с нулевым математическим ожиданием и, в частности, с постоянной конечной дисперсией Σ-квадрат(u). Рассмотрим последствия, к которым приводит автокорреляционная схема первого порядка. Какая структура корреляций структура временной зависимости возникает между ошибками ε_t?