Теперь перейдем к анализу темы «Эндогенность».
Давайте рассмотрим пример данных.
Мы рассмотрим набор данных, встроенный в R.
Это набор данных, описанный у Стока и Ватсона, по потреблению сигарет в Америке.
Соответственно, набор данных можно активировать командой data
("CigarettesSw").
Для удобства, чтобы не писать все время такое длинное название,
мы его поместим в набор данных h, скопируем его туда.
Почитать документацию можно по этому набору данных, соответственно,
набрав help ("CigarettesSw"), и увидеть, что это набор данных по разным штатам.
Здесь год, индекс потребительских цен, население штата, соответственно,
потребление сигарет в пачках на душу населения и так далее, доход,
налоги, цена.
Во-первых, мы перейдем к относительным ценам, потому что,
с точки зрения потребителя, когда он формирует спрос,
ему важнее именно относительные цены сигарет, ему важен его относительный
доход — не совокупный доход всех индивидов штата, а, соответственно, его доход.
Поэтому нам, конечно, надо сначала немножко изменить наш набор данных h.
Поэтому мы создадим набор данных h2 и создадим мы его следующим
образом: мы используем команду mutate.
Соответственно, мы введем относительные цены (relative price) — это будет цена,
деленная на cpi (индекс потребительских цен); relative income — соответственно,
нам надо тоже income поделить на cpi, но помимо деления дохода на индекс
потребительских цен, перехода в универсальные единицы измерения,
надо еще поделить на численность населения.
Она у нас обозначена переменной population.
И точно так же еще нам потребуется
переменная tax,
деленная на...
ну, давайте назовем rtax (реальный налог), это,
соответственно, будет tax, деленное на cpi.
И чтобы это все влезало в одну строчку,
раз не влезает, разобьем на две.
И для начала мы построим модель методом наименьших квадратов.
То есть как бы я оценивал регрессию методом наименьших квадратов?
Я бы построил model_0.
Это была бы линейная модель.
Я бы данные взял из набора данных h2, оценил
бы зависимость логарифма
относительно логарифма потребления log(packs),
ну, скажем, совсем простую модель от логарифма относительной цены.
Здесь еще один маленький нюанс.
Здесь содержатся данные за два года.
Чтобы не возиться с разделением двух лет,
давайте мы еще предварительно отберем данные.
Возьмем создадим набор данных h3.
Мы, соответственно, отберем из набора данных h2 данные, которые относятся к...
давайте более свежий год, 1995, и, соответственно,
model_0 оценим по набору данных h3, где только 1995 год.
Соответственно, оценили model_0.
Ну, получили какие-то результаты.
Тут все коэффициенты значимы.
В чем проблема с этой моделью?
Зачем меня, на самом деле, может интересовать зависимость,
как зависит спрос на сигареты от цен, ну пусть там относительных и так далее?
Он меня может интересовать с точки зрения государственной политики.
То есть вопрос: а вот если я введу какие-то меры,
чтобы уменьшить потребление сигарет, если я введу какие-то меры,
то как ценовые меры, вводимые государством, повлияют на потребление?
И тут надо понимать, что когда я оценил эту модель,
метод наименьших квадратов предполагал,
что регрессор некоррелирован с ненаблюдаемой случайной составляющей,
то есть здесь как бы вот при изменении цены на 1 %
относительной (relative price),
соответственно, спрос падает на (- 1,2 %).
Но здесь учтены все факторы,
то есть relative price тянет за собой какие-то другие экономические показатели.
А меня может интересовать вопрос: а что произойдет,
если я только relative price изменю политикой,
а все остальные экономические показатели при этом не изменятся?
Поэтому меня может интересовать другая модель,
а именно — давайте попробуем применить двухшаговый метод наименьших квадратов,
two stage OLS.
Значит, мы применим двухшаговый метод наименьших квадратов.
Сначала мы его сделаем просто руками.
Давайте подумаем, какая переменная может быть
связана с ценой, но при этом напрямую не связана со спросом?
То есть, с точки зрения индивида, она на спрос влиять не должна,
а на цену влиять должна.
И такая переменная — это, конечно, акцизные сборы.
Потому что чем выше акцизные сборы, тем, естественно,
цена на товар должна быть выше.
Но при заданной цене на товар потребителю все равно, по-хорошему, как цена,
которую он платит, распределяется между продавцом и государством.
То есть при потреблении индивид учитывает цену, а, на самом деле, как она делится,
ему уже не важно.
Поэтому разумно ожидать — это никак нельзя доказать — ну, по крайней мере,
разумно ожидать, что налоги могут быть хорошей инструментальной переменной.
Ну, соответственно, давайте мы попробуем осуществить руками...
Вот у нас тут два вида налогов.
Ну, у нас вот есть, соответственно, вот,
средний tax, который мы отнормировали на cpi — это, соответственно,
средний акцизный сбор вот по данному штату для данного года.
Ну, соответственно, мы устраиваем регрессию первого шага.
В регрессии первого шага мы по набору данных h3
строим регрессию логарифма цены,
соответственно, на нашу переменную
логарифм налогового...
на, соответственно...
ну, давайте просто на сам относительный налоговый сбор,
логарифм (rprice) на налоговый сбор.
Это мы оценили регрессию первого шага.
После этого в набор данных h3 мы добавляем новую переменную.
Ну, давайте назовем ее log_price_hat.
Это, соответственно, прогнозные значения, полученные на первом шаге.
И теперь начинается второй шаг.
Это был, соответственно, шаг один (st_1),
и теперь начинается второй шаг
двухшагового метода наименьших квадратов или метода инструментальных переменных.
Мы берем тот же самый набор данных h3 и на этот
раз строим регрессию логарифма потребления от
спрогнозированного логарифма цены,
от оценки, полученной на первом шаге.
И мы уже получаем другую модель.
Давайте посмотрим на summary.
Здесь у нас уже другие коэффициенты немножко.
И, соответственно, вот этот коэффициент, его можно интерпретировать как причинный.
То есть если я увеличу цену сознательно на 1 %,
то можно ожидать, что потребление упадет на (- 1,5 %).
То есть я считаю, что остальные факторы, которые я в модель не включаю,
я не трогаю.
Естественно, в R метод двухшаговый наименьших квадратов уже
реализован автоматически — руками делать его можно только в учебных целях, поэтому
мы можем просто воспользоваться командой ivreg (instrumental variable regression).
Соответственно, здесь нам надо точно так же указать,
что данные мы берем из набора данных h3, и модель, которую мы оцениваем,
это логарифм спроса от логарифма относительной
цены (relative price).
И через вертикальную палочку надо указать инструментальную переменную.
В нашем случае инструментальной переменной будет переменная relative tax.
И, соответственно, мы можем в одну команду сделать
сразу две регрессии и получить, соответственно,
отчет по модели, оцененной методом инструментальных переменных.
И можно, в принципе, еще для удобства посмотреть на все три модели сразу.
Давайте model_0, которая оценивалась обычным методом наименьших квадратов,
модель со второго шага возьмем и модель инструментальных переменных.
Создадим из них одну табличку.
И вот здесь становится видно, что в двухшаговой
модели на втором шаге от коэффициента сами коэффициенты совпадают,
вот: 10,039 — 10,039; (- 1,150) — (- 1,150).
Они отличаются от коэффициентов, получаемых методом наименьших квадратов.
И более того, надо сказать, что руками вот так делать еще неудобно по следующей
причине: стандартные ошибки, которые считает метод наименьших квадратов на
втором шаге, это не те стандартные ошибки, которые, на самом деле,
состоятельны для метода инструментальных переменных,
а команда ivreg, с помощью которой была получена модель,
описываемая в третьем столбике, здесь стандартные ошибки расчитаны корректным,
правильным для двухшагового метода наименьших квадратов способом.
Соответственно, вот мы видим, мы можем проинтерпретировать наши выводы,
что при увеличении цены, если мы сознательно увеличим цену на 1 %,
то, поскольку у нас модель в логарифмах, у нас, соответственно спрос упадет на (-
1,15 %)