Лекции по эконометрике - файл n2.doc

Лекции по эконометрике
скачать (4336.8 kb.)
Доступные файлы (4):
1324633_lectures.pdf1036kb.12.01.2010 15:17скачать
n2.doc1714kb.11.01.2010 17:31скачать
n3.rar
n4.doc1784kb.03.06.2006 14:29скачать

n2.doc

ВОПРОСЫ К ЭКЗАМЕНУ


  1. Эконометрическая модель.

Эконометрика как научная дисциплина расположена на стыке экономики, статистики и математики. Обычно в качестве ее основных задач выделяют обнаружение и анализ статистических закономерностей в экономике, построение на базе выявленных эмпирических экономических зависимостей эконометрических моделей.

Главным инструментом эконометрики служит эконометрическая модель – модель факторного анализа, параметры которой оцениваются средствами математической статистики.[3] Такая модель выступает в качестве средства анализа и прогнозирования конкретных экономических процессов на основе реальной статистической информации.

Можно выделить три основных класса эконометрических моделей:[4]

1) Модели временных рядов. К этому классу относятся модели:

– Тренда:

Y(t) = T(t) + ?t,

где T(t) – временной тренд заданного вида (например, линейный T(t) = а + bt), ?t – стохастическая (случайная) компонента;

– Сезонности:

Y(t) = S(t) + ?t,

где S(t) – периодическая (сезонная) компонента, ?t - стохастическая (случайная) компонента;

– Тренда и сезонности:

Y(t) = T(t) + S(t) + ?t, аддитивная («дополняющая»),

Y(t) = T(t) S(t) + ?t, мультипликативная («множительная»),

где T(t) – временной тренд заданного вида, S(t) – периодическая (сезонная) компонента, ?t – стохастическая (случайная) компонента;

К моделям временных рядов относится множество более сложных моделей, таких, как модели адаптивного прогноза, модели авторегрессии и скользящего среднего (ARIMA) и др. их общей чертой является объяснение поведения показателя во времени, исходя только из его предыдущих значений. Такие модели могут применяться, например, для прогнозирования объемов производства, объемов продаж, краткосрочного прогноза процентных ставок и т. п.

2) Регрессионные модели с одним уравнением. В таких моделях зависимая (объясняемая) переменная Y представляется в виде функции f (x, ?) = f (x1, …, хn, ?1, …, ?m), где x1, …, хn - независимые (объясняющие) переменные, ?1, …, ?m – параметры. В зависимости от вида функции f (x, ?) модели делятся на линейные и нелинейные. Например, можно исследовать среднедушевой уровень потребления населения как функцию от уровня доходов населения и численности населения, или зависимость заработной платы от возраста, пола, уровня образования, стажа работы и т. п. По математической форме они могут быть схожи с моделями временных рядов, в которых в качестве независимой переменной выступает значение момента времени

Область применения таких моделей, даже линейных, значительно шире, чем моделей временных рядов. Проблемам теории оценивания, верификации (проверки на практике), отбора значимых параметров и другим посвящен огромный объем литературы. Эта тема – стержневая в эконометрике.

3) Системы одновременных уравнений. Эти модели описываются системами уравнений. Системы могут состоять из тождеств и регрессионных уравнений, каждое из которых (кроме независимых переменных) может включать в себя также зависимые переменные из других уравнений системы. В результате имеется набор зависимых переменных, связанных через уравнения системы. Примером может служить модель Уортона, имеющая очень большую размерность (уортоновская квартальная модель американской экономики содержит более 1 тыс. уравнений, которые должны решаться одновременно).


  1. Стохастическая связь и корреляция.


  1. Статистическое оценивание.

  2. Требования к статистическим оценкам.

  3. Проверка статистических гипотез.

Статистическая гипотеза это предположение о распределении вероятностей, которое мы хотим проверить по имеющимся данным.

Лучше всего, если гипотезу можно проверить непосредственно, — тогда не возникает никаких методических проблем. Но если прямого способа проверки у нас нет, приходится прибегать к проверкам косвенным. Это значит, что приходится довольствоваться проверкой некото­рых следствий, которые логически вытекают из содержания гипотезы. Если некоторое явление логически неизбежно следует из гипотезы, но в природе не наблюдается, то это значит, что гипотеза неверна. С другой стороны, если происходит то, что при гипотезе происходить не должно, это тоже означает ложность гипотезы. Заметим, что подтвер­ждение следствия еще не означает справедливости гипотезы, поскольку правильное заключение может вытекать и из неверной предпосылки. Поэтому, строго говоря, косвенным образом доказать гипотезу нельзя, хотя опровергнуть — можно.

Для проверки естественнонаучных гипотез часто применяется такой принцип: гипотезу отвергают, если происходит то, что при ее справед­ливости происходить не должно. Проверка статистических гипотез про­исходит так же, но с оговоркой: место невозможных событий занимают события практически невозможные. Причина этого проста: пригодных для проверки невозможных событий, как правило, просто нет.

Сопоставление выдвинутой гипотезы с экспериментальными данными называется проверкой гипотезы.

Схема проверки гипотезы:

  1. Сформировать нулевую гипотезу и конкурирующую гипотезу на основе начального анализа экспериментальных данных;

  2. Выбрать некоторую вероятность  в качестве уровня значимости нулевой гипотезы ;

  3. Подобрать по выборочным данным случайную величину Z, распределение которой называется критерием для проверки гипотезы ;

  4. Определить границы критической области для проведения нулевой гипотезы с уровнем значимости ;

  5. Вычислить по данным выборки некоторое число, обозначаемое и называемое наблюдаемым значением случайной величины Z. Проверить, попадает ли оно в критическую область нулевой гипотезы. Если – да, то считают, что нет основания отвергать нулевую гипотезу и ее принимают. Если – нет, то гипотезу отвергают и принимают гипотезу .

Замечание. Если гипотеза принята, то не стоит думать, что она доказана. На практике для большей уверенности в правильности принятого решения гипотезу проверяют еще раз, повторяя эксперимент, увеличив объем выборки.

  1. Критерий и критическая область.

Событие А называется критическим для гипо­тезы Н, или критерием для Н. Если Р(А \ Н) < ?, то ? называют гарантированным уровнем значимости критерия А для Н.

Обычно для построения критического мно­жества используется следующий подход. Пусть Т — некоторая функция на множестве X, принимающая числовые значения. Мы будем называть Т статистикой критерия. Как правило, статистику Т выбирают та­ким образом, чтобы ее распределения при гипотезе и при альтернативе как можно более различались (в случае, если множества распределений Н и Н’ «касаются» друг друга — чтобы различие в распределениях Т было как можно большим по мере удаления истинного распределения наблюдений от гипотетического). При таком выборе статистики Т обыч­но некоторые значения Т (например, слишком большие или слишком малые) являются нетипичными при гипотезе и типичными при альтер­нативе. Поэтому для построения критического множества А выбирают некоторое множество вещественных чисел А’ (множество «нетипичных» при гипотезе значений статистики Т), и полагают множество А как



Это множество будет критическим для гипотезы на уровне тахренР(А). Поскольку множество А полностью определяется по А', множество А' тоже называют критическим.

Правосторонней критической областью для проверки нулевой гипотезы с уровнем значимости  называется совокупность значений критерия проверки Z, для которых выполняется равенство: P(Z > ) = , где - некоторое число, называемое границей критической области.

Левосторонней критической областью для проверки нулевой гипотезы с уровнем значимости  называется совокупность значения критерия проверки Z, для которых выполняется равенство: P(Z < - ) = 

Двусторонней критической областью для проверки нулевой гипотезы с уровнем значимости  называется совокупность значений критерия проверки Z, для которых выполняется равенство: P( < Z < ) = .

  1. Мощность статистического критерия. Уровень значимости.


Ошибки первого и второго рода. При проверке статистических гипотез возможны ошибочные заключения двух типов:

Эти возможности называются соответственно ошибками первого рода и ошибками второго рода.

Из-за различного подхода к гипотезе и альтернативе, наше отно­шение к ошибками первого и второго рода также неодинаково. При . построении статистических критериев мы фиксируем максимальную до­пустимую вероятность ошибки первого рода (то есть уровень значи­мости критерия), и стремимся выбрать критическое множество таким образом, чтобы минимизировать вероятность ошибки второго рода (или хотя бы сделать так, чтобы эта вероятность была как можно меньше по мере удаления истинного распределения от гипотетического или гипотетических).

Мощность критерия. Обозначим через ? вероятность ошибки вто­рого рода статистического критерия. Если альтернативная гипотеза является сложной, то эта вероятность, естественно, зависит от выбора конкретного альтернативного распределения. Если мы рассматриваем альтернативы из какого-либо параметрического семейства распределе­ний Р?, значение (? также можно считать функцией от? .

Величину 1 - ? обычно называют мощностью критерия. Ясно, что мощность критерия может принимать любые значения от 0 до 1. Чем ближе мощности критерия к единице, тем более эффективен (бо­лее «мощен») критерий. Многие известные статистические критерии получены путем нахождения наиболее мощного критерия при заданных предположениях о гипотезе и альтернативе.


  1. Простая и множественная линейная регрессия.

Линейная регрессия находит широкое применение в эконометрике ввиду четкой экономической интерпретации ее параметров.

Функцией регрессии называется зависимость среднего значения одной из коррелированных случайных величин от другой, то есть функция: y = (x) (регрессия Y на X) или x = (y) (регрессия X на Y).

Линейная регрессия сводится к нахождению уравнения вида = a + b  x или y = a + b  x + . Это уравнение позволяет по заданным значениям фактора x иметь теоретические значения результативного признака подстановки в него фактических значений фактора x.


Построение линейной регрессии сводится к оценке ее параметров – a и b. Оценки параметров линейной регрессии могут быть найдены разными методами. Можно обратиться к полю корреляции и, выбрав на графике две точки, провести через них прямую линию, затем по графику найти значения параметров. Параметр a определим как точку пересечения линии регрессии с осью oy, а параметр b оценим исходя из угла наклона линии регрессии как dy/dx, где dy – приращение результата y, a dx – приращение фактора x, т.е. = a + b  x

  1. Оценивание параметров регрессии. Метод наименьших квадратов.


Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров a и b, при которых сумма квадратов отклонений фактических значений

результативного признака y от расчетных (теоретических) минимальна: .

Иными словами, из всего множества линий линия регрессии на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной:

Для того чтобы найти минимум функции надо вычислить частные производные по каждому из параметров a и b и приравнять к нулю.

Обозначим через S, тогда:

Преобразую формулу, получим следующую систему нормальных уравнений для оценки параметров a и b:

(система нормальных уравнений)

Решая систему нормальных уравнений либо методом последовательного исключения переменных, либо методом определителей, найдем искомые оценки параметров a и b. Можно воспользоваться следующими формулами для a и b:

a = y - bx.

Эта формула получена из первого уравнения системы, если все его члены разделены на n: , где cov(x,y) – ковариация признаков; «знаменатель» - дисперсия признака x.

Поскольку , получим следующую формулу расчета оценки параметров b:



Эта формула получается также при решении системы методом определителей, если все элементы расчета разделить на .

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу.

Знак при коэффициенте регрессии b показывает направление связи: при b > 0 – связь прямая, а при b < 0 – связь обратная.


  1. Система нормальных уравнений МНК и ее решение.

  2. Теорема Гаусса–Маркова.

Условия Гаусса – Маркова:

1-е условие Гаусса—Маркова: M(ei) = 0 для всех наблюдений

Первое условие состоит в том, что математическое ожидание случайного члена в любом наблюдении должно быть равно нулю. Иногда случайный член будет положительным, иногда отрицательным, но он не должен иметь систематичес­кого смещения ни в одном из двух возможных направлений.

Фактически если уравнение регрессии включает постоянный член, то обыч­но бывает разумно предположить, что это условие выполняется автоматичес­ки, так как роль константы состоит в определении любой систематической тенденции в у, которую не учитывают объясняющие переменные, включен­ные в уравнение регрессии.

2-е условие Гаусса—Маркова: M(ei2) постоянна для всех наблюдений

Второе условие состоит в том, что дисперсия случайного члена должна быть постоянна для всех наблюдений. Иногда случайный член будет больше, иногда меньше, однако не должно быть априорной причины для того, чтобы он по­рождал большую ошибку в одних наблюдениях, чем в других.

Эта постоянная дисперсия обычно обозначается ?2, а условие записывается следующим образом:

M(ei2)=?2

Величина ?2 конечно, неизвестна. Одна из задач регрессионного анализа состоит в оценке стандартного отклонения случайного члена.

Если рассматриваемое условие не выполняется, то коэффициенты регрес­сии, найденные по обычному методу наименьших квадратов, будут неэффек­тивны, и можно получить более надежные результаты путем применения мо­дифицированного метода регрессии.

3-е условие Гаусса—Маркова: Cov (ei,ej) = 0 (i?j)

Это условие предполагает отсутствие систематической связи между значени­ями случайного члена в любых двух наблюдениях. Например, если случайный член велик и положителен в одном наблюдении, это не должно обусловливать систематическую тенденцию к тому, что он будет большим и положительным в следующем наблюдении (или большим и отрицательным, или малым и поло­жительным, или малым и отрицательным). Случайные члены должны быть аб­солютно независимы друг от друга.

В силу того, что Е (ei) = Е(ej) = 0, данное условие можно записать следую­щим образом:

M(eiej) = 0 (i?j).

Если это условие не будет выполнено, то регрессия, оцененная по обыч­ному методу наименьших квадратов, вновь даст неэффективные результаты. В следующих лекциях рассматриваются возникающие здесь проблемы и пути их преодоле­ния.

4-е условие Гаусса—Маркова: случайный член должен быть распределен независимо от объясняющих переменных

В большинстве глав книги мы будем в сущности использовать более сильное предположение о том, что объясняющие переменные не являются стохастичес­кими, т. е. не имеют случайной составляющей. Значение любой независимой пе­ременной в каждом наблюдении должно считаться экзогенным, полностью определяемым внешними причинами, не учитываемыми в уравнении регрес­сии.

Если это условие выполнено, то теоретическая ковариация между независи­мой переменной и случайным членом равна нулю. Так как Е(e) = 0, то

Cov(xi,ei) = M{(хi )(ei)} = M(xiei)- M(et) = M(xiui). Следовательно, данное условие можно записать также в виде:

M(xiei) = 0

Подробнее:

  1. регрессия модель линейна по параметрам (коэффициентам), корректно специфицирована, и содержит аддитивный случайный член.

  2. случайный член имеет нулевое среднее.

  3. все объясняющие переменные не коррелированны мо случайным членом.

  4. наблюдаемые значения случайного члена не коррелированные друг с другом.

  5. Случайный член имеет постоянную дисперсию

  6. Ни одна из объясняющих переменных не является строгой линейной функцией других объясняющих переменных.

  7. Случайный член распределен нормально (необязательное, но часто используемое условие)



  1. Коэффициент детерминации и его свойства.

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции , называемый коэффициентом детерминации. Коэффициент детерминации характеризует долю дисперсии результативного признака y, объясняемую регрессией, в общей дисперсии результативного признака:



Соответственно величина 1 - характеризует долю дисперсии y, вызванную влиянием остальных не учтенных в модели факторов.

Например = 0,982. Таким образом, уравнением регрессии объясняется 98,2% дисперсии результативного признака, а на долю прочих факторов приходится лишь 1,8% ее дисперсии (т.е. остаточная дисперсия). Величина коэффициента детерминации является одним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньше роль прочих факторов и, следовательно, линейная модель хорошо аппроксимирует исходные данные, и ею можно воспользоваться для прогноза значений результативного признака.

(получается при разложении дисперсии)

Максимальное значение коэффициента R2 равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что , для всех i и все остатки равны нулю. Тогда и R2=1.

Если в выборке отсутствует видимая связь между у и х, то коэффициент R2 будет близок к нулю.

При прочих равных условиях желательно, чтобы коэффициент R2 был как можно больше. В частности, мы заинтересованы в таком выборе коэффициен­тов а и Ь, чтобы максимизировать R2. Не противоречит ли это нашему крите­рию, в соответствии с которым а и b должны быть выбраны таким образом, чтобы минимизировать сумму квадратов остатков? Нет, легко показать, что эти кри­терии эквивалентны, если (используется как определение коэффици­ента R2.


  1. Предположение о нормальном распределении случайной ошибки в рамках классической линейной регрессии и его следствия.


Предложение об ошибках в классической модели формируются наиболее жестким и не всегда реалистичным путем:

Предполагается, что ошибка ( ( = 1 … N)) образует так называемый слабый белый шум – последовательность центрированных () и не коррелированных случайных величин с одинаковыми дисперсиями

Свойство центрированности практически не является ограничением, так как при наличии постоянного регрессора среднее значение ошибки можно было бы включить в соответствующий коэффициент ()

В ряде случаев сделанные предложения об ошибках будут дополняться свойствами нормальности – случайный вектор  имеет нормальное распределение. Эту модель мы будем называть классической моделью с нормально распределительными ошибками.

Многомерное нормальное распределение задается своим вектором и матрицей ковариации – здесь она имеет вид , где 1 – единичная матрица. Если компоненты вектора корелированы, следовательно, автоматически независимы, следовательно, ошибки в модели образуют последовательность независимых одинаково нормально распределенных случайных величин N (0;).

Если каждая из величин нормально распределена, то вектор , из них составленный, ну обязан быть нормально распределенным.


  1. Доверительные интервалы оценок параметров и проверка гипотез об их значимости.

Доверительные интервалы параметров регрессии определяются следующим образом.



Здесь td - значение t-статистики для выбранного уровня значимости d. Величина p=1-d называется доверительной вероятностью или уровнем надежности, нередко выражаемым в процентах. Это показатель, характеризует вероятность того, что теоретическое значение параметра регрессии будет находиться в полученном доверительном интервале.


  1. Тестирование на нормальность остатков. Тесты ?2 Пирсона и Харке–Бера.

  2. Классическая модель линейной регрессии.

  3. Доверительные интервалы оценок параметров и проверка гипотез об их значимости.

  4. Прогнозирование по регрессионной модели и его точность. Доверительные и интервалы прогноза.

  5. Проверка значимости коэффициентов и адекватности регрессии для множественной линейной регрессионной модели. Критерий Стьюдента.

После того как уравнение линейной регрессии найдено, проводится оценка значимости как уравнения в целом, так и отдельных ее параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, т.е. b=0, и, следовательно, фактор x не оказывает влияния на результат y.


  1. Коэффициент множественной детерминации. F-тест

Коэффициент множественной детер­минации характеризует, насколько процентов построенная модель регрессии объясняет раз­брос значений результативной переменной от­носительно ее среднего значения.

Коэффициент множественной детер­минации рассчитывается как квадрат коэффи­циента множественной корреляции:

R2(y, x1 …xi ) = ?Biстанд * r (yxi)

Коэффициент множественной детерминации также называется количественной характеристи­кой объясненной построенной моделью множест­венной регрессии дисперсии результативной переменной. Чем больше значение коэффи­циента множественной детерминации, тем луч­ше модель регрессии описывает анализируе­мую взаимосвязь между переменными.

Коэффициент множественной детерминации можно также рассчитать на основании теоремы о разложении сумм квадратов.

Сумма квадратов разностей между значения­ми результативной переменной и ее средним значением по выборке может быть представле­на следующим образом:

? (yi – yср)2 =?(yi - yi?)2 +?( yi? - yср)2

? (yi – yср)2 общая сумма квадратов модели множественной регрессии с п пере­менными (Total Sum Square — TSS);

?(yi - yi?)2 — сумма квадратов остатков модели множественной регрессии с п переменными (Error Sum Square — ESS);

?( yi? - yср)2сумма квадратов объясненной регрессии модели множественной регрессии с n переменными (Regression Sum Square — HSS).

Коэффициент множественной детер­минации, рассчитанный через теорему о раз­ложении сумм квадратов:

R2(y, x1 …xi ) = 1- ESS/TSS


  1. Скорректированный коэффициент детерминации.

Иногда его также называют «ис­правленным» коэффициентом R2, хотя это определение не означает, по мне­нию многих, что такой коэффициент улучшен по сравнению с обычным.

Воздействие на качество дополнительно включенной в модель регрессии факторной пере­менной не всегда можно определить с помощью обычного коэффициента множественной детер­минации. Для этой цели рассчитывается скор­ректированный (adjusted) коэффициент множественной детерминации, в котором учитывается количество факторных переменных.

Как отмечалось выше, при добавлении объясняющей переменной к уравнению регрессии коэффициент R2 никогда не уменьшается, а обычно уве­личивается. Скорректированный коэффициент R2, который обычно обозначают , обеспечивает компенсацию для такого автоматического сдвига вверх пу­тем наложения «штрафа» за увеличение числа независимых переменных. Этот коэффициент определяется следующим образом:

где kчисло независимых переменных. По мере роста k увеличивается отно­шение k/(nk1) и, следовательно, возрастает размер корректировки ко­эффициента R2 в сторону уменьшения.

Можно показать, что добавление новой переменной к регрессии приведет к увеличению R , если и только если соответствующая t-cтатистика больше единицы (или меньше -1). Следовательно, увеличение при добавлении новой переменной необязательно означает, что ее коэффициент значимо отличается от нуля. Поэтому отнюдь не следует, как можно было бы предпо­ложить, что увеличение означает улучшение спецификации уравнения.

Это является одной из причин того, почему не стал широко использо­ваться в качестве диагностической величины. Другая причина состоит в умень­шении внимания к самому коэффициенту R2. Ранее среди экономистов наблю­далась тенденция рассматривать коэффициент R2 в качестве основного инди­катора успеха в спецификации модели. Однако на практике, как будет показа­но в следующих главах, даже плохо определенная модель регрессии может дать высокий коэффициент R2, и признание этого факта привело к снижению зна­чимости R2. Теперь он рассматривается в качестве одного из целого ряда диаг­ностических показателей, которые должны быть проверены при построении мо­дели регрессии.


  1. Проблемы спецификации регрессионной модели.


Под спецификацией понимается проблема выбора наиболее важных факторных переменных при построении модели регрессии. Свойства оценок коэффициентов регрессии в значительной мере зависят от правильности спецификации модели. Результаты неправильной спецификации переменных в уравнении могут быть в обобщенном виде выражены следующим образом.

  1. Если опущена переменная, которая должна быть включена, то оценки коэффициентов регрессии, вообще говоря, хотя и не всегда, оказываются смещенными. Стандартные ошибки коэффициентов и со­ответствующие t-тесты в целом становятся некорректными.

  2. Если включена переменная, которая не должна присутствовать в уравнении, то оценки коэффициентов регрессии будут несмещенными, однако, вообще говоря (хотя и не всегда), — неэффективными.
    Стандартные ошибки будут в целом корректны, но из-за неэффективности регрессионных оценок они будут излишне большими.


ВЛИЯНИЕ ОТСУТСТВИЯ В УРАВНЕНИИ ПЕРЕМЕННОЙ, КОТОРАЯ ДОЛЖНА БЫТЬ ВКЛЮЧЕНА.
Проблема смещения
Предположим, что переменная у зависит от двух переменных х1, и х2 в соот­ветствии с соотношением:



однако вы не уверены в значимости х2. Считая, что модель должна выглядеть как



вы оцениваете регрессию



и вычисляете bl по формуле Cov (xt , y)/D (x1) вместо правильного выраже­ния. По определению, b1, является несмещенной оценкой величины ?1 если M(b1) равняется ?1. Практически, если первоначальная модель верна, то



Если опустить х2 в регрессионном соотношении, то переменная x1 будет играть двойную роль: отражать свое прямое влияние и заменять переменную х2 в описании ее влияния. Данное кажущееся опосредо­ванное влияние величины х1, на у будет зависеть от двух факторов: от видимой способности х1, имитировать поведение х2 и от влияния величины х2 на у.

Кажущаяся способность переменной x1, объяснять поведение х2 определя­ется коэффициентом наклона h в псевдорегрессии:



Величина h естественно, рассчитывается при помощи обычной формулы для парной регрессии, в данном случае Cov(x1,x2)/D (x1). Влияние величины х2, на у определяется коэффициентом ?2,. Таким образом, эффект имитации посред­ством величины ?2 может быть записан как ?2Соу (х1, x2)/D1). Прямое влия­ние величины х1, на у описывается с помощью ?1. Таким образом, при оценива­нии регрессионной зависимости у от переменной х1, (без включения в нее пере­менной х2) коэффициент при х1, определяется формулой:

b1+ b2,Cov (x1, x2)/D1) + Ошибка выборки.

При условии, что величина х, не является стохастической, ожидаемым зна­чением коэффициента будет сумма первых двух членов этой формулы. Присут­ствие второго слагаемого предполагает, что математическое ожидание коэффи­циента будет отличаться от истинной величины ?1, другими словами, оценка будет смещенной.

Таким образом, ?1 смещена на величи­ну, равную ?2Cov (x1, x2)/D (x1). Направление смещения будет зависеть от знака величин ?2 и Cov(x1,x2). Например, если ?2 положительна, а также положи­тельна ковариация, то смещение будет положительным, а b1 будет в среднем давать завышенные оценки ?1,. Самостоятельно вы можете рассмотреть и другие случаи.

Есть, однако, один исключительный случай, когда оценка ?1 остается не­смещенной. Это случается, когда выборочная ковариация между х1, и х2 в точ­ности равняется нулю. Если Cov 1, x2) = 0, то смещение исчезает. Действитель­но, коэффициент, полученный с использованием парной регрессии, будет точно таким же, как если бы вы оценили правильно специфицированную мно­жественную регрессию. Конечно, величина смещения здесь равнялась бы нулю и при ?2 = 0, но в этом случае неправильной спецификации не возникает.
Неприменимость статистических тестов

Другим серьезным следствием невключения переменной, которая на самом деле должна присутствовать в регрессии, является то, что формулы для стан­дартных ошибок коэффициентов и тестовые статистики, вообще говоря, ста­новятся неприменимыми. Это, разумеется, означает, что, основываясь на по­лученных результатах оценки регрессии, в принципе нельзя заниматься провер­кой каких-либо гипотез.

Влияние включения в модель переменной, которая не должна быть включена

Допустим, что истинная модель представляется в виде:



а вы считаете, что ею является



и рассчитываете оценку величины b1, используя формулу



вместо выра­жения Cov (x1, y)/D1).

В целом проблемы смещения здесь нет, даже если b1, будет рассчитана непра­вильно. Величина M(b1) остается равной ?1, но в общем оценка будет неэффек­тивной. Она будет более неустойчивой, в смысле наличия большей дисперсии относительно?1, чем при правильном вычислении.

Это можно легко объяснить интуитивно. Истинная модель может быть записана в виде:



Таким образом, если вы строите регрессионную зависимость у от х1, и хг, то b1 будет являться несмещенной оценкой величины ?1, а ?2 будет несмещенной оценкой нуля (при выполнении условий Гаусса—Маркова). Практически вы обнаруживаете для себя, что ?2, равно нулю. Если бы вы заранее поняли, что ?2 равно нулю, то могли бы использовать эту информацию для исключения и применить парную регрессию, которая в данном случае является более эффективной.

Утрата эффективности в связи со включением х2 в случае, когда она не дол­жна была быть включена, зависит от корреляции между х1, и х2.

Сравните дис­персии величины ?1 при построении парной и множественной регрессии.


Парная регрессия


Множественная регрессия





Дисперсия в общем окажется большей при множественной регрессии, и разница будет тем большей, чем ближе коэффициент корреляции к единице или -1. Единственным исключением в связи с проблемой утраты эффективности яв­ляется вариант, когда коэффициент корреляции точно равен нулю. В этом случае оценка b1 для множественной регрессии совпадает с оценкой для парной

регрессии. Доказательство этого опустим.



  1. Пошаговая регрессия.

  2. Тест Вальда.

  3. Тест Чоу.

  4. Замещающие переменные.

Часто бывает, что вы не можете найти данных по переменной, которую хо­телось бы включить в уравнение регрессии. Некоторые переменные, относящи­еся к социально-экономическому положению или к качеству образования, имеют такое расплывчатое определение, что их в принципе даже невозможно изме­рить. Другие могут поддаваться измерению, но оно требует столько времени и энергии, что на практике их приходится отбрасывать. Иногда вы можете быть расстроены тем, что пользуетесь какими-то данными, собранными другим человеком, в которых (с вашей точки зрения) опущена важная переменная.

Независимо от причины обычно бывает полезно вместо отсутствующей пе­ременной использовать некоторый ее заменитель (proxy), а не пренебрегать ею совершенно. В качестве показателя общего социально-экономического положе­ния вы можете использовать его заменитель — показатель дохода, если данные о нем имеются. В качестве показателя качества образования можно использовать отношение числа преподавателей и сотрудников к числу студентов или расхо­ды на одного студента. Вместо переменной, опущенной в каком-либо обзоре, вы можете обратиться к другим, уже фактически собранным данным, если в них имеется подходящая замещающая переменная.

Имеются две причины для поиска такой переменной. Во-первых, если вы просто опустите важную переменную, то регрессия может пострадать от сме­щения оценок, описанного выше, и статистическая проверка будет не­полноценной. Во-вторых, результаты оценки регрессии с включением замеща­ющей переменной могут дать косвенную информацию о той переменной, ко­торая замещена данной переменной.

Иногда случается, что вы используете замещающую переменную, не осоз­навая этого. Вы полагаете, что у зависит от z, а в действительности эта величи­на зависит от х.

Если корреляция между величинами z и х незначительна, то результаты бу­дут плохими, и вы поймете, что тут что-то неладно. Но если корреляция тес­ная, то результаты окажутся удовлетворительными (коэффициент R2 будет бли­зок к желаемому уровню и т. п.), и вы можете даже не подозревать, что полу­ченное соотношение неверно.

Имеет ли это какое-то значение? Это, во-первых, зависит от того, с какой целью вы строите данную регрессию. Если целью оценивания регрессии явля­ется предсказание будущих значений величины у, то использование замещаю­щей переменной не будет иметь большого значения при условии, конечно, что корреляция тесная и не является в то же время статистической счастливой слу­чайностью. Однако если вы намерены использовать объясняющую переменную в качестве инструмента экономической политики для оказания влияния на по­ведение зависимой переменной, то последствия могут оказаться катастрофи­ческими. Если только не будет функциональной связи между замещающей пе­ременной и истинной объясняющей переменной, манипулирование замещаю­щей переменной не окажет никакого влияния на зависимую переменную. Если мотивом построения регрессии является чисто научное любопытство, то исход будет столь же неудовлетворительным.

Непреднамеренное использование замещающих переменных особенно рас­пространено при анализе временных рядов, в частности в макроэкономических моделях. Если истинная объясняющая переменная имеет временной тренд, то вы, вероятно, получите хорошую оценку формулы, если замените (преднаме­ренно или нет) ее на любую другую переменную с временным трендом. Даже если вы связываете приращения зависимой переменной с приращениями объяс­няющей переменной, вы, вероятно, получите аналогичные результаты незави­симо от того, используется ли правильная объясняющая переменная или же замещающая переменная, поскольку макроэкономические переменные обыч­но изменяются взаимосвязанно, в соответствии с экономическим циклом.


  1. Фиктивные переменные.

Фиктивная переменная – это атрибутивная или качественная, факторная переменная, которая представлена с помощью определенного цифрового кода.

При исследовании влияния качественных признаков в модель следует вводить фиктивные переменные, принимающие, как правило два значения: 1, если данный признак присутствует в наблюдении; 0 — при его отсутствии.

Если включаемый в рассмотрение качественный признак име­ет не два, а несколько значений, то используют несколько фиктив­ных переменных, число которых должно быть на единицу меньше числа значений признака. При назначении фиктивных переменных исследуемая совокупность по числу значений качественного при­знака разбивается на группы. Одну из групп выбирают как эталон­ную и определяют фиктивные переменные для остальных.

Если качественный признак имеет 2 значения, то это можно отразить, введя 1 фиктивную переменную. Например, строится модель, характеризующая показатели предприятий двух отраслей промышленности: электроэнергетики и газовой промышленности. Вводится фиктивная переменная, которой присваивается значе­ние 0, если данные относятся к предприятиям электроэнергети­ки, и значение 1, если данные относятся к предприятиям газовой промышленности.

Если качественный признак имеет 3 значения, то это можно отразить, введя 2 фиктивных переменных. Например, строится модель, характеризующая показатели предприятий 3 регионов. Вводится 1 фиктивная переменная, которой присваивается значе­ние 0, если данные относятся к предприятиям первого региона, и значение 1, если данные относятся к предприятиям двух других регионов. Второй фиктивной переменной присваивается значение О, если данные относятся ко второму региону, и 1, если данные относятся к первому и третьему регионам.

Введение в регрессию фиктивных переменных существенно улучшает качество оценивания.

  1. Мультиколлинеарность и её влияние на оценки параметров уравнения регрессии.

По величине парных коэффициентов корреляции обнаружи­вается лишь явная коллинеарность факторов. Наибольшие труд­ности в использовании аппарата множественной регрессии воз­никают при наличии мультиколлинеарноспш факторов, когда более чем два фактора связаны между собой линейной зависимос­тью, т. е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может озна­чать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полно­стью независимой, и нельзя оценить воздействие каждого факто­ра в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов (МНК).

Включение в модель мультиколлинеарных факторов нежела­тельно в силу следующих последствий:

Причинные мультиколлинеарности:

  1. Ошибочное включение в уравнение двух и более линейно независимых переменных

  2. Две или более объясняющие переменные, в нормальной ситуации слабо коррелированные, становятся в конкретных условиях выборки сильно коррелированными;

  3. В модель включается переменная, сильно коррелирующая с зависимой переменной (такая независимая переменная называется доминантой).



  1. Методы борьбы с мультиколлинеарностью.

  1. Изменить или увеличить выборку;

  2. Исключить одну из переменных;

  3. Преобразовать мультиколлинеарные переменные:

  1. Ничего не делать!

Самое главное – выбрать правильное средство.

Сбор дополнительных данных — это самый простой способ устранения мультиколлинеарности, однако на практике это не всегда возможно.

Метод преобразования переменных — это способ замены всех переменных, включенных в модель. Например, вместо значений результа­тивной переменной и факторных переменных мож­но взять их логарифмы. Тогда модель множест­венной регрессии имеет вид:

In у = В0 + В1In х1 + В2 In х2 + е.

Однако этот метод не гарантирует устране­ния мультиколлинеарности.

Гребневая регрессия (или ридж) — это один из смещенных методов оценки коэффи­циентов модели регрессии. Данный метод при­меняется в случае, когда ни одну из переменных, включенных в модель регрессии, нельзя удалить. Суть гребневой регрессии заключается в том, что ко всем диагональным элементам корреля­ционной матрицы (XТ X) добавляется число т (тау): 10 -6 < т < 0,1. Тогда неизвестные коэффициенты модели множественной регрессии будут определяться по формуле: В? = (ХТХ +тIn)-1 ХтY где In — единичная матрица.

Гребневая регрессия позволяет стабилизи­ровать оценки коэффициентов модели множест­венной регрессии к определенному числу и уменьшить их стандартные ошибки.

Метод главных компонент — это основ­ной метод исключения переменных из модели регрессии. В этом случае модель множествен­ной регрессии строится не на основе матрицы факторных переменных X, а на основе матрицы главных компонент F.

Метод пошагового включения факторных переменных в модель регрессии — это метод определения из возможного набора факторных переменных именно тех, которые усилят качест­во модели регрессии.

Суть метода пошагового включения состоит в том, что из числа всех факторных переменных в модель регрессии включаются переменные, имеющие наибольший модуль парного линейно­го коэффициента корреляции с результативной переменной. При добавлении в модель регрес­сии новых факторных переменных их значимость проверяется с помощью F-критерия Фишера. Если Fнабл > Fкрит, то включение факторной пере­менной в модель множественной регрессии явля­ется обоснованным. Проверка факторных пере­менных на значимость осуществляется до тех пор, пока не найдется хотя бы одна переменная, для которой не выполняется условие F набл > F крит


  1. Нелинейная регрессия.

  2. Тестирование на нелинейность. RESET–тест.

  3. Линеаризация регрессионных моделей.

  4. Гетероскедастичность.

Проявление гетероскедастичности связано с нарушением одного из семи условий Гаусса-Маркова: случайный член имеет постоянную дисперсию (). Чаще гетероскедастичность возникает в моделях, основанных на перекрестных выборках, но встречается и во временных рядах.

Виды: 1. истинная (вызывается непостоянством дисперсии случайного члена, ее зависимостью от различных факторов);

2. ложная (вызывается ошибочной спецификацией модели регрессии).

Источники: 1. истинная гетероскедастичтность возникает в пространственных выборках при зависимости масштаба изменений зависимой переменной от некоторых переменных, называемой фактором пропорциональности(Z).

2. истинная гетероскедастичность возникает также с во временных рядах, когда зависимая переменная имеет большой интервал качественно неоднородных знаний или высокий темп изменения.

3. истинная гетероскедастичность возникает в любой модели в случае если качество данных варьирует внутри выборки.

Гетероскедастичность простейшего вида: , Z – фактор пропорциональности (переменная, включенная или не включенная в уравнение регрессии)

Последствия: 1. истинная не приводит к смещению оценок коэффициентов регрессии;

2. гетероскедастичность увеличивает дисперсию распределения оценок коэффициентов.

3. гетероскедастичность вызывает тенденцию к недооценке стандартных ошибок коэффициентов при использовании OLS (метод наименьших квадратов).

  1. Последствия гетероскедастичности.

  2. Тестирование на гетероскедастичность. Тесты Глейзера, Уайта и Бреуша–Пагана.

  3. Оценивание коэффициентов множественной линейной регрессии в условиях гетероскедастичности.

Обобщенный метод наименьших квадратов.

При нарушении гомоскедастичности и наличии автокорреляции ошибок рекомендуется заменять традиционный метод наименьших квадратов (OLS) обобщенным методом (GLS).

Обобщенный метод наименьших квадратов применяется к преобразованным данным и позволяет получить оценки, которые обладают не только свойством несмещенности, но и имеют меньшие выборочные дисперсии.

Предположим, что среднее значение остатков равно нулю, а дисперсия их пропорциональна величине , т.е.

, где - дисперсия ошибки при конкретном i-м значении фактора; - постоянная дисперсия ошибки при соблюдении предпосылки о гомоскедастичности остатков; - коэффициент пропорциональности.

При этом предполагается, что неизвестна, а в отношении величины K выдвигается гипотезы, характеризующие структуру гетероскедастичности.

В общем виде для уравнения y = a + b  x +  модель примет вид:

В данной модели остаточные величины гетероскедастичны. Предположив в них отсутствие автокорреляции, перейдем к уравнению с гомоскедастичными остатками, поделив все переменные, зафиксированные в ходе i-го наблюдения, на . Тогда дисперсия остатков будет величиной постоянной, т.е. = . Иными словами, от регрессии y по x мы перейдем к регрессии на новых переменных: .

Дальнейшее преобразование уравнения регрессии и затем системы нормальных уравнений, то получим коэффициент регрессии:

.

При обычном применении метода наименьших квадратов к уравнению линейной регрессии для переменных в отклонениях от средних уровней коэффициент регрессии b определяется по формуле

Как видим, при использовании обобщенного МНК с целью корректировки гетероскедастичности коэффициент регрессии b представляет собой взвешенную величину по отношению к обычному методу наименьших квадратов 1/K.


  1. Обобщенный метод наименьших квадратов.

  2. Процедуры Кохрейна–Оркатта и Хилдрета–Лу.

  3. Взвешенный метод наименьших квадратов.

  4. Стандартные ошибки в форме Уайта.

  5. Автокорреляция. Причины автокорреляции.

Природа автокорреляции кроется в нарушении одного из условий Кобба-Дугласа: Наблюдаемые значения случайного члена не коррелированны друг с другом ().

Виды автокорреляции:

  1. Чистая автокорреляция – вызывается зависимостью случайного члена от прошлых значений:

  1. Ложная автокорреляция – вызывается неправильной спецификацией модели

Последствия автокорреляции:

  1. истинная автокорреляция не приводит к смещению оценок коэффициентов регрессии;

  2. положительная автокорреляция (наиболее важный для экономики случай) приводит к увеличению дисперсии оценки коэффициентов;

автокорреляция вызывает снижение оценок стандартных ошибок коэффициентов


  1. Влияние автокорреляции на свойства оценок МНК.

  2. Тестирование автокорреляции. Статистика Дарбина–Уотсона.

Начнем с частного случая, в котором автокорреляция подчиняется авторег­рессионной схеме первого порядка:

.

Это означает, что величина случайного члена в любом наблюдении равна его значению в предшествующем наблюдении (т. е. его значению в период t1), умноженному на ?, плюс новый et,. Данная схема оказывается авторегрес­сионной, поскольку e определяется значениями этой же самой величины с запаздыванием, и схемой первого порядка. В этом простом случае максимальное запаздывание равно единице. Предполагается, что значение e в каждом наблюдении не зависит от его значений во всех других наблюдениях. Если ? положительно, то автокорреляция положительная; если ? отрицатель­но, то автокорреляция отрицательная. Если ? = 0, то автокорреляции нет и третье условие Гаусса—Маркова удовлетворяется.


Широко известная статистика Дарбина—Уотсона (d илиDW) определяется следу­ющим образом:



Можно показать, что в больших выборках

d?2-2?

Если автокорреляция отсутствует, то ?= 0, и поэтому величина d должна быть близкой к двум. При наличии положительной автокорреляции величина d, вооб­ще говоря, будет меньше двух; при отрицательной автокорреляции она, вообще говоря, будет превышать 2. Так как ? должно находиться между значениями 1 и — 1, то d должно лежать между 0 и 4.

Критическое значение d при любом данном уровне значимости зависит, как можно предполагать, от числа объясняющих переменных в уравнении регрес­сии и от количества наблюдений в выборке. К сожалению, оно также зависит от конкретных значений, принимаемых объясняющими переменными. Поэто­му невозможно составить таблицу с указанием точных критических значений для всех возможных выборок, как это можно сделать для t- и F-статистик; но можно вычислить верхнюю и нижнюю границы для критического значения d. Для положительной автокорреляции они обычно обозначаются как dv и dL.

На рис. данная ситуация представлена в виде схемы; стрелка указывает критический уровень d, который обозначается как d . Если бы мы знали зна­чение dкрит, то могли бы сравнить с ним значение d, рассчитанное для нашей регрессии. Если бы оказалось, что d> dкрит, то мы не смогли бы отклонить ну­левую гипотезу от отсутствии автокорреляции. В случае d<dкрит мы бы откло­нили нулевую гипотезу и сделали вывод о наличии положительной автокор­реляции



Тест Дарбина—Уотсона на автокорреляцию

(показана зона неопределенности в случае предполагаемой

положительной автокорреляции)

Вместе с тем мы знаем только, что dкриm находится где-то между dL и dU. Это предполагает наличие трех возможностей:

  1. Величина d меньше, чем dL. В этом случае она будет также мень­ше, чем dKpum, и поэтому мы сделаем вывод о наличии положитель­ной автокорреляции.

  2. Величина d больше, чем dU. В этом случае она также больше кри­тического уровня, и поэтому мы не сможем отклонить нулевую гипо­тезу.

  3. Величина d находится между dL и dU. В этом случае она может быть больше или меньше критического уровня. Поскольку нельзя опреде­лить, которая из двух возможностей налицо, мы не можем ни откло­нить, ни принять нулевую гипотезу.


В случаях 1 и 2 тест Дарбина—Уотсона дает определенный ответ, но случай 3 относится к зоне невозможности принятия решения, и изменить создавше­еся положение нельзя.


. Тест Дарбина—Уотсона на автокорреляцию

(показана зона неопределенности в случае предполагаемой

отрицательной автокорреляции)
Проверка на отрицательную автокорреляцию проводится по аналогичной схеме, причем зона, содержащая критический уровень, расположена симмет­рично справа от 2. Так как отрицательная автокорреляция встречается относи­тельно редко, предполагается, что при необходимости вы сами вычислите гра­ницы зоны на основе соответствующих значений для положительной автокор­реляции при данном числе наблюдений и объясняющих переменных. Это дос­таточно легко сделать. Как показано на рис., величина (4 — dU) есть нижний предел, ниже которого признается отсутствие автокорреляции, а (4 - dL) — верх­ний предел, выше которого делается вывод о наличии отрицательной автокор­реляции.


  1. Способы противодействия автокорреляции.


Возможно, вам удастся устранить автокорреляцию путем определения ответ­ственного за нее фактора или факторов и соответствующего расширения урав­нения регрессии. Когда такое возможно, это может оказаться наилучшим ре­шением.

В других случаях процедура, которую следует принять, будет зависеть от ха­рактера зависимости между значениями случайного члена. В литературе наиболь­шее внимание уделяется так называемой авторегрессионной схеме первого по­рядка, так как она интуитивно правдоподобна, но для того, чтобы было целесообразным ее использование в более сложных моделях, оснований обыч­но не хватает. Вместе с тем если наблюдения проводятся ежеквартально или ежемесячно, могут оказаться более подходящими другие модели, но мы не будем их здесь рассматривать.

Если бы уравнение было правильной спецификацией для измерения величины случайного члена, то вы могли бы полностью устранить автокорре­ляцию, если бы знали величину ?. Это будет продемонстрировано на примере уравнения регрессии, включающего только одну объясняющую переменную, од­нако при большем их числе действует тот же принцип. Предположим, что истинная модель задается выражением, так что наблюдения t и t1 формируются как





Теперь вычтем из первого уравнения второе, умноженное на ?, и получим

:

Обозначим:



Это преобразование называется авторегрессионным, или преобразованием Бокса–Дженкинса.

Тогда преобразованное уравнение



где , не содержит автокорреляцию, поскольку ut независимы.

Конечно, на практике величина ? неизвестна, его оценка получается одно­временно с оценками аир. Имеется несколько стандартных способов такого оценивания, и, вероятно, один или нескольких таких способов могут быть ре­ализованы в имеющемся у вас регрессионном пакете.

Метод Кокрана—Оркатта представляет собой итеративный процесс, вклю­чающий следующие этапы.

  1. Оценивается регрессия с исходными непреобразованными дан­ными.

  1. Вычисляются остатки.

  2. Оценивается регрессионная зависимость et от еt-1, соответствующая
    формуле и коэффициент при et-1 представляет собой оценку ? (поскольку D(et-1)?D(et),в качестве альтернативной оценки ? можно принять коэффициент автокорреляции первого порядка re-1,e)

  1. С этой оценкой ? к преобразованному уравнению применяется МНК, который позволяет получить пересмотренные оценки ? и ?.

Повторно вычисляются остатки, и процесс возвращается к этапу 3.

Метод Хилдрета—Лу, также широко применяемый в регрессионных пакетах, основан на тех же самых принципах, но использует другой алгоритм вычисле­ний. Здесь преобразованная регрессия оценивается для каждого значения ? из определен­ного диапазона с заданным шагом внутри его. (Например, исследователь мо­жет задать диапазон от ? = —1,00 до ?= 1,00 с шагом 0,01.) Значение, которое дает минимальную стандартную ошибку для преобразованного уравнения, при­нимается в качестве оценки ?, а коэффициенты регрессии определяются при оценивании уравнения с использованием этого значения.


  1. Стандартные ошибки в форме Ньюи-Веста.

  2. Стохастические объясняющие переменные и их возможные последствия.

Основные идеи экономики — взаимосвязь между экономическими переменными. Спрос на товар на рынке рассматривается как функция его вены. Затраты на изготовление какого-либо продукта — функция от объе­ма производства. Потребительские расходы — функция дохода и т.п. Это примеры взаимосвязей между двумя переменными, одна из которых (спрос на товар, производственные затраты, потребительские расходы) является объясняемой переменной (результирующим показателем), а другие — объясняющими переменными (факторы-аргументами).

Как правило, в каждое такое соотношение приходится вводить несколько объясняющих переменных и остаточную случайную составляющую, отражающую влияние на результирующий показатель всех неучтенных факторов. Например, спрос на товар можно рассматривать как функцию его цены, потребительского дохода и цен на конкурирующие и дополняющие товары. Производственные затраты зависят от объема производства, его динамики, цен на основные производственные ресурсы. Потребительские расходы — функция дохода, ликвидных активов и предыдущего уровня потребления.

Участвующая в каждом из этих соотношений случайная состав­ляющая, отражающая влияние на результирующий показатель всех неуч­тенных факторов, обусловливает стохастический характер зависимости: даже зафиксировав значения объясняющих переменных (например, цена на сам товар и на конкурирующие с ним или дополняющие товары, а также потребительский доход), мы не можем ожидать однозначно, каким будет спрос на данный товар. Иначе говоря, переходя в своих наблюдениях спроса от одного временного (или пространственного) промежутка к дру­гому, мы увидим случайное варьирование спроса около некоторого оп­ределенного уровня даже при фиксировании всех объясняющих перемен­ных.

Ошибки

Допустим, переменная у зависит от переменной z, что задано следующим соотношением:



где v — случайный член с нулевым средним и дисперсией ?v2.

Предположим, что z невозможно измерить абсолютно точно, и мы будем использовать х для обозначения его измеренного значения. В i-м наблюдении xi равно истинному значению zi, плюс ошибка измерения wi:

xi = zi + wi

Допустим, что w имеет нулевое среднее и дисперсию ? i2, что D (z) в 6oльших выборках стремится к конечному пределу ?z2 и что z и v распределены независимо.

Тогда получим:



Это уравнение имеет две случайные составляющие — первоначальный случай­ный член v и ошибку измерения w (умноженную на —?). Вместе они образуют составную случайную переменную, которую мы назовем e:



Соотношение можно теперь записать как



Имея значения переменных у (временно будем предполагать, что они изме­рены точно) и х, мы, несомненно, можем оценить регрессионную зависи­мость у от х.

Анализируя ошибку, можно заметить, что она, вероятно, поведет себя не так, как требуется. Переменная х зависит от w, от этой величины зависит также и e. Когда ошибка измерения в наблюдении оказывается положительной, происходят две вещи: х, имеет положительную составляющую wi, a ej имеет отрицательную составляющую —?wi.. Аналогично, если ошибка измерения отри­цательна, она вносит отрицательный вклад в величину хi и положительный вклад в величину eг Следовательно, корреляция между х и e отрицательна. Величина cov (х, и) не равна нулю, а b является несостоятельной оценкой ?.

Даже если бы у нас была очень большая выборка, оценка оказалась бы не­точной. Она бы занижала ? на величину

.

Таким образом, оценки МНК будут смещенными и несосстоятельными.

В то же время при ощибках измерения зависимой переменной лишь возрастает дисперся регрессии, а оценки параметров остаются несмещенными и состоятельными.


  1. Последствия ошибок измерения.

  2. Инструментальные переменные.


Что следует делать при наличии ошибок измерения? Если их причиной яв­ляется неточность при подготовке данных, то единственное, что можно сде­лать, — это обрабатывать данные более тщательно. Если же их причина заклю­чается в том, что измеряемая переменная принципиально отличается от ис­тинной объясняющей переменной в зависимости, то можно попытаться по­лучить более подходящие данные. Часто это бывает трудно осуществить на практике. Если требуется получить временной ряд по совокупному измерен­ному доходу, то его можно найти в национальных счетах, но не существует прямого способа получения данных по совокупному постоянному доходу.

Здесь мы объясним использование метода инструментальных переменных (ИП) — наиболее важной разновидности метода наименьших квадратов — для решения данной задачи. Это также будет иметь большое значение, когда мы приступим к оцениванию параметров моделей, состоящих из нескольких урав­нений.

В сущности, метод инструментальных переменных заключается в частичной замене непригодной объясняющей переменной такой переменной, которая не коррелирована со случайным членом. Ограничимся случаем парной регрессии:

и допустим, что по какой-либо причине х имеет случайную составляющую, зависящую от e. Будем также предполагать, что в больших выборках D (x) стремится к конечному пределу ?x2. В этих условиях непосредственное приме­нение МНК для построения регрессионной зависимости у от х привело бы к несостоятельным оценкам параметров. Теперь предположим, что можно найти другую переменную z, которая кор­релирована с х, но не коррелирована с e. Можно показать, что основанная на исполь­зовании инструментальных переменных оценка параметра ?, определяемая как



является состоятельной при условии, что при увеличивающемся числе наблю­дений Cov (z, х) стремится к конечному, отличному от нуля пределу.


  1. Понятие об одновременных уравнениях.

  2. Структурная и приведенная форма модели.

  3. Проблема идентификации. Неидентифицируемость и сверхидентифицированность.

  4. Порядковое и ранговое условия идентификации.

  5. Оценивание системы одновременных уравнений. Косвенный, двухшаговый и трехшаговый МНК.

  6. Системы эконометрических уравнений с лаговыми переменными.

  7. Метод максимального правдоподобия.

  8. Свойства оценок максимального правдоподобия.

  9. Логарифмическая функция правдоподобия.

  10. Модели бинарного выбора.

  11. Логит–модель. Пробит–модель.

  12. Модели множественного выбора.

  13. Цензурированные и усеченные выборки.

  14. Тобит–модель.

  15. Модель Хекмана.

  16. Оценивание моделей бинарного и множественного выбора.

  17. Структура временного ряда.

  18. Стационарные процессы и стационарные ряды.

  19. Автоковариационная и автокорреляционная функции.

  20. Коррелограмма и периодограмма.

  21. Белый шум. Гауссовский белый шум.

  22. Моделирование стационарных временных рядов.

  23. Авторегрессионные модели.

  24. Модели скользящего среднего.

  25. Тестирование на единичные корни.

  26. Тесты Дики-Фуллера (DF и ADF) и KPSS.

  27. Авторегрессионные модели со скользящими средними в остатках.

  28. Модель ARIMA.

  29. Сезонная модель Бокса–Дженкинса.

  30. Тесты Бокса-Пирса и Льюнга–Бокса.

  31. Модель ARCH.

  32. Модель GARCH.

  33. Стационарность и нестационарность переменных в динамических моделях.

  34. Модель коррекции остатков.

  35. Ложные регрессии.

  36. Коинтеграция временных рядов.

  37. Модели с распределенными лагами и модели авторегрессии.

  38. Лаги Алмон и лаги Койка.

  39. Модель адаптивных ожиданий.

  40. Модель неполной корректировки.

  41. Панельные данные.

  42. Фиксированные эффекты.

  43. Случайные эффекты.


Учебный материал
© bib.convdocs.org
При копировании укажите ссылку.
обратиться к администрации