Контрольная работа - Решение задач (УФ ОГУ) - файл n1.doc

Контрольная работа - Решение задач (УФ ОГУ)
скачать (699.5 kb.)
Доступные файлы (1):
n1.doc700kb.20.11.2012 01:06скачать

n1.doc

Задача 1

Пусть на основе набора наблюдений Хi, Yi, i= , приведенной в таблице 1, по МНК составлена линейная регрессия Y на Х:

(1)

В предположении, что выполнены условия нормальной линейной регрессионной модели

Yi = а+bХi+?i , i =

Требуется: а) Установить по результатам наблюдений зависимость результативного признака Y от признак-фактора Х;

б) Проверить гипотезу

Н0:b= -1,3869

в) Определить доверительные интервалы для параметров а и b построенного уравнения регрессии (1) при доверительной вероятности ?=0,95;

г) Проверить значимость каждого из коэффициентов регрессии;

д) Определить 95%-ые доверительные интервалы для среднего и индивидуального значений результативного признака Y для момента i=3 при котором признак-фактор принимает значения Х3;

е) Вычислить коэффициент детерминации R2;

ж) Вычислить выборочный коэффициент корреляции между Х и Y;

3) Проверить значимость уравнения регрессии.

Таблица 1

Хi

3

5

6

8

9

10

12

14

15

16

Yi

6

9

8

10

13

16

15

14

20

24

Решение:

а) По данным наблюдений имеем n = 10,

98; = 1136; = 135; = 2103; = 1528; = 9,8; =13,5

Справедливо тождество

(Хi +Yi)2 =  + 2ХiYi +.

Для контроля вычислим

(Хi + Yi)2 = 6295, так как

1136 + 2 · 1528+2103 = 6295

Следовательно, вычисления проведены, верно. Оценки и ā вычислим по формулам



Откуда МНК оценки а и b таковы: ā =2,0592, 1,1674.

Для контроля вычислений оценок коэффициентов регрессии следует осуществлять проверку соотношению .

2,0592 + 1,1674 · 9,8 = 13,5 13,5

Следовательно, разница между правой и левой частями этого соотношения меньше 3·10-5. Это равенство получилось не вполне точным в силу округления оценок ā и до четвертого знака после запятой. Тогда уравнение регрессии (1) примет вид.

2,0592 + 1,1674Х (2)

Оценку ā можно вычислить также по формуле

13,5 –9,8·1,1674 ?2,0592

б) Вычислим сумму квадратов остатков регрессии







[2103 – 1822,5]- 2·1,1674·[1528–9,8·135]+1,16742[1136 –960,4] =

= 280,5 –206,1067 + 103,0534 =41,1777.

Оценка дисперсии ошибок s2 равна

41,1777 / 8 =5,1472, s = 2,2687

Найдем сумму квадратов центрированных значений

1136 – 9604/10 = 175,6

Вычислим оценку дисперсии



Стандартное отклонение оценки есть= 0,1712.

Для проверки гипотезы Н0 : b = -1,3869 против альтернативной гипотезы

Н1 : b ? -1,3869 вычислим t-статистику



имеющую распределение Стьюдента с числом степеней свободы ? = n – 2. Предположим, что верна гипотеза Н0, и выберем уровень значимости ? = 0,05 (или уровень доверия или доверительную вероятность, или надежность ? = 1 – ? = 1 – 0,05 = 0,95) и найдем по таблице критических точек распределения Стьюдента по выбранному уровню значимости ? и числу степеней свободы ? = n -2 =10-2=8 критическую точку

= (n – 2)=(n – 2)= (8)=t?(n – 2)=t0,95(8) =2,306 удовлетворяющую условию

Р(|t| < tc) = 1 – ? = ? = 0,95. Поскольку |t|=14,9201> 2,306= tc, то событие |t| >tc «редкое» с точки зрения гипотезы Н0. Поэтому гипотеза Н0 : b = -1,3869 отвергается на 95% доверительном уровне (на 5% уровне значимости) и принимается Н1.

Заметим, что на 99% доверительном уровне есть все основания отвергать нулевую гипотезу Н0, так как tc = t0,99(8) =3,355<|t| =14,9201 (и не принимается Н0). При проведении статистического анализа для сравнения эмпирического коэффициента регрессии b с некоторыми теоретически ожидаемым значением b0 этого коэффициента пользуются также статистической проверкой гипотезы Н0 : b = b0 ,

Н1 : b ? b0, используя F-статистику.



которая при справедливости Н0 имеет распределения Фишера с числами степеней свободы ?1 = 1, ?2 = n – 2 =8.

С учетом исходных данных значение F-статистики равно



Задаем уровень значимости ? = 0,05. Отвергаем нулевую гипотезу, так как для выбранного уровня значимости ? = 0,05 значения F-статистики превосходит критическое значение Fкр = F0,05(1,8) = F0,95(1,8) =5,32 распределения Фишера с параметрами (1; n – 2) = (1; 10-2) = (1;8).

в) Пусть t? = t1-? – табличное значение статистики Стьюдента для степени свободы n – k = 10- 2 = 8 и уровня значимости

? = 1 – 0,95 = 0,05. Тогда доверительные интервалы



с вероятностью ? = 1- ? = 1 – 0,05 = 0,95 накрывают истинные значения параметров а и b соответственно. Имеем

(n – 2) = t1-? (n – 2) = t? (n – 2), ? = 0,05, ? = 0,95, (8) = t0,95(8) = 2,306

Оценка дисперсии ā равна



Учитывая границы доверительных интервалов

= 2,0592 2,306·1,8247 =2,05924,2078,

= 1,16742,306·2,6925 =1,16740,3948,

получаем 95%-ые доверительные интервалы (-2,1486; 6,2670) и

(0,7726; 1,5622) для параметров а и b соответственно.

г) На начальном этапе статистического анализа построенной модели возникает вопрос о наличии линейной зависимости Y от Х. Для этого можно осуществить статистическую проверку гипотезы

Н0 : b=0, Н1 : b ? 0. (4)

Эта гипотеза называется гипотезой о статистической значимости коэффициента регрессии b. При этом если Н0 принимается, т.е. основания считать, что величина Y не зависит от Х. В этом случае коэффициент b статистически незначим. При отклонении Н0 коэффициент b считается статистически значимым и можно говорить о существовании определенной линейной зависимости между Y и Х.

Для проверки гипотезы (4) о статистической значимости b используют статистику





которая при справедливости Н0 имеет распределение Стьюдента с числом степеней свободы ? = n – 2, где n – объем выборки. Следовательно, отклоняется на основании этого критерия, если



где ? – требуемый уровень значимости. При невыполнении (6) считается, что нет оснований для отклонения Н0.

По аналогичной схеме на основе t-статистики проверяется гипотеза о статистической значимости коэффициента

Для проверки значимости коэффициента ā и тестируем гипотезы:

Н0 : а = 0 и Н0 : b = 0 на 5% уровне значимости. Вычисляем t-статистики

и сравниваем их по абсолютной величине с t`0,05(8) =2,306





Можно считать, что первый коэффициент статистически не значим, а второй коэффициент статистически значим на 5% уровне значимости.

Следует отметить, что: 1) доверительный интервал имеет смысл построить только для значимого коэффициента; 2) формально переменные, имеющие незначимые коэффициенты регрессии, могут быть исключены из рассмотрения.

д) Учитывая уравнение регрессии (2) с оцененными параметрами, получим прогноз значения результативного признака для момента i = 3

2,0592 + 1,1674·6 =9,0638

Для определения доверительного интервала для среднего значения Y в точке Х3 вычислим оценку дисперсии значения зависимой переменной по формуле



0,9685, (6-9,8)= -3,8 - централизованное

значение регрессора Х, 175,6

Тогда границы 95% доверительного интервала для среднего значения результативного признака, равны

9,0638 – 2,306·0,9685 = 6,8304,

9,0638 + 2,306·0,9685 = 11,2972,

где t`? = t`0,05(8) = 2,306, следовательно, 95%-ый доверительный интервал для среднего значения результативного признака есть(6,8304; 11,2972).

Для определения границ доверительного интервала для отдельного значения зависимой переменной Y3 вычислим оценку суммарной дисперсии



и границы для 95%-го доверительного интервала индивидуального значения Y3 равны

9,0638 – 2,306·2,4668 = 3,3753,

9,0638 + 2,306·2,4668 = 14,7523.

Таким образом, 95% доверительный интервал индивидуального значения Y3 есть (3,3753; 14,7523).

е) Коэффициент детерминации R2 выражается в виде



2103 – 1822,5 = 280,5

1,16742[1136-960,4]=1,3629·175,6 = 239,3252



Это означает, что 85,32% вариации результативного признака Y объясняется вариацией фактора Х.

Поскольку качество подгонки регрессионной модели к наблюдаемым значениям Yi оценивается при помощи статистики R2, то учитывая, что R2 значительно ближе к единице, заключаем, что качество подгонки хорошее и прогноз Ŷ более точно аппроксимирует Y.

ж) Выборочный коэффициент корреляции между Х и Y вычисляют по формуле



Известно, что rX,Y = (-1 ? rX,Y ? 1) измеряет силу (тесноту) линейной связи между Х и Y.

Cледует отметить, что приняты следующие пределы изменения выборочного коэффициента корреляции rX,Y между Х и Y, выражающего качественную характеристику тесноты связи:

| rX,Y| ? 0,1 – связь между Х и Y отсутствует или не является линейной даже приближенно;

0,1 < | rX,Y| ? 0,3 – связь cлабая ;

0,3 < | rX,Y| ? 0,65 – связь средней тесноты;

0,65 < | rX,Y| ? 0,80 – связь тесная;

0,80 < | rX,Y| ? 0,95 – связь очень тесная ;

0,96 < | rX,Y| – связь между Х и Y считается функциональной.

Значит, чем больше | rX,Y|, тем точнее результаты, получаемые с помощью уравнения парной регрессии.

С учетом исходных данных rX,Y равен



Поскольку rX,Y измеряет силу линейной связи между Х и Y то такая связь довольно тесная, так как | rX,Y| = 0,9237 > 0,80. Так как r < 0 (b < 0), то эта связь является обратной (отрицательной).

(0,9237)2 = 0,8532 = R2, что совпадает

со значением R2 , вычисленным в п.е.).

з) Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Рассмотрим следующие методы проверки значимости уравнения регрессии.

1. Для проверки гипотезы Н0 : b=0 статистика (3) принимает вид (случай отсутствия линейной функциональной связи между Х и Y):



Поэтому уравнение регрессии значимо на уровне , если фактически наблюдаемое значение этой F-статистики больше

F` (1, n – 2), то есть,

определенное на уровне значимости  при ?1 = 1 и ?2 = n – 2 степенях свободы.

Для F-статистики можно использовать соотношение



При  = 5%-м уровне значимости табличное значение критерия F` степеней свободы к1 = 1 и к2 = n – 2 = 8 равно

(F0,95(1,8) = F`0,05(1,8) = 5,32), т.е. полученное значение F-статистики намного больше табличного значения F` следовательно уравнение регрессии значимо на 95% доверительном уровне. Значит между переменными Х и Y действительно существует линейная стохастическая связь.

Проверка на значимость уравнения парной линейной регрессии может быть проведена и другим способом, а именно, если оценить значимость коэффициента регрессии b, используя (5).

Задача 2

Доходности акций компаний А, В, с, принадлежащих одной отрасли за период исследования, приводится в таблице 2.

Предполагается, что:

а) доходность компании А находится в линейной стохастической зависимости от доходностей В и С;

б) выполнены условия нормальной линейной множественной регрессионной модели

Yi = iXi1 + 2Xi2 + 3Xi3 + ?i, i = (1)

и составлено МНК уравнение линейной множественной регрессии

Ŷ = 1X1 + 2X2 + 3X3 , (2)

где Yi = доходность компании А (зависимая переменная) в момент наблюдения i : Х1 = (1,1,…1)` - единичный вектор-столбец:

Хi2 – доходности компании В (независимая переменная) в момент наблюдения i, Хi3 – доходность компании С (независимая переменная) в момент наблюдения i;

Требуется:

А. а) Установить по результатам наблюдений зависимость доходности компании А от доходности компаний В и С и написать уравнение линейной множественной регрессии в виде (2);

б) Спрогнозировать доходность компании А, если доходности компаний В и С равны соответственно Х2,0 и Х3,0

в) Предположим, что доходность компании В увеличилась на 2, в то время как доходность компании С не изменилась. Оценить как увеличится доходность компании А;

г) Оценить как увеличится доходность компании А при увеличении доходности компаний В и С соответственно на 3 и 2;

д) найти сумму квадратов остатков регрессии и оценку s2 дисперсии ошибок ?2.

Б. Пусть имеют место (1) и (2)

а) Построить 95%-ое доверительное множество для

1) 2 и 3 ; 2) 1 ; 3) 2 ; 4) 3 ;

б) Проверить с95%-ым уровнем доверия следующие гипотезы Н0:

1) 2 = 0 и 3 = 0; 2) 3 = 0; 3) 2 = 0; 4) 2 = 1; 5) 2 = 1,57; 6) 43 ;

в) Пусть доходности компаний В и С для момента времени равны соответственно Х42 , Х43.

1) Вычислить прогноз доходности компании А;

2) Построить 95%-ые доверительные интервалы для среднего и индивидуального значений доходности компании А;

3) Проверить значимость коэффициентов уравнения регрессии (2) при уровне значимости  = 0,05;

г) Пусть компании В и С имеют доходность соответственно Х2 и Х3

1) Определить прогноз доходности компании А;

2) Найти 95%-ые доверительные интервалы для прогноза доходности компании А;

д) Определить коэффициент детерминации R2 и проверить значимость полученного уравнения регрессии Y на константу, Х2 и Х3 при уровне значимости  = 0,05;

Хi2

6

2

7

3

1

4

5

4

Хi3

3

6

5

1

4

6

2

7

Yi

10

7,2

12,2

5

4,8

9,2

8

10

Решение: а) запишем модель (1) в матричной форме

Y = Х? + ?, где Х = [Х1 Х2 Х3], ? = (?1 ?2 ?3)`,



Число наблюдений n равно 8. Число независимых переменных в модели ровно 2, а число регрессоров с учетом единичного вектора равно числу неизвестных коэффициентов, следовательно, равно 3, т.е. к = 3. Матрица, независимых переменных Х имеет размерность (8х3): Матрица Х`Х определяется непосредственным умножением или по следующим предварительно вычисленным суммам (в дальнейшем опустим индексы суммирования у знака суммы )





Найдем обратную матрицу (Х`Х)-1 = Z-1 для матрицы Z = Х`Х.



Где Zij –алгебраическое дополнение элемента zij матрицы Z = | zij |3







?=detZ = z11Z11 + z12Z12 +z13Z13 = 8·9500+32·1076+34·(-1016) = 7024

Поскольку ? = det(Х`Х) = ? = detZ ? 0, то для матрицы (Х`Х) существует обратная матрица (Х`Х)-1. Известно, что матрица, обратная к невыраженной симметричной, будет симметричной. Поскольку Z = Х`Х – симметричная матрица, то ее обратная матрица (Х`Х)-1 будет симметричной. Поэтому, кроме алгебраических дополнений

Z11 , Z12 и Z13 вычислим еще Z22, Z23, Z33.







Тогда матрица (Х`Х)-1 имеет вид







(7480 8040 4390,4)` =

= (1,0649 1,1446 0,6251)`

Чтобы уменьшить потерю точности при умножении матрицы



? = det(Х`Х)) на другую матрицу, операцию деления элементов полученной матрицы на число ? следует выполнять в последнюю очередь.

Для контроля правильности выполненных операций при определении вектора оценок МНК следует проверить соотношения



Путем непосредственной проверки убеждаемся, что разница между правой и левой частями этого равенства по абсолютной величине не происходит 2 10-6. Учитывая МНК оценку (2), с учетом соотношения (1) получаем уравнение множественной регрессии в виде

1,0649+1,1446Х2+0,6251Х3 (3)

б) Прогноз доходности компании А равен

1,0649+1,1446·5+0,6251·10 = -206,9168

в) и г) Рассмотрим приращение прогноза доходности компании А в зависимости от приращений доходности компаний В и С, т.е. изменение прогноза доходности А в зависимости от изменения доходностей компаний В и С

[1,0649+1,1446(Х2 + ?Х2)+0,6251 (Х3 + ?Х3)] - [1,0649+1,1446Х2 +0,6251Х3]

Или

= 1,1446 ?Х2 + 0,6251?Х3 (4)

В случае в) ?Х2 = 2, а ?Х3 = 0 и из (4) получаем

= 1,1446 ·2= 2,2892. Поскольку > 0, то это означает, что доходность компании А при этом увеличится на 2,2892; а в случае г)

2 =3, а ?Х3 = 2 и согласно (4), имеем

= 1,1446 ·3+0,6251 · 2 = 3,4339+1,2501= 4,6841

Из > 0 следует, что доходность компании А увеличилась на 4,6841

д) Сумма квадратов остатков регрессии равна

597,36 – 597,2488 = 0,11124

Учитывая, что n = 8 число наблюдений и к – число параметров при переменных Х1, Х2 и Х3, находим несмещенную оценку дисперсии ошибок



Тогда оценка среднего квадратического отклонения ошибок регрессии – стандартная ошибка регрессии ,

Б) Задаем доверительную вероятность (надежность) ? = 0,95

1) Для нахождения 95% доверительного множества для второго и третьего теоретических коэффициентов регрессии ?2 и ?3 воспользуемся F-статистикой



где m = 2-число-ограничений, к = 3-число параметров, n = 8 - число наблюдений, матрица Н берется в виде



Условие

F < F? (m, n – k), (6)

т.е. F < F? (2,5) задает 95%-ую доверительную область для коэффициентов регрессии ?2 и ?3. Для вычисления числителя дроби в соотношении (6) с учетом (2) находим произведения следующих матриц





– вещественное неравное нулю число, получим







Тогда









Соотношение (5) с учетом выражения (7) и обозначений принимает вид

(8)

По таблице критических точек распределения Фишера (F- распределения) по уровню доверия или доверительной вероятности ? = 0,95 (по уровню значимости ? = 1 – ? = 0,05) и числам степеней свободы ?1=m=2 ?2 = n – k = 8 - 3 =5 определяется критическая точка F`? (2,5) = F`0,05(2,5) = F?(2,5) = F0,95(2,5) = 5,79

Тогда с учетом (5), (6) и (8) 95%-ая доверительная область для (?2, ?3) описывается неравенством

28,1532[28( ?2 -1,1446)2+4(?2 -1,1446)(?3 -0,6251)+31,5(?3 -0,6251)2<5,79

Или

136,1467(?2-1,1446)2+19,4495(?2-1,1446)(?3-0,6251)+153,1651(?3-0,6251)2<1 (9)

F – статистику (5) можно вычислить еще следующим образом. Разобьем все матрицы с размером по одной из сторон к = 3 на блоки со сторонами к – m = 3 – 2 = 1 и m = 2







Х = [Х1 Х2], Х2 = [Х2 Х3];





где Х1 – n х (к – m) = 8 х 1, Х2 – n x m = 8 x 2,



Обозначим



Обратная матрица для блочной матрицы Q имеет вид





Учитывая (1) и представление (X`X)-1 = Q-1 имеем



Числитель дроби (5) в выражении для F имеет вид с точностью до множителя 1/m



где 0` = [0 0].

Учитывая введенные обозначения и выражение для обратной матрицы



Соотношение (10) принимает вид



Что совпадает с выражением (7)

2), 3), 4). Оценка матрицы ковариаций МНК-оценки с учетом (1) имеет вид



Диагональные элементы этой матрицы равны оценкам дисперсий соответствующих коэффициентов полученной регрессионной модели, т.е.





Откуда стандартная ошибка i-го коэффициента регрессии вычисляется по формуле



Стандартные ошибки — средние квадратные отклонения коэффициентов используются для определения доверительных параметров модели с учетом (11) равны:



является 95%-ым доверительным интервалом для истинного значения параметра ?i ,, i =1,2,3, где

tc = tc(n – k) = t0,95(8-3) = t0,95(5) –двусторонняя 95% квантиль распределения Стьюдента с n – k = 8 - 3 = 5 степенями свободы, Табличное значение t статистики (распределение Стьюдента) для степени свободы ? = n – k = 8 - 3 = 5 и уровня доверия ? = 0,95 (уровня значимости ? = 0,05) равно t? (n – k) = t0.05 (5) = t1-?(n – k)= t0.95(5) = 2,306.

Поэтому границы доверительных интервалов для параметров модели принимают значения

= 1,0649 – 2,306  0,1733 = 1,0649 – 0,4455 = 0,6194;

= 1,0649 + 2,306  0,1733 = 1,0649 + 0,4455 = 1,5104 ;

= 1,1446 – 2,306  0,0282 = 1,1446 – 0,0726 = 1,0720 ;

= 1,1446 + 2,306  0,0282 = 1,1446 + 0,0726 = 1,2172 ;

= 0,6251 – 2,306  0,0266 = 0,6251 – 0,0684 = 0,5567 ;

= 0,6251 + 2,306  0,0266 = 0,6251 + 0,0684 = 0,6935 ;

Таким образом, получаем 95%-ые доверительные интервалы для истинных значений параметров:

?1(0,6194; 1,5104); ?2(1,0720; 1,2172);

?3(0,5567; 0,6935) (12)

б) Воспользуемся результатами пункта А

1) Легко заметить, что точка (?2 , ?3) = (0,0) не удовлетворяет соотношению (8) то есть

136,1467  (1,1446)2 + 19,4495  1,1446  0,6251 + 153,1651  (0,6251)2 > 1;

Следовательно, гипотезу Н0 : ?2 = ?3 отвергаем.

  1. Отвергаем гипотезу

Н0 : ?3 = 0; так как согласно (12) ?3 = 0 (0,5567; 0,6935);

  1. Отвергаем гипотезу Н0:?2=0; так как ?2=0(1,0720; 1,2172);

  2. Отвергаем гипотезу Н0:?2=1; так как ?2=1(1,0720; 1,2172);

  3. Отвергаем гипотезу Н0 : ?2 = 1,57,

так как ?2 = 1,57 (1,0720; 1,2172);

  1. Гипотезу Н0 : ?2 = 4?3 можно представить в виде гипотезы

Н0 : с`? = , где с` = (0 1 4),  = 0,

(с`? = (0 1 4)( ?1 ?2 ?3)` = 0

Или ?2 - 4 ?3 = 0, ?2 = 4 ?3, с – к х 1 – вектор, к = 3.).

Гипотеза Н0 : с`? = , с = к х 1 – вектор, является частным случаем общей линейной гипотезы Н0 : Н? = r для 1 х к матрицы Н = с`. Для проверки гипотезы Н0 : с`? =  можно использовать F-статистику



которая в данном случае распределена по закону Фишера F(m, n – k) при m = 1

или



где = [0 1 4][1,0649 1,1446 0,6251]` = 1,1446 + 4 0,6251 =3,645,

 = 0, (15)







Вычислим F статистику (14) с учетом (15) и (16)



Предположим, что верна гипотеза Н0 и выберем уровень доверия или доверительную вероятность ? = 0,95 и найдем по таблице критических точек распределения Фишера по выбранному уровню доверия ? и числам степеней свободы ?1 = 1 и ?2 = 8 – 3 = 5 критическую точку

F0,95 (1,5) = 6,61. Поскольку F = 1060,4567 > 6,61 = F0,95 (1,5), то гипотеза Н0 отвергается

, так как она является линейной комбинацией совместно нормально распределенных случайных величин. Дисперсия равна

, тогда оценка дисперсии есть



Проводя рассуждения, аналогичные рассуждениям при выводе t-статистики для гипотезы ?i = ?i0 , получаем



В нашем случае, если справедлива гипотеза Н0 : c`? = , то







|t| = 32,5625 > t0,95(5) = 2,571

Поэтому гипотеза Н0 : ?2 = 4?3 отвергается на 95%-ом доверительном уровне (на 5% уровне значимости) и принимается гипотеза Н1 : ?2 ? 4?3

В) 1) По уравнению регрессии с оцененными параметрами

Ŷi = 1,0649 +1,1446Xi2 + 0,6251Xi3, i =

получим прогноз значения доходности компании А (i = 4)

Ŷ4 = 1,0649 429,828  9 + 0,6251 5 = 14,4918

2) Для определения границ доверительного интервала для среднего Y в точке Х4 вычислим дисперсии прогноза значения Ŷ4





s2 – оценка дисперсии ошибок ?2. Вычислим







Откуда оценка среднего квадратического отклонения прогноза значения



и границы доверительного интервала для 95% уровня доверия

(tc =t0,95(n–k)=t0,95(8 – 3) = t0,95(5) = 2,571) можно определить по формулам

14,4918 – 2,571 · 0,1532 = 14,0980;

14,4918 + 2,571 · 0,1532 = 14,8856.

Таким образом, интервал (14,0980; 14,8856) с вероятностью 0,95 накрывает среднее значение доходности компании.

Индивидуальное (отдельное возможное) значение доходности компании А Y4 с вероятностью 0,95 накрывается интервалом с границами

14,4918 – 2,571 · 0,2137 = 13,9424;

14,4918 + 2,571 · 0,2137 = 15,0412,

то есть интервалом (13,9424; 15,0412), где оценка среднего квадратического отклонения индивидуального значения Y4 вычислена по формуле



Итак, с надежностью 0,95 индивидуальное значение доходности компании А находится в пределах от 13,9424 до 15,0412.

3. Проверим значимость коэффициентов регрессии



0,1733



значим на 5% уровне значимости:

0,0282



значим

0,0266



Устанавливаем незначимость коэффициента на 5% уровне значимости.

Формально переменные, имеющие незначимые коэффициенты регрессии, могут быть исключены из рассмотрения.

г) Пусть Х11 = (1 8 6)` - значения независимых переменных для компании А, то есть Х1 = 1, Х2 = 8 и Х3 = 6.

1) Тогда прогнозная величина доходности компании А равна

1,0649 + 1,1446 · 8 + 0,6251 · 6 = 13,9723;

2) Предположим, что для рассматриваемой доходности компании А справедлива та же модель, что и для других компаний, т.е.

Y11 = X`11? + ?11.









Учитывая, что случайная величина ?11 не коррелированна с ?, имеет

Е[(X`X)-1X` ??11] = (X`X)-1X`E(??11) = 0.

Тогда получаем

Е(Ŷ11 – Y11)2 = ?2 [1 + X`11(X`X)-1X11]

Заметим ?2 на ее оценку s2 и обозначим



Если (?, ?11) имеют совместное нормальное распределение, то случайная величина (Ŷ11–Y11)/? имеет распределение Стьюдента с

n–k= 8–3 = 5

степенями свободы. Поэтому 95%-ый доверительный интервал для Y11 есть

11 – t0,95(5) · ?; Ŷ11 – t0,95(5) ?), (18)

где t0,95(5) = 2,571.

Вычислим





C учетом (16), имеем



Тогда доверительный интервал, для индивидуального значения Y11 при

Х`11 = (1 8 6)` по (18) есть

(13,9723 – 2,571 ·0,2015; 13,9723 + 2,571 · 0,2015)

(13,4543; 14,4903).

Итак, с надежностью 0,95 индивидуальное значение доходности компании А находится от 13,4543 до 14,4903.

д) Для вычисления коэффициента детерминации R2 проведем некоторые преобразования











то есть



Или







= 1,0649 · 66,4 + 296,4 ·1,1446 + 299,6 · 0,6251 = 597,2488,



По формуле (19) находим коэффициент детерминации R2 .



Коэффициент детерминации R2 = 0,9976 свидетельствует о том, что вариация исследуемой зависимой переменной Y на 99,76 % объясняется изменчивостью включенных в модель объясняющих переменных. Следует отметить, что если бы рассматривали только одну объясняющую переменную Х2, оценка коэффициента ?2 при которой значима, (то есть регрессию Y на константу и Х2), то можно получить по формуле





Так как в случае одной объясняющей переменной коэффициент детерминации равен квадрату выборочного коэффициента корреляции между Х2 и Y. Сравнивая значения R2 и R22 , можно сказать, что добавление второй объясняющей переменной Х3 значительно увеличило коэффициент детерминации, определяющий качество подгонки модели. Это объясняется положением о незначимости коэффициента при переменной Х3.

статистически значимо -

(иначе – гипотеза Н0 о равенстве нулю параметров регрессионной модели, то есть Н0 : ?2 = ?3 = … = ?к = 0, отвергается), если выполняется соотношение



детерминации, F` (k – 1, n – k) = F1- (k – 1, n – k) = F? (k – 1, n – k)

Табличное значение F- критерия Фишера с числами степеней свободы

?1 = k – 1, ?1 = n – k при уровне значимости  (при уровне доверия ? = 1 - ). Эту гипотезу Н0 называют гипотезой об общей значимости.

Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние к – 1 объясняющих переменных Х2, …, Хк

1 = (1.1.1…1)`) модели на зависимую переменную Y можно считать статистически несущественным, а общее качество уравнения невысоким.

Зная R2 = 0,9976 проверим значимость уравнения регрессии. фактическое значение F-статистики определяется по формуле





Оно больше табличного F0,95(2,5) = 5,79, определенного на уровне значимости  = 0,05 при к = 3 – 1 = 2, к2 = 8 – 3 = 5 степенях свободы, то есть уравнение регрессии значимо, следовательно, исследуемая зависимая переменная Y достаточно хорошо описывается включенными в регрессионную модель переменными Х2 и Х3.

Задача 3

При изучении финансовой деятельности компании в течение некоторого времени был собран статистический материал. В таблице 3 содержатся данные о ежемесячной прибыли Х1(тыс. руб) вложении капитала в ценные бумаги Х2(тыс.руб) и расходах на рекламу Х3(тыс.руб)

а) Определить матрицу выборочных парных коэффициентов корреляции;

б) Вычислить выборочные коэффициенты частной корреляции между переменными Х2 и Х3; Х2 и Х1; Х3 и Х1 и оценить их значимость на уровне  = 0,05;

в) Установить тесному связи между Х2 и Х1;

г) Определить тесноту связи между Х1 и величинами Х2 и Х3, используя множественный коэффициент корреляции RX1 . Проверить на уровне значимости  = 0,05 значимость RX1 .

Решение а) Вычислим матрицу выборочных парных коэффициентов корреляции. Для этого составим расчетную таблицу 4.

I

Xi2

Xi3

Xi1

X2i2

X2i3

X2i1

Xi2· Xi3

Xi2· Xi1

Xi3· Xi1

1

17

20

27

289

400

729

340

459

540

2

1

4

5

1

16

25

4

5

20

3

11

14

17

121

196

289

154

187

238

4

5

8

11

25

64

121

40

55

88

5

3

6

8

9

36

64

18

24

48

6

4

7

9

16

49

81

28

36

63

7

12

14

18

144

196

324

168

216

252

?

53

73

95

605

957

1633

752

982

1249

Из расчетов, проведенных в таблице 4, получим:

?Xi2 = 53; ?Xi3 = 73; ?Xi1 =95; ?X2i2 =605; ?X2i3 = 957;

?X2i1 =1633; ?Xi2·Xi3 = 752; ?Xi2·Xi1 = 982; ?Xi3·Xi1 =1249.

Эти значения можно получить также как элементы произведения следующих матриц:





Используя формулу



Найдем выборочные парные коэффициенты корреляции







Матрица выборочных парных коэффициентов корреляции имеет вид



Выборочные коэффициенты частной корреляции между переменными Х1 и Х2, Х1 и Х3, Х2 и Х3 равны соответственно







где Аij – алгебраическое дополнение элемента rij матрицы А из (1).

в) Учитывая, что r12·3 = -0,1894, r13·2 = 0,6634 делаем вывод о том, что связь между Х1 и Х2 является связью «Слабой», так что в основном финансовая деятельность компании зависит от ежемесячной прибыли

г) Теснота линейной связи переменной Х1 с совокупностью переменных Х2 и Х3 измеряется с помощью множественного коэффициента корреляции , который вычисляется по формуле



где det A и A11 – определить матрицы А и алгебраическое дополнение элемента матрицы А из (1) соответственно.

С учетом вычисленных значений имеем



Значит связь между Х1 и величинами Х2 Х3 очень тесная. Для проверки значимости составим F-статистику



При уравнении значимости  = 0,05 (? = 1 -  = 0,95) и числам степеней свободы к1 = к – 1 = 2, к2 = n – k = 7 – 3 = 4 критическое значение распределения Фишера равно Fкр = F0,95(2,4) = 6,94. Так как F = 185,9648 > Fкр, то выборочный множественный коэффициент корреляции является заведомо незначимым. Таким образом, связь между финансовой деятельностью компании и ежемесячной прибыли является тесной.


Задача 4

На основе квартальных данных с 1971 по 1976 г. с помощью метода наименьших квадратов (МНК) получено следующее уравнение:

Yi = (1,12 + 0,1 · N) – (0,0098 + 0,001 · N)Xi1 – (4,62 + 0,1 · N)Xi2 +

[ 1,25 + 0,05 · N] [0,0043 + 0,0001 · N] [ 2,03 + 0,05 · N]

+ (0,044 + 0,001 · N)Xi3 + ?i , i = 1,2,…,n,

[0,009 + 0,0001 · N]

а) Проверьте значимость каждого из коэффициентов регрессии. Уровень значимости  = 0,05;

б) Найдите коэффициент детерминации R2;

в) Протестируйте значимость регрессии в целом. Уровень значимости  = 0,05;

г) Когда в уравнение были добавлены три фиктивные переменные, соответствующие трем первым кварталам года, величина RSS увеличилась до

118,20 + 0,01 · N. Проверьте гипотезу о наличии сезонности, сформулировав необходимые предположения о виде этой сезонности;

д) Для той же исходной модели были раздельно приведены две регрессии на основе данных:

1-й квартал 1971 – 1-й квартал 1975 г. и 2-ой квартал 1975 г. – 4-й квартал 1976 г. соответственно и получены следующие значения сумм квадратов остатков: ESS1 = 12,25 + 0,01N, ESS2 = 2,32 + 0,01N. Проверьте гипотезу о том, что между 1-м и 2-м кварталами 1975 г. произошло структурное изменение.

Решение

На основе квартальных данных с 1971 по 1976 г. с помощью метода наименьших квадратов (МНК) получено следующее уравнение:

Ŷ1 = 4,32 – 0,0418 Xi1 – 7,82 Xi2 + 0,076 Xi3 , где

(2,85) (0,0066) (3,63) (0,0122)

В скобках указаны стандартные ошибки коэффициентов регрессии и

RSS = 110,64, ESS = 21,75.

а) Заметим, что n=24 (6 лет по 4 квартала), к = 4.

Для проверки значимости каждого коэффициента регрессии тестируем гипотезы Н0 : ?i = 0, i = 1,2,3,4 на 5% уровне значимости. Вычислим F-статистику ti = ?i / s?i , i = 0,1,2,3 и по абсолютной сравниваем ее

с t` (n – k) = t1- , что миежду 1-м и 2-м кварталами 1975 г. ов: снове данных:

иде этой сезонности;

а основе квартальных данных с 1971 по 1976 г. тью компании и ежемесячной прибыли является тесной.NNNN jh(n – k)= t0,95(24-4) = t0,95(20) = 2,086,

где t0,95(20) = 2,086 – критическое значение распределения Стьюдента при уровне значимости  = 0,05 и по числу степеней свободы n – k = 20:



Откуда, статистически незначимым (на 5% уровне) можно считать первый коэффициент, а именно ?0, статистически значимыми — второй, третий и четвертый (?1 , ?2, ?3 ).



в) Тестируем гипотезу Н0 : ?1 = ?2 = ?3 = 0 при уровне значимости  = 0,05.

Воспользуемся статистикой



где F`0,05 (k – 1, n – k) = F1-(k – 1, n – k) = F0,95(3,20) = 3,098 – критическое значение распределения Фишера по уровню значимости  = 0,05 и числам степеней свободы ?1 = k – 1 = 4 – 1 = 3, ?2 = n – k = 24 – 4 = 20.

Следовательно, нулевая гипотеза отклоняется, так как F>F0,95 (3,20), что равносильно тому, что R2>0 , т.е. R2 статистически значим.

Значит, регрессию в целом считаем статистически значимой на 5% уровне.

г) Поскольку в уравнение добавлено три фиктивные сезонные переменные, то тем самым предполагается, что возможны сезонные колебания среднего значения Y. Другими словами, теперь рассматривается уравнение

Yi = ?0 + ?1Xi1 + ?2 Xi2 + ?3 Xi3 + ?4di4 + ?5di2 + ?6di3 + ?i.

Для этого уравнения тестируем гипотезу Н0 : ?4 = ?5 = ?6 = 0

(об отсутствии сезонности) на 5% уровне значимости. Воспользуемся



RSSUR = 118,52, RSSR = 110,64. Поскольку TSSR = TSSUR = TSS, то

ESSR – ESSUR = (TSS – RSSR) – (TSS – RSSUR) = RSSUR – RSSR = 118,52 – 110,64 = 7,88, ESSUR = TSS – RSSUR = 132,39 – 118,52 = 13,87,



Гипотезу об отсутствии сезонности, таким образом, отвергаем на 5 % уровне значимости (с вероятностью ошибиться на 5%).

д) Для проверки гипотезы об отсутствии структурного изменения между первым и вторым кварталами 1975 г. воспользуемся тестом Г.Чоу.



Здесь ESSR = 21,75, ESSUR = ESS1 + ESS2 = 12,57 + 2,64 = 15,21,

m + n = 24, k = 4,



Нулевая гипотеза (уравнения для первого и второго периода одинаковы) не отвергается на 5% уровне значимости. Считаем, что структурного изменения не произошло.





Учебный материал
© bib.convdocs.org
При копировании укажите ссылку.
обратиться к администрации