Лекции по статистике - файл n14.doc

Лекции по статистике
скачать (762 kb.)
Доступные файлы (13):
n2.doc247kb.11.09.2007 17:25скачать
n3.doc155kb.08.10.2007 14:57скачать
n4.doc132kb.29.12.2007 17:50скачать
n5.doc161kb.03.12.2007 15:42скачать
n6.doc279kb.15.10.2007 23:44скачать
n7.doc158kb.20.09.2007 00:56скачать
n8.doc256kb.19.09.2007 20:22скачать
n9.doc69kb.22.10.2007 14:53скачать
n10.doc185kb.22.10.2007 15:01скачать
n11.doc233kb.22.10.2007 18:54скачать
n12.doc109kb.01.10.2007 21:01скачать
n13.docскачать
n14.doc292kb.21.11.2007 16:10скачать

n14.doc


Тема 9. статистические методы анализа
корреляционных связей

9.1. Виды взаимосвязей.


Большинство экономических явлений имеет вероятностный или случайный характер, то есть, в реальных условиях очень трудно со 100% уверенностью предвидеть развитие того или иного экономического объекта. Естественно, это факт приводит к некоторым осложнениям, и требует наличия у управленческого персонала современных предприятий навыков в области предсказания неопределенного будущего – навыков экстраполирования. Экстраполяция сводится к обнаружению закономерностей, скрытых среди случайностей прошлого и настоящего периодов, и переносу этих закономерностей на будущее.

Как правило, исследование случайных (корреляционных) взаимоотношений сводится к адаптации реальных вероятностных взаимосвязей к логике функциональных зависимостей, то есть другими словами, нужно определить и аналитически выразить («проявить») форму предполагаемой зависимости и потом исследовать ее.

При исследовании социально-экономических явлений часто приходится иметь дело с взаимоувязанными показателями. При чем часто связь, которая существует между двумя или несколькими показателями, затушевывается, осложняется наслоением действия других причин (факторов). Изучить, насколько изменение одного показателя связано с изменением другого (или нескольких), – одна из самых важных задач статистики.

Признаки, которые характеризуют причины и условия связи называют факторными (), а те, которые характеризуют последствия связи, – результативными ().

Следует отличать функциональные и корреляционные связи. При функциональной связи каждому значению переменной отвечает одно четко определенное значение . Эта связь выявляется однозначно в каждом отдельном случае. Связь, при которой одному значению переменной может отвечать (вследствие наслоения действия других причин) множество значений другой переменной, называют корреляционным (при изменении изменяется среднее значение). Корреляционная связь проявляется только на основе массового наблюдения.

Примером корреляционной связи может служить зависимость производительности труда от стажа работы работников, зависимость урожайности от срока сева, зависимость проданных на бирже недвижимости однокомнатных квартир от их стоимости и размера общей площади.

Наиболее простым случаем корреляционной зависимости является парная корреляция, то есть связь между двумя признаками (результативным и одним факторным).

Основными заданиями при изучении корреляционных зависимостей является:

1) отыскивание математической формулы, которая бы отражала зависимость от;

2) измерение тесноты связи.

Определение формы связи со следующим отыскиванием параметров уравнения, называется нахождением уравнения связи (уравнение регрессии). Уравнение регрессии записывается (читается: „игрек, выровненный по икс”).

В зависимости от характера связи используют:

линейные уравнения (прямолинейная связь): когда с изменением , признак изменяется более-менее равномерно;

нелинейные уравнения (криволинейная связь), когда изменение взаимоувязанных признаков происходит неравномерно (с ускорением, замедлением или с переменным направлением связи): параболическое, гиперболическое, и т.п. Параметры для всех уравнений определяют из системы нормальных уравнений, которая строится с помощью метода наименьших квадратов (МНК).

9.2. Метод наименьших квадратов.


Сущность метода наименьших квадратов заключается в отыскании параметров модели тренда, которая лучше всего описывает тенденцию развития какого-либо случайного явления во времени или в пространстве (тренд – это линия, которая и характеризует тенденцию этого развития). Задача метода наименьших квадратов (МНК) сводится к нахождению не просто какой-то модели тренда, а к нахождению лучшей или оптимальной модели. Эта модель будет оптимальной, если сумма квадратических отклонений между наблюдаемыми фактическими величинами и соответствующими им расчетными величинами тренда будет минимальной (наименьшей):

(9.1)
где - квадратичное отклонение между наблюдаемой фактической величиной

и соответствующей ей расчетной величиной тренда,

- фактическое (наблюдаемое) значение изучаемого явления,

- расчетное значение модели тренда,

- число наблюдений за изучаемым явлением.

МНК самостоятельно применяется довольно редко. Как правило, чаще всего его используют лишь в качестве необходимого технического приема при корреляционных исследованиях. Следует помнить, что информационной основой МНК может быть только достоверный статистический ряд, причем число наблюдений не должно быть меньше 4-х, иначе, сглаживающие процедуры МНК могут потерять здравый смысл.

Инструментарий МНК сводится к следующим процедурам:

Первая процедура. Выясняется, существует ли вообще какая-либо тенденция изменения результативного признака при изменении выбранного фактора-аргумента, или другими словами, есть ли связь между «у» и «х».

Вторая процедура. Определяется, какая линия (траектория) способна лучше всего описать или охарактеризовать эту тенденцию.

Третья процедура. Рассчитываются параметры регрессионного уравнения, характеризующего данную линию, или другими словами, определяется аналитическая формула, описывающая лучшую модель тренда.

Пример. Допустим, мы имеем информацию о средней урожайности подсолнечника по исследуемому хозяйству (табл. 9.1).

Таблица 9.1

Номер наблюдения

1

2

3

4

5

6

7

8

9

10

Годы

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

Урожайность, ц/га

14,2

15,6

17,5

14,5

15,3

17,0

16,6

17,5

15,0

17,7


Поскольку уровень технологии при производстве подсолнечника в нашей стране за последние 10 лет практически не изменился, значит, по всей видимости, колебания урожайности в анализируемый период очень сильно зависели от колебания погодно-климатических условий. Действительно ли это так?

Первая процедура МНК. Проверяется гипотеза о существовании тенденции изменения урожайности подсолнечника в зависимости от изменения погодно-климатических условий за анализируемые 10 лет.

В данном примере за «y» целесообразно принять урожайность подсолнечника, а за «x» – номер наблюдаемого года в анализируемом периоде. Проверку гипотезы о существовании какой-либо взаимосвязи между «x» и «y» можно выполнить двумя способами: вручную и при помощи компьютерных программ. Конечно, при наличии компьютерной техники данная проблема решается сама собой. Но, чтобы лучше понять инструментарий МНК целесообразно выполнить проверку гипотезы о существовании связи между «x» и «y» вручную, когда под рукой находятся только ручка и обыкновенный калькулятор. В таких случаях гипотезу о существовании тенденции лучше всего проверить визуальным способом по расположению графического изображения анализируемого ряда динамики - корреляционного поля:






Корреляционное поле в нашем примере расположено вокруг медленно возрастающей линии. Это уже само по себе говорит о существовании определенной тенденции в изменении урожайности подсолнечника. Нельзя говорить о наличии какой-либо тенденции лишь тогда, когда корреляционное поле похоже на круг, окружность, строго вертикальное или строго горизонтальное облако, или же состоит из хаотично разбросанных точек. Во всех остальных случаях следует подтвердить гипотезу о существовании взаимосвязи между «x» и «y», и продолжить исследования.

Вторая процедура МНК. Определяется, какая линия (траектория) способна лучше всего описать или охарактеризовать тенденцию изменения урожайности подсолнечника за анализируемый период.

При наличии компьютерной техники подбор оптимального тренда происходит автоматически. При «ручной» обработке выбор оптимальной функции осуществляется, как правило, визуальным способом – по расположению корреляционного поля. То есть, по виду графика подбирается уравнение линии, которая лучше всего подходит к эмпирическому тренду (к фактической траектории).

Как известно, в природе существует огромное разнообразие функциональных зависимостей, поэтому визуальным способом проанализировать даже незначительную их часть - крайне затруднительно. К счастью, в реальной экономической практике большинство взаимосвязей достаточно точно могут быть описаны или параболой, или гиперболой, или же прямой линией. В связи с этим, при «ручном» варианте подбора лучшей функции, можно ограничиться только этими тремя моделями.


Прямая:




Гипербола:








Парабола второго порядка: :



Нетрудно заметить, что в нашем примере лучше всего тенденцию изменения урожайности подсолнечника за анализируемые 10 лет характеризует прямая линия, поэтому уравнением регрессии будет уравнение прямой.

Третья процедура. Рассчитываются параметры регрессионного уравнения, характеризующего данную линию, или другими словами, определяется аналитическая формула, описывающая лучшую модель тренда.

Нахождение значений параметров уравнения регрессии, в нашем случае параметров и , является сердцевиной МНК. Данный процесс сводится к решению системы нормальных уравнений.
(9.2)
Эта система уравнений довольно легко решается методом Гаусса. Напомним, что в результате решения, в нашем примере, находятся значения параметров и . Таким образом, найденное уравнение регрессии будет иметь следующий вид:

В линейном уравнении параметр коэффициент регрессии указывает, на сколько единиц в среднем изменится с изменением на единицу. Он имеет единицу измерения результативного признака. В случае прямой связи – величина положительная, а при обратном – отрицательная. Параметр – свободный член уравнения регрессии, то есть это значениепри . Если не получает нулевых значений, этот параметр имеет лишь расчетное назначение.

Приведем также системы нормальных уравнений для отыскивания параметров нелинейных уравнений.

Таблица 9.2


Форма связи

Уравнение связи

Система нормальных уравнений

параболическая





гиперболическая






Следует помнить, что при изменении хотя бы одного значения входных данных (пары значенийили одного из них) все коэффициенты изменят в общем случае свои значения, потому что они полностью определяются входными данными. Поэтому при повторной аппроксимации с несколькими измененными данными будет получена другая аппроксимирующая функция с другими коэффициентами.

9.3. Измерение тесноты связи.


Измерение тесноты связи может быть решено посредством расчета теоретического корреляционного отношения.

Тремя основными целями анализа двумерных данных, представленных парами (х, у), являются: (1) описание и понимание взаимосвязи, (2) прогнозирование и предсказание нового наблюдения и (3) корректировка и управление процессом.

Корреляционный анализ позволяет сделать вывод о силе взаимосвязи, а регрессионный анализ используется для прогнозирования одной переменной на основании другой (как правило, у на основании х).

Двумерные данные анализируют с использованием диаграммы рассеяния в координатах у и х, которая дает визуальное представление о взаимосвязи в данных. Корреляция, или точнее линейный коэффициент корреляции (r), представляет собой безразмерное (не имеющее единиц измерения) число в диапазоне от -1 до 1, которое характеризует силу взаимосвязи. Равенство коэффициента корреляции 1 свидетельствует об идеальной взаимосвязи в виде прямой линии с наклоном вверх. Равенство коэффициента корреляции -1 свидетельствует об идеальной взаимосвязи в виде наклоненной вниз (отрицательно) прямой линии. Коэффициент корреляции говорит о том, насколько близко к этой наклоненной прямой линии расположены точки диаграммы, однако он не характеризует крутизну наклона этой линии. В случае линейной связи корреляционное отношение может быть заменено линейным коэффициентом корреляции (), вычисленным посредством формул, которые тождественны между собой:

(9.3)

(9.4)

(9.5)

где – коэффициент регрессии в уравнении связи

– соответственно среднее квадратичное отклонение в ряду и ;

– средние соответствующих величин;

– количество наблюдений;

– стандартные отклонения.

(9.6)
Ковариация х и у представляет собой числитель в формуле (9.5) для коэффициента корреляции. Поскольку единицы измерения ковариации трудно интерпретировать, удобнее работать с коэффициентом корреляции.

При анализе двумерной диаграммы рассеяния можно обнаружить различные взаимосвязи. Простейшей, с точки зрения анализа, является линейная взаимосвязь, которая выражается в том, что точки на диаграмме рассеяния с постоянным разбросом группируются случайным образом вдоль прямой линии. Диаграмма свидетельствует об отсутствии взаимосвязи, если точки размещены случайно и при перемещении слева направо невозможно обнаружить какой-либо уклон (ни вверх, ни вниз). Двумерная диаграмма рассеяния характеризуется нелинейной взаимосвязью, если точки на ней группируются вдоль кривой, а не прямой линии. Поскольку количество видов кривых практически безгранично, анализ нелинейной взаимосвязи оказывается намного сложнее, однако взаимосвязь можно приблизить к линейной, применив к данным соответствующее преобразование. Проблема неравной вариации возникает тогда, когда при перемещении по горизонтали на диаграмме рассеяния вариация точек по вертикали сильно меняется. Неравная вариация приводит к снижению надежности коэффициента корреляции и регрессионного анализа. Проблему неравной вариации можно решить с помощью соответствующих преобразований данных или с помощью, так называемой взвешенной регрессии. Проблема кластеринга (разделение совокупности на группы более однородных объектов) возникает в случае образования на диаграмме рассеяния отдельных, ярко выраженных групп точек. В таких случаях каждую группу следует анализировать отдельно. Некоторая точка данных является выбросом (резко отклоняющимся значением), если она не соответствует взаимосвязи между остальными данными; резко отклоняющиеся значения могут исказить статистические характеристики двумерной совокупности данных.

Корреляцию нельзя рассматривать как причинную обусловленность. Коэффициент корреляции характеризует связь между числами, но не объясняет ее. Корреляция может быть вызвана тем, что переменная х влияет на у, или тем, что переменная у влияет на х. Кроме того, корреляция может быть вызвана также тем, что на х и у влияет некий скрытый "третий фактор", что создает впечатление связи между х и у Термином ложная корреляция обозначают высокую корреляцию, которая возникает благодаря действию некоторого третьего фактора.

9.4. Регрессионный анализ.


Регрессионный анализ заключается в прогнозировании одной переменной на основании другой. Линейный регрессионный анализ прогнозирует значение одной переменной на основании другой с помощью прямой линии. Наклон этой линии, выражается в единицах измерения у на одну единицу х и характеризует крутизну подъема или спуска (если b отрицательное) линии. Сдвиг, a, равен значению, которое принимает у при х, равном 0.

Линия наименьших квадратов характеризуется наименьшей из всех возможных линий суммой возведенных в квадрат ошибок прогнозирования по вертикали и используется как лучшая линия прогнозирования, основанная на данных. Наклон этой линии, b, называют также коэффициентом регрессии у по х, а сдвиг а (отрезок отсекаемый на оси у) называют также постоянным членом регрессии.

(9.7)

(9.8)

Прогнозируемое значение для у при заданном значении х определяется путем подстановки этого значения х в уравнение для линии наименьших квадратов. Каждая из точек данных характеризуется остатком ошибкой прогнозирования, указывающей, насколько выше или ниже линии находится точка.

Существуют две меры соответствия линии наименьших квадратов имеющимся данным. Стандартная ошибка оценки, которую обозначают , приблизительно указывает величину ошибок прогнозирования (остатков) для имеющихся данных в тех же единицах, в которых измерена и переменная у. Соответствующие формулы приведены ниже.

Для вычисления:

(9.9)

Для интерпретации:

(9.10)

Значение , часто называемое коэффициентом детерминации, говорит о том, какой процент вариации у объясняется поведением х.

Доверительные интервалы и проверка гипотез для коэффициента регрессии связаны с определенными предположениями относительно анализируемой совокупности данных, которые должны гарантировать, что она состоит из независимых наблюдений, характеризующихся линейной взаимосвязью с равной вариацией и приблизительно нормально распределенной случайностью. Во-первых, эти данные должны представлять собой произвольную выборку из интересующей нас генеральной совокупности. Во-вторых, линейная модель указывает, что наблюдаемое значение у определяется взаимосвязью в генеральной совокупности плюс случайная ошибка, имеющая нормальное распределение. Существуют параметры генеральной совокупности, соответствующие наклону и сдвигу линии наименьших квадратов, построенной на данных выборки:
(9.11)
где – взаимосвязь в генеральной совокупности;

– случайность, которая имеет нормальное распределение со средним значением, равным 0, и постоянным стандартным отклонением .

Статистические выводы (использование доверительных интервалов и проверки статистических гипотез) относительно коэффициентов линии наименьших квадратов основываются, как обычно, на их стандартных ошибках и значениях из
t-таблицы для п – 2 степеней свободы.

Стандартная ошибка коэффициента наклона, , указывает приблизительную величину отклонения оценки наклона, b (коэффициент регрессии, вычисленный на основе данных выборки), от наклона в генеральной совокупности, ?, вызванного случайным характером выборки.

(9.12)

Стандартная ошибка сдвига, , указывает приблизительно, насколько далеко оценка сдвига а отстоит от истинного сдвига ? в генеральной совокупности.

(9.13)

Доверительный интервал для наклона в генеральной совокупности, ?:

. (9.14)

Доверительный интервал для сдвига в генеральной совокупности, ?:

. (9.15)

Один из способов проверки, является ли обнаруженная взаимосвязь между х и у реальной или это просто случайное совпадение, заключается в сравнении ? с заданным значением ?0 = 0. О значимой связи можно говорить в том случае, если 0 не попадает в доверительный интервал, базирующийся на b и Sb, или если абсолютное значение t = b/Sb превосходит соответствующее t-значение в t-таблице. Эта проверка эквивалентна проверке значимости коэффициента корреляции и означает, по сути, то же самое, что и F-тест для случая, когда уравнение содержит только одну переменную х. Разумеется, любой из коэффициентов (a или b) можно сравнить с любым подходящим заданным значением, воспользовавшись одно- или двусторонней проверкой (в зависимости от конкретных обстоятельств) и с использованием тех же методов проверки, что были рассмотрены для среднего генеральной совокупности.

Для прогнозирования среднего значения нового наблюдения у при условии, что х = х0, неопределенность прогноза оценивают с помощью стандартной ошибки , которая также имеет п – 2 степеней свободы. Это позволяет построить доверительные интервалы и проверить гипотезы для нового наблюдения:

(9.16)

Доверительный интервал для прогнозируемого (среднего) значения у при заданном значении х0 имеет следующий вид:

от до . (9.17)




Учебный материал
© bib.convdocs.org
При копировании укажите ссылку.
обратиться к администрации