Лекции по статистике - файл n5.doc

Лекции по статистике
скачать (357 kb.)
Доступные файлы (9):
n1.doc239kb.05.06.2008 19:46скачать
n2.doc139kb.15.10.2003 12:41скачать
n3.doc161kb.17.10.2003 11:51скачать
lec-cv.doc111kb.04.01.2003 23:17скачать
n5.doc556kb.12.10.2003 23:56скачать
n6.doc520kb.12.04.1999 02:33скачать
n7.doc218kb.29.09.2003 00:06скачать
n8.doc526kb.23.02.2000 01:54скачать
n9.doc88kb.27.03.2000 08:26скачать

n5.doc



ПОКАЗАТЕЛИ ВАРИАЦИИ

Вариацией называется колеблемость, многообразие, изменяемость величины признака. Вариация зависит от различных факторов и их сочетаний в каждом конкретном случае. Например, успеваемость зависит от способности, усидчивости, социальных условий и т.д.

Вариация бывает случайной и систематической. Измерение вариации дает возможность оценить степень воздействия на данный признак других варьирующих признаков. Определение вариации необходимо при организации выборочного наблюдения, построении статистических моделей и т.д.

Вариация существует в пространстве и во времени. Под вариацией в пространстве понимается колеблемость значений признака по различным территориям. Вариация во времени подразумевает изменение значений признака в различные периоды или моменты времени.

Показатели вариации делятся на две группы: абсолютные и относительные. К абсолютным относятся размах вариации, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение. Относительные показатели вариации: коэффициенты осцилляции, вариации, относительное линейное отклонение.

Размах вариации показывает наибольшее различие между единицами совокупности и рассчитывается как разность между наибольшим и наименьшим значениями варьирующего признака.

Он выражается именованными числами как и варианты. Размах вариации важный показатель колеблемости признака, но не исчерпывающий его характеристику.

Для анализа вариации используется средняя величина, вокруг которой происходят колебание и рассеяние значений признака. При обобщении этих колебаний снова применяется метод средних, чтобы найти среднюю величину этих отклонений. Такая средняя называется средним линейным отклонением (), которое вычисляется как средняя арифметическая из абсолютных значений отклонений вариант от средней:

(простая средняя),

(взвешенная средняя).

Абсолютная величина используется для того, чтобы не получить нулевое значение в числителе при круглых скобках. Чтобы иметь дело только с положительными величинами, все отклонения были возведены во вторую степень. Этот показатель называется дисперсией или средним квадратом отклонения.

простая дисперсия,

взвешенная дисперсия.

Среднее квадратическое отклонение (стандартное отклонение в зарубежной литературе):

или

Показатели относительного рассеивания используется для сравнения колеблемости различных признаков в одной и той же совокупности или при сравнении одного и того же признака в нескольких совокупностях.

Коэффициент осцилляции ():

.

Линейный коэффициент вариации :

.

Коэффициент вариации :



Пример. Распределение предприятий по объему товарооборота.

Группы предпри-ятий по объему товарооборота, тыс. руб.

Число предпри-ятий,



Расчетные показатели













90-100

28

95

2660

10

280

100

2800

100-110

48

105

5040

0

0

0

0

110-120

20

115

115

10

200

100

2000

120-130

4

125

125

20

80

400

1600

Итого:

100




10500




560

600

6400

тыс. руб. тыс. руб.

R= 130-90=40 тыс. руб. тыс. руб.

тыс. руб.

; ;

Вариация альтернативного признака.

Когда имеются два, исключающие друг друга варианта, наличие признака обозначается через 1, а его отсутствие через 0. Например, наличие бракованной продукции, ученая степень и т.д.

Дисперсия альтернативного признака определяется по формуле:

, где

р – доля единиц в совокупности, обладающих данным признаком,

q - доля единиц в совокупности, не обладающих данным признаком.

Среднее квадратическое отклонение альтернативного признака:

.

Показатели вариации альтернативных признаков щироко используются в статистике, например при проектировании выборочного наблюдения, обработке данных социологических обследований, статистическом контроле качества продукции и т.д.

Пример. По данным налоговой полиции исчислим дисперсию альтернативного признака. В городе проверено 86 коммерческих киосков. В 37 обнаружены финансовые нарушения.

N=86, n=37, p=37/86=0,43; q=1-0,43=0,57.

Дисперсия и среднее квадратическое отклонение доли коммерческих киосков, имеющих финансовые нарушения, во всей совокупности равны:

=0,245;



СВОЙСТВА ДИСПЕРСИИ


  1. Дисперсия постоянной величины равна нулю.

  2. Если у всех значений вариант отнять какое-то постоянное число А, то средний квадрат отклонений от этого не изменится.

,

т.е. дисперсию можно вычислить не по заданным значениям признака, а по их отклонениям от какого-то постоянного числа.

  1. Если все значения вариант разделить на какое-то постоянное число А, то средний квадрат отклонений уменьшится от этого в раз.

.

4. Если исчислить средний квадрат отклонений от любой величины А, которая отличается от средней арифметической величины , то он всегда будет больше среднего квадрата отклонений , исчисленного от средней арифметической на величину . Значит дисперсия имеет свойство минимальности.

отсюда

.

Для А=0 .

Используя 3 и 4 свойства, получим формулу для вычисления дисперсии способом моментов или способом отсчета от условного нуля.

,

где i – величина интервала, - моменты первого и второго порядка:

, ,

т.о. отражает тенденцию развития ,т.е. действие главных факторов, а измеряет силу воздействия прочих факторов.
Пример.

Распределение предприятий по объему товарооборота


Группы предприятий по объему товаро-оборота, млн. руб.

Число предприя-тий,











60-80

21

70

1470

-2

-42

84

80-100

27

90

2430

-1

-27

54

100-120

24

110

2640

0

0

0

120-140

16

130

2080

1

16

32

140-160

8

150

1200

2

16

32

160-180

4

170

680

3

12

24

Итого

100




10500




-25

195


млн. руб.; ; ;

755 ; млн. руб.

ВИДЫ ДИСПЕРСИЙ. ПРАВИЛО СЛОЖЕНИЯ ДИСПЕРСИЙ



Для того, чтобы определить влияние отдельных факторов, характеризующих колеблемость индивидуальных значений признака, нужно разделить изучаемую совокупность на группы, однородные по признаку- фактору. При этом можно определить три вида дисперсии: общую дисперсию, межгрупповую и внутригрупповую дисперсию. Общая дисперсия измеряет вариацию признака во всей совокупности под влиянием всех факторов: .

Межгрупповая дисперсия () отражает вариацию изучаемого признака, которая возникает под влиянием признака фактора, положенного в основу группировки. Она характеризует колеблемость групповых средних около общей средней .



Внутригрупповая дисперсия () отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки:



Средняя из внутригрупповых дисперсий :

,

где и соответственно групповые средние и численности по отдельным группам.

Общая дисперсия равна сумме межгрупповой и средней из внутригрупповых дисперсий:

.

Данное соотношение называется правилом сложения дисперсий. Правило сложения дисперсий широко применяется при исчислении показателей тесноты связи, в дисперсионном анализе и др. случаях.

Показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии, называется эмпирическим коэффициентом детерминации:

.

Этот коэффициент показывает долю общей вариации изучаемого признака, обусловленную вариацией группировочного признака.

Эмпирическое корреляционное отношение равно корню квадратному из эмпирического коэффициента детерминации.



Оно характеризует влияние признака, положенного в основание группировки, на вариацию результативного признака. .

Если , то группировочный признак не оказывает влияния на результативный, если , то результативный признак изменяется только в зависимости от признака, положенного в основание группировки, а влияние прочих факторов равно нулю.

КВАНТИЛИ


В вариационных рядах распределения кроме медианы можно определить квартили, децили, процентили (перцентили), которые получили название квантили.

Квартили представляют собой значение признака, делящее ранжированную совокупность на четыре равновеликие части.

- нижний квартиль, отделяющий ј часть совокупности с наименьшими значениями признака.

- средний квартиль или медиана.

- верхний квартиль, отсекающий ј часть совокупности с наибольшими значениями признака.

Это значит , что 25 % единиц совокупности будет меньше , 25 % - находится между и , 25 % - между и , а остальные 25 % - больше .

Децили - варианты, делящие ранжированный ряд на 10 равных частей. Первый дециль отделяет от начала совокупности 1/10 ряда , второй – 2/10 ряда и т.д.

Перцентили – варианты, делящие совокупность на 100 равных частей. Они используются для детального изучения структуры вариационного ряда.

Применение квантилей позволяет более глубоко и детально охарактеризовать изучаемую совокупность.

децили




процентили

(перцентили)

………


медиана

квартили

МОМЕНТЫ РАСПРЕДЕЛЕНИЯ



Моменты распределения изучаются для характеристики вариационного ряда. Моментом k-го порядка называется средняя арифметическая из k –ой степени отклонений отдельных вариантов от некоторой постоянной величины А

,

где А – величина, от которой определяются отклонения, k –порядок момента.

В зависимости от того, что принимают за величину А, различают три вида моментов:

при А=0 - начальные моменты;

при А= - центральные моменты; а в остальных случаях – условные моменты.

В статистике находят применение моменты первых четырех порядков.

Порядок

момента

Начальные

моменты

Центральные

моменты

Условные

моменты

1







2







3







4









Центральный момент первого порядка всегда равен нулю, согласно свойству средней арифметической.

Центральный момент второго порядка представляет собой дисперсию и служит основной мерой колеблемости признака.

Центральный момент третьего порядка равен нулю в симметричном распределении и используется в качестве характеристики асимметрии ряда.

Центральный момент четвертого порядка применяется при вычислении показателя эксцесса.

Начальные и условные моменты 2, 3 и 4 порядка самостоятельного значения не имеют, а используются для упрощения вычислений центральных моментов, например, дисперсия.

ЗАКОНОМЕРНОСТИ РАСПРЕДЕЛЕНИЯ



В вариационных рядах с увеличением значения варьирующего признака частоты сначала увеличиваются, а затем после достижения максимальной величины в середине ряда уменьшаются. Это свидетельствует о том, что частоты в вариационных рядах изменяются закономерно в связи с изменением варьирующего признака. Такие закономерности распределения частот в вариационных рядах называются закономерностями распределения.

Важнейшая цель статистического изучения вариационных рядов распределения состоит в том, чтобы выявить закономерность распределения и определить ее характер. Так как статистические закономерности наиболее отчетливо проявляются при массовом наблюдении, то для выявления этих закономерностей построение вариационных рядов производится для достаточно больших совокупностей. Кроме того, для правильного построения самого вариационного ряда большое значение имеет определение оптимального числа групп и размера интервала, при которых закономерность распределения видна более отчетливо.

Закономерности распределения проявляются при наличии однородных явлений. При нарушении этого условия может появиться бимодальное или даже многовершинное распределение.

Основная задача анализа вариационных рядов состоит в выявлении подлинной закономерности распределения путем исключения влияния второстепенных для данного распределения факторов. Она достигается путем увеличения изучаемой совокупности при одновременном уменьшении интервала ряда.

При этом полигон (гистограмма ) распределения все более приближается к некоторой плавной линии, являющейся для него пределом и носящей название кривой распределения.

Т.о. под кривой распределения понимается графическое изображение в виде непрерывной линии изменения частот в вариационном ряду, функционально связанного с изменением вариант.

Теоретической кривой распределения называется кривая, выражающая общую закономерность данного типа распределения в чистом виде. Теоретическое распределение играет роль некоторой идеализированной модели эмпирического распределения, а сам анализ вариационных рядов сводится к сопоставлению эмпирического и теоретического распределений и определению степени различия между ними.

Разновидности кривых распределения:

Выяснение общего характера распределения предполагает оценку его однородности, показатели асимметрии и эксцесса. С помощью рядов распределения измеряются показатели колеблемости для варьирующих признаков. Чем больше рассеяна кривая по оси абсцисс, тем больше колеблемость признака. Для симметричных распределений частоты любых двух вариант, равноотстоящих от центра распределения, равны между собой. = Мо=Ме.

Всякое искажение формы кривой , например, двухвершинность или асимметричность означает нарушение нормальных условий и вызывает необходимость перегруппировки.


Правосторонняя

асимметрия (+)

Левосторонняя асимметрия (-)


2

2


3





1- нормальное распределение.


Показатель асимметрии вычисляется по формуле:

или

При правосторонней асимметрии Мо>Me> и

Показатель асимметрии определяется также как отношение центрального момента третьего порядка к среднему квадратичному отклонению в кубе.

.

Асимметрия выше 0,5 считается значительной, а меньше 0,25 – незначительной.

Оценка существенности производится с помощью средней квадратической ошибки коэффициента асимметрии , которая зависит от числа наблюдений и определяется по формуле:

.

Если асимметрия существенна и распределение признака в генеральной совокупности несимметрично.

; .

m – условный момент, а - центральный момент.
ЭКСЦЕСС

ТЕОРЕТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ
Многие явления, если их рассматривать в отдельности, кажутся случайными. Но если объединить эти явления с другими, аналогичными по их сущности, и проанализировать, то часто удается обнаружить закономерность. Например, по уровню дохода в большинстве стран наблюдается следующая закономерность: большинство населения имеет относительно низкий уровень дохода, некоторые – более высокий и незначительная часть имеет очень высокий доход. Существование подобных закономерностей делает необходимым изучение случайных колебаний.

Для их изучения, сравнения и обобщения можно использовать математические формулы. В статистике используются следующие виды распределений: нормальное распределение, биноминальное распределение, распределение Пуассона и др. Каждое из них имеет свою специфику и область применения.

Нормальное распределение:



где - ордината кривой нормального распределения;

- стандартизованная (нормированная) величина;

- варианты вариационного ряда;

их средняя величина:

- среднее квадратическое отклонение.

Нормальное распределение полностью определяется средней арифметической и средним квадратическим отклонением. Если ни одна из случайно действующих причин не окажется преобладающей над другими, то закон распределения очень близко подходит к нормальному. Например, распределение населения определенного возраста по размеру обуви.

Свойства кривой нормального распределения:

  1. f(t) – функция нормального распределения – четная, т.е. f (-t) = f (+t)/ Следовательно, кривая распределена симметрично относительно оси ординат, т.е. = Мо = Ме.

  2. Функция имеет бесконечно малые значения при t=, т.е. ветви кривой удалены в бесконечность, асимптотически приближаясь к оси абсцисс.

  3. Функция имеет максимум при t = 0. Следовательно, модельного значения функция достигает при t = 0 при . Величина максимума .

  4. При t = функция дает точки перегиба ( от ), т.е. переход от выпуклости к вогнутости.

  5. Если случайная величина представляет сумму двух независимых случайных величин, следующих каждая своему нормальному закону, то она тоже следует нормальному закону.

  6. Площадь между кривой и осью ot равна единице, как интеграл Пуассона.


Объективная характеристика соответствия эмпирического и теоретического графиков частот может быть получена с помощью особых статистических показателей – критериев согласия. Известны критерии согласия К. Пирсона (хи – квадрат), В. И. Романовского, А. Н. Колмогорова и Б. С. Ястремского.

Критерий согласия Пирсона вычисляется по формуле:

,

где и - эмпирические и теоретические частоты соответственно. С помощью по специальным таблицам определяется вероятность . Входами в таблицу являются значения и число степеней свободы .

При Р>0,5 считается, что эмпирическое и теоретическое распределения близки; при совпадения между ними удовлетворительное, в остальных случаях – недостаточное.

Если число степеней большое, то применяется соотношение, равное . Если эта разность заметно превосходит 2, то расхождение между эмпирическим и теоретическим распределениями существенно.

Критерий Романовского (С) :

,

где - критерий Пирсона;

- число степеней свободы ( при проверке гипотезы о нормальности распределения равно числу групп минус три).

При C< 3 различие несущественно и эмпирическое распределение близко к нормальному.

Критерий Ястремского (L) :

,

где N –объем совокупности;

pq – дисперсия альтернативного признака;

К – число вариантов или групп;

Q – принимает значение 0,6 при числе вариантов или групп от 8 до 20.

Если L > 3 , то эмпирическое распределение соответствует теоретическому.

Критерий Колмогорова вычисляется по формуле:

,

где D максимальное значение разности между накопленными эмпирическими и теоретическими частотами;

- сумма эмпирических частот.

Число наблюдений должно быть больше 100. Дальнейшее определение ведется по таблицам, где значению соответствует вероятность Р(х), с которой может наступить данное событие.



Учебный материал
© bib.convdocs.org
При копировании укажите ссылку.
обратиться к администрации