Дружининская И.М. Решение задач математической статистики по теме Проверка статистических гипотез - файл n1.doc

Дружининская И.М. Решение задач математической статистики по теме Проверка статистических гипотез
скачать (520.9 kb.)
Доступные файлы (4):
n1.doc1464kb.06.09.2012 18:21скачать
n2.doc111kb.07.09.2012 03:40скачать
n3.doc74kb.07.09.2012 03:40скачать
n4.doc72kb.07.09.2012 03:40скачать

n1.doc

Дружининская И.М.

Решение задач математической статистики

по теме

«Проверка статистических гипотез»

Учебное пособие для студентов факультета менеджмента
Москва - 2011
Аннотация:

В данном пособии показано как следует решать некоторые типы задач, связанных с проверкой статистических гипотез. Приведены подробные решения задач с целью помочь студентам более глубоко разобраться в этом разделе математической статистики, показать, как соответствующие теоретические положения математической статистики реализуются в решениях конкретных задач экономической и социологической направленности. Данное пособие будет полезным при подготовке студентов к написанию итоговых контрольных работ по разделу «Математическая статистика» (обычно в вариантах контрольных работ содержится несколько задач на данную тему). Можно также напомнить, что методы проверки различных статистических гипотез широко используются в настоящее время для получения обоснованных выводов при анализе практически значимых проблем. Теоретическое обоснование подходов к решению задач можно найти в лекциях Дружининской И.М. по курсу «Теория вероятностей и математическая статистика», а также, в более развернутом виде, в той литературе, которая указана в программах соответствующих курсов. В самом учебном пособии содержится лишь очень краткое теоретическое введение в тему и перед каждым рассмотренным типом задач дана компактная сводка используемых формул. В частности, в пособии не рассматриваются ошибки первого и второго рода с тем, чтобы основное внимание студентов сосредоточить на реализации основной идеи метода, без какой-либо более глубокой и усложняющей идею метода детализации. Некоторые задачи, приведенные в пособии, были предложены и решены студентами факультета менеджмента. Статистические таблицы, применяемые для решения задач, можно найти на странице Дружининской И.М. под рубрикой «Статистические таблицы».

Введение:
Статистической называют гипотезу о виде неизвестного распределения или о параметрах известного распределения.

Примеры статистических гипотез:

  1. Математическое ожидание изучаемого нормально распределенного признака в генеральной совокупности равно 100 кг.

  2. Вероятность данного события равна 0.6.

  3. Изучаемый признак в ГС имеет показательный закон распределения..

  4. Уровень производственного брака в данной партии товара ниже 0.05%.


Постановка задачи начинается с выдвижения основного утверждения (нулевой гипотезы Н0), причем наряду с выдвинутой гипотезой всегда рассматривают и противоречащую ей гипотезу, которую называют конкурирующей (альтернативной) гипотезой Н1.
Пример: 1) Н0: р=0.5 2) Н0: m=3

Н1: р?0.5 Н1: m>3
Далее на основе экспериментальной информации конструируется специально подобранная из разумных соображений случайная величина, распределение которой известно при выполнении гипотезы Н0. Именно эта случайная величина К, которую называют статистическим критерием или просто критерием служит для проверки справедливости нулевой гипотезы Н0.

После выбора определенного критерия К множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза принимается, а другое, при которых она отвергается.

Областью принятия гипотезы (областью допустимых значений критерия) называют совокупность значений критерия, при которых нулевую гипотезу принимают. Это такие значения критерия, которые характерны для известного при справедливости нулевой гипотезы распределения критерия К, т.е. возникающие с большой вероятностью.

Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Это такие значения критерия, которые не характерны для данного распределения, т.е. возникающие с малой вероятностью.

Критическими точками (границами упомянутых областей) Ккр называют точки, отделяющие критическую область от области принятия гипотезы.

Гипотеза называется параметрической, если речь идет об утверждении, связанном с каким-то конкретным параметром. В противном случае она называется непараметрической.

Гипотеза называется простой, если речь идет о том, что неизвестный параметр принимает какое-то конкретное значение. Если речь идет о многих значениях параметра, то она называется сложной (см. вышеприведенный пример: Н0: р=0.5 - это пример простой гипотезы; Н1: m>3 – это пример сложной гипотезы).

Процедура проверки простой параметрической гипотезы выглядит так:

  1. Формируют нулевую гипотезу Н0 и альтернативную гипотезу Н1 на основе выборочных данных.

  2. Конструируют, исходя из логики задачи, случайную величину на основе результатов выборки, которую в данном разделе называют критерием; распределение критерия в случае истинности гипотезы Н0 известно.

  3. Вся область возможных значений критерия разбивается на две подобласти (или два подмножества). Одно подмножество – это совокупность естественных (правдоподобных), т.е. наиболее вероятных для данного распределения значений. В это подмножество критерий попадает с высокой вероятностью g. Эта вероятность содержится в условиях задачи. Она носит название «доверительная вероятность» (иначе «уровень доверия»). Обычно для g задают следующие стандартные значения: g = 0.90; 0.95; 0.99).

Другое подмножество – это область редко возникающих для данного закона распределения значений (неправдоподобных значений). Вероятность попадания критерия К в эту область мала и равна a = 1-g; a носит название «уровень значимости» (a = 0.10;0.05;0.01). Критерий К принято обозначать через t.

4. Вычисляют значение критерия Кнабл на основе выборочных значений изучаемого признака. Если Кнабл попадает в область правдоподобных значений для данного закона распределения, то с вероятностью g утверждают, что гипотеза Н0 не противоречит экспериментальным данным, а поэтому принимают основную гипотезу. Если значения Кнабл попадает в область неправдоподобных для данного закона распределения значений, то гипотезу Н0 отвергают и принимают альтернативную гипотезу Н1 .

  1. Если при проверке гипотезы Н0 эта нулевая гипотеза принимается, то данный факт не означает, что высказанное в нулевой гипотезе утверждение является единственно верным. Просто оно не противоречит имеющимся выборочным данным. Возможно, что и другое утверждение также не будет противоречить выборочным данным.

  2. Не вдаваясь в более сложные и тонкие утверждения, связанные с принятием нулевой гипотезы или же альтернативной гипотезы, отметим лишь следующее. Если наблюдаемое значение критерия Кнабл попадает в область неестественных значений и мы, следовательно, отвергаем гипотезу Н0 и принимаем гипотезу Н1, то не можем ли мы при этом совершить ошибку - отвергнуть верную гипотезу Н0 и принять ложную гипотезу Н1? Да, можем, но вероятность этой ошибки мала. Уровень значимости a – это вероятность отклонить нулевую гипотезу, когда она верна ( иначе Р (Н1/ Н0) = a).


Вид альтернативной гипотезы

(для исходной простой параметрической гипотезы Н0 : q = q0) может быть таким:


  1. Н1: q ?q0

g +a=1





  1. Н1: q <q0




  1. Н1: q>q0






Конкретные ситуации и соответствующие формулы вычисления критерия, по наблюдаемым значениям которого отвергается или принимается нулевая гипотеза, разобраны в лекциях автора. Их также можно посмотреть в литературных источниках, рекомендованных для изучения данной дисциплины и приведенных программе дисциплины. В пособии дается лишь набор готовых формул без объяснения того, как они были получены.

Проверка гипотезы о числовом значении математического ожидания m (числовом значении генеральной средней ) нормально распределенной ГС

Постановка задачи:

Н0: m= m0

Н1: m? m0 ……………. (1); m< m0 или m> m0 …………..(2)

Вводим критерий

  1. Если объем выборки n?30, то при справедливости нулевой гипотезы случайная величина t имеет распределение Стьюдента с k = n-1 степенями свободы. Находим tкр (по значениям k и a) на основе таблицы «Критические точки распределения Стьюдента», причем для альтернативной гипотезы вида (1) используем двустороннюю критическую область, а для альтернативной гипотезы вида (2) используем одностороннюю критическую область;

  2. Если n>30, то случайная величина t имеет стандартный нормальный з.р., поэтому находим tкр по таблице функции Лапласа на основе решения




  1. Для повышения точности вычислений переход от одного закона распределения (Стьюдента) к другому закону распределения (нормальному) следует делать не при n=30, а при n=120.

Пример:

Менеджер отдела сбыта гипермаркета АШАН отслеживает изменение покупательных возможностей посетителей АШАНА. С этой целью он контролирует сумму денег, которую тратит покупатель за последние полгода в данной торговой сети. Изучение ситуации полгода тому назад показало, что покупатель АШАНА в среднем за одно посещение гипермаркета осуществляет покупки на сумму 956 руб. В данный момент на основе случайной выборки 76 посетителей АШАНА было найдено, что в среднем покупатель при одном посещении магазина делает покупки на сумму 1021 руб., причем стандартное отклонение составляет 427 руб. Можно ли на основе этой информации сделать вывод о том, что за полгода среднее количество денег, которые тратит за одно посещение АШАНА покупатель, фактически не изменилось. Принять уровень значимости 5%. (Полагаем, что сумма покупок меняется по нормальному закону распределения).

Решение:

Постановка задачи:






Введем критерий

При справедливости нулевой гипотезы этот критерий будет иметь стандартный нормальный закон распределения. Вычислим наблюдаемое значение критерия на основе экспериментальных значений:




Далее следует определить границы двусторонней критической области на основе табличного решения уравнения. Здесь пользуемся тем, что выборка велика: n больше 30, тогда



Отсюда на основе таблицы функции Лапласа находим tкр=1.96.

Изобразим возникшую ситуацию графически:






Поскольку наблюдаемое значение критерия попала в область естественных значений критерия, т.е. тех значений критерия, при которых нулевая гипотеза принимается как не противоречащая экспериментальным данным, то в результате решения задачи следует сделать такой вывод: принимаем с уровнем доверия в 95% утверждение о том, что средняя сумма денег, которую оставляет в АШАНЕ покупатель за одно посещение гипермаркета, значимо не изменилась, т.е. следует принять как верное то утверждение, которое было сформулировано в нулевой гипотезе (принимаем нулевую гипотезу).

Покажем, как изменилось бы решение задачи, если бы мы альтернативную гипотезу поставили другую.

Иная постановка задачи

(более того, можно отметить, что именно такая постановка задачи представляется более естественной в данном случае, поскольку экспериментальные данные показали повышение величины средний суммы денег, оставляемых в магазине покупателем):



Изменение в решении задачи касаются вида критической области. В этом случае следует использовать правостороннюю критическую область, значение границы области также изменится.

Теперь границу критической области следует искать на основе табличного решения другого уравнения

По таблице функции Лапласа находим tкр ? 1.65


Поскольку по-прежнему наблюдаемое значение параметра попадает в область принятия нулевой гипотезы, то ранее полученный вывод не изменился, т.е. мы принимаем нулевую гипотезу об отсутствии значимых изменений в той сумме денег, которую в среднем тратит покупатель за одно посещение АШАНА.

Замечание: Следует отметить, что в тех случаях, когда наблюдаемое значение параметра оказывается вблизи границы критической области, вывод может быть изменен на противоположный в тех случаях, когда от двусторонней критической области переходим к односторонней критической области или же в том случае, когда задаем другой уровень значимости (другой уровень доверия).

Решим аналогичную задачу в ситуации, когда для получения выводов используется выборка малого объема (выборка не превосходит 30).

Сохраним те же исходные данные, т.е. пусть по случайной выборке, состоящей из 15 человек, было найдено, что в среднем покупатель при одном посещении магазина тратит 1021 руб.

Постановка задачи



Критерий t определяется той же самой формулой, но в случае выборок малого объема при справедливости нулевой гипотезы критерий t подчиняется распределению Стьюдента с числом степеней свободы k = n-1 . Поэтому при определении границ критической области следует пользоваться таблицей критических точек распределения Стьюдента для односторонней (при указанной постановке задачи) критической области по заданному уровню значимости a=0.05 (в данном случае нужно выбирать уровень значимости в нижней строке таблиц). Находим по k=14 и a=0.05 tкр =1.76.

Вычислим наблюдаемое значение критерия

О
f(x)

tнабл=0.59
тметим, что внешне график плотности закона распределения Стьюдента похож на график плотности стандартного нормального закона распределения, только линия плотности для него идет более полого по сравнению с графиком плотности стандартного нормального закона распределения:






На основе сравнения положения критического и наблюдаемого значения параметров делаем вывод о принятии нулевой гипотезы с уровнем доверия в 95%, т.е. в данном случае вывод по задаче не изменился.

Замечание: тот же самый первый вариант задачи можно было бы решить иначе, с привлечением понятия доверительного интервала. Смысл такого подхода к решению задачи основан на следующем утверждении:

Если заданное в условии задачи значение параметра m0 попадает в доверительный интервал, соответствующий заданному уровню значимости, то утверждение нулевой гипотезы принимается с тем же уровнем значимости. Если же заданное значение m0 оказывается вне доверительного интервала, то следует отвергнуть нулевую гипотезу в пользу альтернативной гипотезы. Обоснование данного подхода к решению задачи заключено в том факте, что при построении доверительного интервала и при выстраивании критической области выполняются аналогичные преобразования, которые приводят к одинаковым формулам.

Напомним формулу, по которой находится двусторонний доверительный интервал для истинного значения параметра нормально распределенной генеральной совокупности (генерального среднего):

Решим вариант данной задачи в первоначальной постановке на основе применения доверительного интервала.

Постановка задачи:



Было найдено критическое значение параметра tкр=1.96.

Вычислим доверительный интервал на основе исходных значений:




Поскольку значение m0 = 956 попало в найденный доверительный интервал, то утверждение, составляющее содержание нулевой гипотезы, следует принять с уровнем доверия в 95%. Естественно, что получен тот же вывод, который получили при первоначальном способе решения этой задачи.

Из данного способа решения также совершенно очевидным является и другой вывод:

Утверждение, составляющее содержание нулевой гипотезы, не является единственно верным. Можно было бы изменить содержание нулевой гипотезы и вместо ранее заданного значения m0 = 956 в нулевой гипотезе задать, например, значение m0 =1100. Это значение также попадает в доверительный интервал и, следовательно, не противоречит экспериментальным данным, поэтому и значение m0 =1100 также могло служить содержанием нулевой гипотезы, причем это значение мы также приняли бы с тем же уровнем доверия.

Проверка гипотезы о числовом назначении вероятности p биноминального закона распределения (о числовом значении генеральной доли WГ)

Рассматриваем генеральную долю признака Wг =K/N – это часть объектов генеральной совокупности, обладающих определенным признаком (N – объем генеральной совокупности; K – количество объектов генеральной совокупности, обладающих данным признаком). Эту величину можно также трактовать как вероятность р того, что случайно выбранный объект из генеральной совокупности будет обладать этим признаком, причем полагаем, что величина вероятности не меняется при переходе от одного объекта к другому объекту и имеет место независимость появления признака для каждого объекта генеральной совокупности, т.е. в рассматривается модель явления, присущая биномиальному закону распределения признака. Вывод: постановку задачи можно осуществлять как в терминах «генеральная доля признака», так и в терминах «вероятность биномиального закона распределения».

Выборочной долей признака является величина w = k/n – это точечная оценка генеральной доли и, одновременно, точечная оценка вероятности в биномиальной законе распределения (n – объем случайной выборки; k – количество объектов в выборке, обладающих данным признаком).

Здесь мы будем рассматривать только случай больших выборок, т.е. n>30.

Постановка задачи:



Для задач этого типа вводится критерий ,

который и будем использовать для проверки нулевой гипотезы. Показано, что в случае справедливости нулевой гипотезы этот критерий имеет стандартный нормальный закон распределения.

При альтернативной гипотезе типа (1) строим двустороннюю критическую область, при альтернативной гипотезе типа (2) строим одностороннюю критическую область (левую или правую).

Процедура проверки справедливости нулевой гипотезы полностью повторяет тот алгоритм, который был реализован в предыдущей задаче. Рассмотрим решение конкретного примера.

Пример:

Известно, что примерно 83% студентов факультета менеджмента защищают диплом на отличную оценку. На основе наблюдений этого года было выяснено, что из 100 случайно отобранных дипломников получили отличную оценку 91 студент. Можно ли с 98% уровнем доверия сказать, что наблюдения этого года не противоречат ранее сделанному статистическому выводу?
Решение:

Постановка задачи:

H0: WГ = 0,83; здесь р0=0.83

H1: WГ > 0,83

Экспериментальные данные: n = 100, k = 91; кроме того: ? = 0,98 ? ? = 0,02

Вычислим значение выборочной доли (или найдем точечную оценку вероятности биномиального закона распределения, т.е. вероятности того, что случайно выбранный студент этого факультета получит отличную оценку за диплом)

Найдем наблюдаемое значения критерия:



Так как n>30, мы находим tкрп,, где tкрп - граница правосторонней критической области, с помощью функции Лаплас, применяя соответствующую таблицу:

P (tкр п < t < + ) = 0,02?P (tкр п < t < + )= Ф0 (+) - Ф0 (tкр п)=

=0.5 - Ф0 (tкр п)=0.02?Ф0 (tкр п) = 0,48? tкр п ?2,04

Замечание: значение tкр п можно было бы находить из решения несколько иного уравнения: P ( < t < tкр п) = 0,98. Значение tкр п получается, разумеется, таким же.



Поскольку наблюдаемое значение критерия попадает в область критических значений этой случайной величины, то следует отвергнуть нулевую гипотезу как противоречащую экспериментальным данным и, следовательно, принять альтернативную гипотезу, т.е. утверждение, высказанное в нулевой гипотезе, не является верным, в действительности доля студентов, получивших отличную оценку за диплом, значимо превосходит ту долю, которая указана в нулевой гипотезе.
Давайте решим эту же самую задачу, сделав в ней единственное изменение: примем  = 0.01 (ранее было задано значение ? = 0,02).
Решение:

Постановка задачи:

H0: Wг = 0,83, здесь р0=0.83

H1: Wг > 0,83

Экспериментальные данные: n = 100, k = 91.

Наблюдаемое значение tнабл в этом случае не изменяется; изменяется лишь tкр п .

Найдем новое значение tкр п:

P (tкр п < t < + ) = 0,01?P (tкр п < t < + )= Ф0 (+) - Ф0 (tкр п)=

=0.5 - Ф0 (tкр п)=0.01?Ф0 (tкр п) = 0,49? tкр п ?2,32



В этом случае из-за изменения положения границы критической области наблюдаемое значение критерия попало в область принятия нулевой гипотезы, следовательно, вывод в результате решения примера мы должны сделать иной: принимаем нулевую гипотезу о том, что генеральная доля студентов, которые сдают диплом на отлично, можно считать равным 83%, поскольку значения выборочной доли отличников и заявленного значения генеральной доли отличников различаются незначимо, несущественно. В данном случае следует отметить одну особенность, о которой уже говорилось: когда наблюдаемое значение критерия находится недалеко от границы критической области, то при изменении уровня значимости вывод по задаче можно получить противоположный по своему смыслу (и этим данная ситуация неприятна).

Решим еще один пример на проверку такой же гипотезы.
Пример (предложен студенткой Аленой Бут):
На основании предшествующих исследований было известно, что доля крупных западноевропейских бизнесменов, имеющих счета в швейцарских банках, составляет примерно 78%. Исследовательский центр Германии «Meinungsumfrage» отобрал 670 крупных бизнесменов Западной Европы и установил, что 510 из них хранят свои сбережения на счетах в швейцарских банках.

На основе применения доверительного интервала проверить справедливость утверждения, что и в настоящее время доля крупных бизнесменов, имеющих счета в швейцарских банках, составляет 78%.

Решить эту же задачу, применяя традиционную постановку задачи с введением основной и альтернативной гипотез.

Во обоих случаях принять уровень доверия равным 1%.
Решение:
Экспериментальные данные: n = 670, k = 510, ? = 0,01
Поскольку выборка большая, то доверительный интервал находится по формуле




Вычислим доверительный интервал:



Данный доверительный интервал с вероятностью 99% накрывает генеральную долю западноевропейских бизнесменов, хранящих свои сбережения в швейцарских банках.

Поскольку значение генеральной доли 0.78, заданное условием задачи, попадает в этот доверительный интервал, то, следовательно, с уровнем доверия в 99% (или с уровнем значимости в 1%) можно принять нулевую гипотезу как не противоречащую опытным данным.
Решим этот же пример на основе традиционного алгоритма проверки статистических гипотез.
Постановка задачи:

H0: Wг = 0,78, здесь р0=0.78

H1: Wг < 0,78

Экспериментальные данные: n = 670, k =510; кроме того, ? = 0,01.



Вычислим значение критерия, который при справедливости основной гипотезы имеет стандартное нормальное распределение:




Найдем границу левосторонней критической области:

P (tкр л < t < + ) = 0,99?P (tкр л < t < + )= Ф0 (+) - Ф0 (tкр л)=

=0.5 - Ф0 (tкр л)=0.99?Ф0 (tкр л) = - 0,49?Ф0 (-tкр л) = 0,49? tкр л ?-2,32




На основе данного графика, сравнивая взаимное расположение наблюдаемого значения критерия и границы левосторонней критической области, следует сделать вывод о принятии нулевой гипотезы как не противоречащей экспериментальным данным с уровнем доверия в 1%.

Замечание: получены одинаковые выводы независимо от способа решения на основе использования доверительного интервала и на основе традиционного алгоритма проверки статистической гипотезы.
Пример (предложена студентом):

Главный врач ветеринарной клиники утверждает, что не менее 70 % его пациентов после приёма новейших лекарств верно служат своим хозяевам не болея на протяжении трех лет. Можно ли считать это утверждение верным, если из 100 пациентов ветеринарной клиники 59 остаются здоровыми после приема таблеток ещё три года? Принять уровень значимости 5%.

Решение:

Постановка задачи:

H0: p = 0,70 (р0 = 0,70)

H1: p < 0,70 (альтернативная гипотеза поставлена на основе результатов выборки)
 
Вычислим наблюдаемое значение критерия:



Так как n>30, то находим tкр с помощью функции Лапласа:

P (tкр л < t < + ) = 0,95 ?P (tкр л < t < + )=: Ф0 (+) - Ф0 (tкр л) =

=0,5 + Ф0(-tкр л) = 0,95 ? Ф0 (-tкр л) = 0,45 ? tкр л = -1,65


Поскольку наблюдаемое значение критерия попало в область критических значений критерия, то отвергаем нулевую гипотезу как противоречащую экспериментальным данным и принимаем альтернативную гипотезу H1 , т.е. можно сказать, что менее 70% пациентов после приёма лекарств верно прослужат своим хозяевам ещё три года (утверждение врача клиники чрезмерно оптимистично).
Проверка гипотезы о равенстве математических ожиданий (о равенстве генеральных средних) двух нормально распределенных генеральных совокупностей
Пусть имеются две нормально распределенные генеральные совокупности, причем в первой совокупности изучаемый признак X~N(m1;s1), во второй совокупности изучаемый признак Y~N(m2;s2).

Мы в дальнейшем будем рассматривать ситуации, относящиеся к случаям больших выборок из этих двух генеральных совокупностей: n1>30, n2>30. Случаи малых выборок анализируются в соответствующих разделах учебников, но такие ситуации здесь не рассматриваются.
Постановка задачи:





Решим конкретную задачу, в которой реализуется описанный выше подход.

Пример:

Проводится сравнение роста 20-летних юношей, проживающих в Москве и в Новосибирске. На основе двух случайных выборок, выполненных в двух городах, были получены следующие данные. В Москве отобрали 75 юношей, по величинам ростов которых были вычислены две характеристики: средний рост юношей, который оказался равным 179 см, и стандартное отклонение, которое оказалось равным 8 см; в Новосибирске были случайно отобраны 57 юношей, их средний рост оказался равным 176 см со стандартным отклонением 10 см. На основе этих экспериментальных данных следует проверить гипотезу о примерном равенстве ростов московских и новосибирских 20-летних юношей. Принять доверительную вероятность равной 90%. Предполагается, что рост юношей подчиняется нормальному закону распределения.

Иная постановка вопроса к тем же исходным данным может звучать так:

Следует выяснить, значимо или же незначимо отличаются друг от друга выборочные средние значения. Если будет показано, что выборочные средние отличаются незначимо, то отсюда можно будет сделать вывод о справедливости нулевой гипотезы о примерном равенстве ростов юношей, проживающих в различных городах. В противном случае будет сделать вывод о существенном различии ростов юношей из этих городов.

Решение:

Постановка задачи:




При такой постановке задачи следует строить двустороннюю критическую область.

Вычислим границы этой области на основе табличного решения уравнения:

Вычислим на основе экспериментальной информации наблюдаемое значение критерия:


Изобразим результаты графически:




Поскольку наблюдаемое значение критерия попало в критическую область значений параметра, то следует отвергнуть основную гипотезу в пользу альтернативной гипотезы и сказать, что средний рост московских и новосибирских 20-летних юношей отличается значимо.
Решим эту же задачу с теми же самыми исходными данными в случае иной, более естественной в данном случае альтернативной гипотезы. Ее естественность обусловлена конкретными экспериментальными значениями.
Постановка задачи:


Такая постановка задачи требует построения правосторонней критической области.
Найдем границу правосторонней критической области:


В данном случае наблюдаемое значение критерия не меняется.





График показывает, что наблюдаемое значение критерия попало в критическую область, поэтому следует сделать тот же вывод, который был получен ранее: средний рост московских и новосибирских юношей значимо отличается.

Проверка гипотезы о равенстве вероятностей биномиального закона распределения (о равенстве долей признака) двух генеральных совокупностей

Рассмотрим две генеральные совокупности.

Из первой генеральной совокупности делается случайная выборка объемом n1, и на основе этой выборки выясняется, сколько объектов выборки обладает изучаемым признаком – этих объектов k1.

Из второй генеральной совокупности делается случайная выборка объемом n2; количество объектов выборки, обладающих изучаемым признаком, - k2.

Выборочные доли признака равны соответственно

w1= k 1 / n1 ; w2= k 2 / n2

В данном пункте мы ограничимся лишь случаем, когда выборки достаточно большие: n1>30, n2>30.

Постановка задачи:



В этой ситуации в качестве критерия используется случайная величина вида



При справедливости гипотезы H0 данная случайная величина имеет стандартный нормальный закон распределения.

Рассмотрим пример, в котором реализуется рассмотренная выше ситуация.

Пример:

Перед экспертами поставлена задача оценить сравнительную активность электората Москвы и Санкт-Петербурга при избрании депутатов Государственной Думы. С этой целью была сделана случайная выборка в двух этих городах из состава населения, которое имеет право голоса. Было выяснено, какая часть выборки реально пришла на избирательный участок для участия в выборах. Данные оказались следующими: в Москве из 1500 потенциальных случайно выбранных избирателей реально в выборах приняли участие 480 человек, а в Санкт-Петербурге из 1630 потенциальных избирателей на избирательные участки пришли 490 человек. На уровне значимости ?=10% проверить гипотезу о равенстве генеральных долей избирателей в двух этих городах, реально принявших участие в выборах.

Решение:

Постановка задачи:

Вычислим на основе экспериментальных данных выборочные доли:





Вычислим на основе экспериментальных данных наблюдаемое значение критерия:



Найдем границы двусторонней критической области, таблично (с помощью таблицы функции Лапласа) решив следующее уравнение:



Покажем все найденные значения на графике плотности стандартного нормального закона распределения, который описывает поведение случайной величины t при справедливости нулевой гипотезы.












Поскольку наблюдаемое значение критерия попало в область естественных для данного закона распределения значений (в данном случае стандартного нормального закона распределения), то гипотеза H0 принимается как не противоречащая экспериментальным данным с уровнем доверия 90%, т.е. генеральные доли электората, реально принявших участие в выборах в Москве и Санкт-Петербурге, значимо не отличаются, т.е. их можно считать одинаковыми.

Проверка гипотезы о значимости выборочного коэффициента корреляции Пирсона.

Рассматривается двумерная нормально распределенная генеральная совокупность (X,Y), т.е. случайные величины X и Y в ней распределены нормально Из этой совокупности извлечена выборка объемом n пар (xi , yi) и по ней вычислен выборочный коэффициент корреляции Пирсона, который оказался отличным от нуля. Возникает вопрос, объясняется ли это действительно существующей линейной связью между случайными величинами X и Y в генеральной совокупности или является следствием случайности отбора переменных в выборку. Можно ли при этом заключить, что и коэффициент корреляции r между случайными величинами X и Y во всей генеральной совокупности также отличен от нуля?

Напоминание:




Постановка задачи:

H0: ?=0

H1: ??0

Если нулевая гипотеза отвергается, то это означает, что коэффициент корреляции в генеральной совокупности значимо отличается от нуля (кратно говоря «значим»), и, следовательно, в генеральной совокупности признаки X и Y связаны линейной зависимостью. Если же принимается нулевая гипотеза, то генеральный коэффициент корреляции незначим, и, следовательно, признаки X и Y в генеральной совокупности не связаны линейной зависимостью.

В качестве критерия проверки нулевой гипотезы используется случайная величина

Показано, что эта случайная величина при справедливости нулевой гипотезы имеет распределение Стьюдента с k = n - 2 степенями свободы. Число степеней свободы на две единицы меньше объема выборки, поскольку в выражении для r задействованы две связи, заданные формулами для вычисления средних значений по выборке:

;

Ясно также, что при больших объемах выборки (n>30) можно вместо распределения Стьюдента использовать стандартный нормальный закон распределения.

Поскольку конкурирующая гипотеза имеет вид ??0, то следует строить двустороннюю критическую область.

Определив, куда попадает вычисленное значение tнабл, делаем вывод о справедливости нулевой или же альтернативной гипотезы:

если | tнабл |<tкр, то принимается гипотеза H0,

если | tнабл |і tкр , то принимается гипотеза H1.

Пример:

По выборке объема n=7, извлеченной из нормальной двумерной генеральной совокупности, был вычислен коэффициент корреляции Пирсона r=0,57. При уровне значимости ?=10% проверить гипотезу H0 о равенстве генерального коэффициента корреляции нулю при конкурирующей гипотезе ??0.

Решение:

Постановка задачи:

H0: ?=0

H1: ??0

Найдем наблюдаемое значение критерия:




Определим значения границ двусторонней критической области из условия, что при малых объемах выборок критерий t распределен (при справедливости нулевой гипотезы) по закону распределения Стьюдента с числом степеней свободы k=7-2=5.

Привлечем таблицу «Критические точки распределения Стьюдента»; в таблице используем ту ее часть, которая относится к двусторонней критической области, задаем =0.10 и k=5? tкр =2.01.

Полученные результаты покажем графически:










Поскольку наблюдаемое значение критерия попало в область принятия нулевой гипотезы, то следует принять нулевую гипотезу с уровнем значимости 10%. Это означает, что генеральный коэффициент корреляции равен нулю, т.е. в генеральной совокупности между случайными величинами X и Y линейная связь отсутствует. В этом случае не следует использовать уравнение линейной регрессии для прогнозирования значения одной случайной величины по значению другой случайной величины.

Рассмотрим аналогичный пример, но существенно увеличим в нем объем выборки.

Пример:

По выборке объема n=112, извлеченных их нормальной двумерной генеральной совокупности, был вычислен коэффициент корреляции Пирсона r=0,57. При уровне значимости ?=10% проверить гипотезу H0 о равенстве генерального коэффициента корреляции нулю (?=0) при конкурирующей гипотезе ??0.

Решение:

Постановка задачи:

H0: ?=0

H1: ??0

Найдем наблюдаемое значение критерия:




Определим значения границ двусторонней критической области из условия, что при больших объемах выборок критерий t распределен по стандартному нормальному закону распределения при справедливости нулевой гипотезы:

tкр : =1-=1-0.10=0.90?Ф0(tкр) = = =0,45 => tкр=1,65




a/2=0.05

a

a/2=0.05

a









Поскольку наблюдаемое значение критерия попало в критическую область, то следует отклонить нулевую гипотезу в пользу альтернативной гипотезы, т.е. принять, что коэффициент линейной корреляции в генеральной совокупности значим. Из этого утверждения следует, что между двумя случайными величинами X и Y в генеральной совокупности имеется линейная связь, которая позволяет использовать уравнение линейной регрессии для прогнозирования, т.е., задавая конкретное значение величины X, получать значение другой случайной величины Y.

Получился интересный результат, который надо иметь в виду. Он заключается в том, что при больших объемах выборок то же самое значение коэффициента корреляции является значимым, т.е. показывает наличие линейной связи между случайными величинами в генеральной совокупности. В то же время при малых объемах выборок это же значение коэффициента корреляции не является значимым и не позволяет сделать вывод о том, что между случайными величинами в генеральной совокупности имеется линейная связь, поскольку для получения такого вывода в случае малых выборок имеется недостаточное количество экспериментальных данных.

Проверка гипотезы о значимости выборочного коэффициента корреляции Спирмена

Постановка задачи



Напоминание:

Формулы для вычисления коэффициента Спирмена:







Пояснения к приведенным формулам можно посмотреть на странице Дружининской И.М.в файле « Очень краткое изложение курса лекций по теории вероятностей и математической статистике для факультета менеджмента».

При проверке значимости коэффициента корреляции Спирмена поступают совершенно аналогично тому, как мы поступали, работая с коэффициентом Пирсона. Формулы для вычислений используются те же самые с учетом небольших изменений:

Если объем выборки совсем маленький (n<9), то для выяснения значимости коэффициента корреляции нужны специальные таблицы, которые приводятся в специальных руководствах (этот случай мы рассматривать не будем).

Если объем выборки n і 9, то при справедливости гипотезы H0 критерий




имеет распределение Стьюдента с k = n - 2 степенями свободы;

tкр находим по таблице критических точек распределения Стьюдента по значениям a и k для двусторонней критической области. Вычисляем tнабл на основе приведенной выше формулы. Если | tнабл |<tкр, то принимается гипотеза H0, если | tнабл |і tкр, то принимается гипотеза H1, т.е. в этом случае считаем доказанным утверждение, что коэффициент корреляции является значимым и в генеральной совокупности между порядковыми качественными признаками имеется корреляционная связь.

Если объем выборки n >30, то вместо закона Стьюдента используем стандартный нормальный закон распределения.

Пример:

Для 15 пар порядковых переменных (x, y) был вычислен коэффициент корреляции Спирмена, который оказался равным = 0.64. При уровне значимости ?=5% проверить гипотезу H0 о равенстве генерального коэффициента ранговой корреляции нулю (= 0) при конкурирующей гипотезе ?0.

Решение:

Постановка задачи:

Найдем наблюдаемое значение критерия:




Найдем значения границ двусторонней критической области из условия, что при малых объемах выборок критерий t распределен (при справедливости нулевой гипотезы) по закону распределения Стьюдента с числом степеней свободы k=15-2=13.
На основе таблицы «Критические точки распределения Стьюдента» найдем границы двусторонней критической области на основе =0.05 и k=13? tкр =2.16.

Полученные результаты покажем графически:





Поскольку наблюдаемое значение критерия попало в критическую область, то следует отклонить нулевую гипотезу в пользу альтернативной гипотезы. Это означает, что коэффициент ранговой корреляции значим: между двумя порядковыми случайными величинами X и Y в генеральной совокупности имеется значимая связь, которая говорит о наличии связи этих двух случайных величин.
Замечания:

В этом случае уравнение линейной регрессии, описывающее связь между случайными величинами не используется.

Если бы в данном примере объем выборки был бы более 30, то находили бы границы двусторонней критической области на основе уравнения:

Ф0(tкр) =/2. В остальном вычисления выполняются по тем же формулам.

Критерий знаков
Критерий знаков не связан с заданием каких-то конкретных значений параметров распределения, и поэтому на основе этого критерия формулируются так называемые непараметрические статистические гипотезы.

Это самый простой критерий непараметрической статистики. Простота критерия объясняется двумя причинами:

  1. Не делается предположение о том, что генеральная совокупность имеет нормальное распределение или какое-то другое распределение. Единственное предположение – распределение должно быть непрерывным.

  2. Критерий знаков использует только знаки различий между двумя числами, а не их количественную меру. Поэтому иногда его называют «ранговый критерий проверки гипотез».

Пусть имеются две выборки одинакового объема n, и эти выборки ранжированы:

x1<x2<…<xn и y1<y2<…<yn

Введем разность ri= xi-yi. Будем исследовать величину разности ri. Если мы найдем, что большинство пар значений (xi;yi) мало отличаются друг от друга, т.е. значения ri окажутся достаточно малыми, то это позволит нам считать, что все xi и yi меняются примерно одинаковым образом, т.е. выборки извлечены из одной и той же генеральной совокупности (и в этом состоит суть утверждения, составляющего содержание нулевой гипотезы).

Конкретные формы задания нулевой гипотезы могут быть различными в зависимости от конкретной ситуации, рассматриваемой в задаче. Варианты нулевой гипотезы могут быть весьма многообразными. Здесь будет рассмотрено только два варианта задания нулевой гипотезы; о их содержании будет сказано далее.

Исследуем знаки разностей ri и найдем число положительных разностей (положительное значение разности назовем успехом), т.е. найдем число успехов, которое обозначим величиной k.

В случае справедливости нулевой гипотезы положительные и отрицательные разности ri будут появляться с одинаковой вероятностью. Следовательно, задание гипотезы H0 возможно в двух форматах, которые будут рассмотрены в этом разделе.

Первый вариант задания нулевой гипотезы: Р(x-y>0)=Р(x-y<0)= Ѕ.




Второй вариант задания нулевой гипотезы:

В этом случае предполагается проверить, равны ли друг другу генеральные средние для двух генеральных совокупностей .Если генеральные средние равны, то число положительных разностей ri должно быть примерно равно числу отрицательных разностей.

Для второго варианта задания нулевой гипотезы постановка задачи выглядит следующим образом:

Постановка задачи:

H0: (соответствует варианту p=0.5)

H1: () (соответствует варианту p?0.5 или р<0.5, р>0.5)
Алгоритм реализации критерия знаков таков:


  1. Рассматривают серию из n испытаний, ранжируют две выборки xi, yi; (i=1,2,…,n); анализируют разности ; подсчитывают число положительных разностей. Если разность ri окажется равной нулю, то ее исключают из рассмотрения. Выясняют число положительных разностей - это число успехов k.

Замечание: можно было бы совершенно аналогично рассматривать и отрицательные разности.
2. Для получения выводов используется критерий следующего вида:

,
который получен на основе биномиального закона распределения с вероятностью, равной 0.5 (именно это значение вероятности заложено в нулевой гипотезе). W(n,k) – это вероятность такого события: «Число успехов наблюдалось от 0 до k раз». При справедливости гипотезы H0 наблюдаемое значение критерия Wнабл(n; k) принимает естественные для этой случайной величины значения (не слишком большие и не слишком маленькие).
Отметим, что W(n,0)?0 , а W(n,n)=1.
На основе свойств биномиальных коэффициентов для облегчения вычислений можно использовать равенство

W(n; k) = =1 – W(n; n-k-1).

Это равенство удобно использовать, когда k>n/2.
3. Критические области определяются видом альтернативной гипотезы H1.

Рассмотрим три возможных вида альтернативной гипотезы:


  1. H1:


В этом случае выстраивается двусторонняя критическая область. В критическую область значение критерия попадает тогда, когда положительных разностей либо слишком много, либо слишком мало:



б)

В этом случае выстраивается левосторонняя критическая область. В критическую область значение критерия попадает тогда, когда положительных разностей мало (мало успехов):





в)

В этом случае выстраивается правосторонняя критическая область. В критическую область значение критерия попадает тогда, когда положительных разностей положительных разностей много (много успехов):



  1. Вычисление критерия W(n;k) проводят при малых выборках (n?30). При больших выборках (n>30) биномиальный закон распределения удобно заменить нормальным законом распределения (вычисления на основе критерия W(n;k) становятся очень громоздкими), поэтому при n>30 обычно вводят иной критерий, поскольку вычисления по нему существенно упрощаются.

Этот критерий, который при справедливости гипотезы H0 имеет стандартный нормальный закон распределения, определяется формулой:


В этой формуле p=0,5; w=k/n.

Рассмотрим пример на применение критерия знаков.
Пример:

Один хиромант утверждает, что он по линиям руки человека может безошибочно указать год его рождения, не имея об этом человеке никакой предварительной информации. С хиромантом было поставлено 11 экспериментов, и результаты оказались следующими: + + - - + - + - + + + ), где знак «+» ставился тогда, когда хиромант давал правильный ответ, и знак «-», когда хиромант ошибался (n=11, k=7). Проверить при помощи критерия знаков с уровнем значимости a=0.05 справедливость утверждения хироманта.
Решение:

Постановка задачи:

Н0: p = 0.5 (вероятность правильного ответа равна 0.5, т.е. хиромант в половине случаев дает правильный ответ, а в половине случаев ошибается, т.е. он не обладает способностью давать правильный ответ)

Н1: p> 0.5 (вероятность правильного ответа более 0.5, т.е. хиромант чаще дает правильный ответ, а ошибается реже, т.е. он обладает способностью давать правильный ответ)

Вычислим наблюдаемое значение критерия (воспользуется тем, что 7>11/2), тогда:


П
0.89
окажем полученный результат графически:


Поскольку наблюдаемое значение критерия попало в область естественных значений критерия, то нам следует принять справедливость нулевой гипотезы. Таким образом, несмотря на то, что хиромант дал достаточно много правильных ответов, но их оказалось недостаточно для того, чтобы признать справедливость его утверждения. Для того, чтобы утверждение хироманта можно было считать справедливым требуется большее количество правильных ответов. Мы должны с уровнем доверия в 95% принять, что утверждение хироманта необоснованно.
Решим аналогичную задачу в ситуации, когда n становится большой величиной.

Пример:

Один хиромант утверждает, что он по линиям руки человека может безошибочно указать год его рождения. С хиромантом было проведено 110 экспериментов, при этом им было дано 70 правильных ответов, остальные ответы оказались неверными. Проверить при помощи критерия знаков с уровнем значимости a=0.05 справедливость утверждения хироманта.
Решение:

Постановка задачи:

Н0: p = 0.5 0 = 0,50)

Н1: p> 0.5
 
Вычислим наблюдаемое значение критерия:



Так как n>30, то находим tкр с помощью функции Лапласа:

P (tкр п < t < + ) = 0,05 ?P (tкр п < t < + )=: Ф0 (+) - Ф0 (tкр п) =

=0,5 - Ф0(tкр п) = 0,95 ? Ф0 (tкр л) = 0,45 ? tкр л =1,65



Поскольку наблюдаемое значение критерия попало в область критических значений случайной величины, то отвергаем нулевую гипотезу как противоречащую экспериментальным данным и принимаем альтернативную гипотезу H1, т.е. можно сказать, что хироманту действительно в основном удается правильно указывать возраст своих клиентов.

Обратите внимание на то, что в этом примере значения n и k были увеличены в 10 раз так, чтобы доля правильных ответов сохранилась, т.е. осталась той же самой, что и в первой задаче про хироманта. И если на основе малой выборки был получен отрицательный ответ на утверждение хироманта, то теперь, на основе большой выборки, получили положительный ответ на утверждение хироманта. При малых выборках нужно иметь очень сильное различие в правильных и ошибочных ответах хироманта для того, чтобы признать справедливой альтернативную гипотезу. В случае больших выборок относительное различие в правильных и ошибочных ответах хироманта может быть не столь существенным для такого признания.

Рассмотрим еще один пример на использование критерия знаков.
Пример (предложен студенткой Гибадуллиной А.):
Семья выбирает отель для отдыха на море. Друзья посоветовали им 2 отеля разных категорий (4* и 5*), однако они утверждают, что на самом деле между отелями нет существенной разницы. На уровне значимости ?=5% проверьте справедливость утверждения, что между этими двумя отелями отсутствует существенная разница. В таблице приведены оценки отелей по различным категориям, выдвинутым для их сравнения:

N


Категория сравнения

Оценки

I отеля

Оценки

II отеля

Знак разности

ri=xi-yi

1

Ранг (звезды)

4

5

-

2

Комфортабельность

10

10

0

3

Стоимость проживания

7

6

-

4

Питание

10

10

0

5

Размер отеля

8

9

-

6

Расстояние до моря

8

10

-

7

Чистота

10

10

0

8

Общее расположение

9

10

-

9

Развлечения для детей

10

9

+

10

Анимация

10

9

+

11

Персонал

10

10

0

12

Территория отеля

9

8

+

13

Бассейны

9

7

+

Решение:

исходные данные, полученные на основе таблицы:

а) число рассматриваемых для сравнения параметров равно 13;

б) число нулевых разностей равно 4, тогда величина n=13-4=9;

в) число положительных разностей равно k=4.
Постановка задачи:

H0: (это означает, что усредненные оценки, поставленные первому и второму отелю, примерно одинаковые, т.е. значимо не отличаются)

H1: (усредненная оценка второго отеля несколько лучше, чем усредненная оценка первого отеля; альтернативная гипотеза введена на основе экспериментальных данных)
Поскольку выборка маленькая, то используем для решения задачи критерий



Вычислим на основе имеющихся данных наблюдаемое значение критерия:



Изобразим полученные результаты графически:

0

1

?=0,05









w

Wкр =0.05 Wнабл=0.5

Wнабл

Wнабл

Wнабл

Поскольку наблюдаемое значение критерия попало в область естественных для данного распределения значений, то следует с уровнем значимости 5% принять основную гипотезу H0 о том, что фактически нет существенных различий в оценках как первого, так и второго отелей.

Пример: Изучение воздействия рекламы
После воздействия рекламой на группу из 18 человек 5 человек не изменили своего мнения, 9 человек изменили мнение в лучшую сторону, остальные – в худшую. С помощью критерия знаков проверить нулевую гипотезу об отсутствии значимого эффекта воздействия рекламы на аудиторию против альтернативы - «мнение аудитории изменилось в лучшую сторону» - на 5% уровне значимости.
Решение:

Постановка задачи:

Н0: p = 0.5

Н1: p> 0.5

N=18? n=18-5=13; k=9 (количество положительных разностей)
Используем критерий W(n;k) для малых выборок:





Так как наблюдаемое значение критерия попало в критическую область, то основную гипотезу отвергаем и принимаем конкурирующую гипотезу, т.е. у нас есть основания полагать, что реклама оказала значимое воздействие на аудиторию. Уровень доверия в данному выводу составляет 95%.
Решим аналогичную задачу о воздействии рекламы на аудиторию в случае большой выборки (больше 30).
Пример:

Рекламному воздействию подвергли группу из 77 человек, при этом 10 человек не изменили своего мнения, 42 человека изменили мнение в лучшую сторону, остальные – в худшую. С уровнем значимости в 5% проверить нулевую гипотезу об отсутствии значимого эффекта воздействия рекламы на аудиторию против альтернативы - «реклама позитивно подействовала на аудиторию».
Решение:

Постановка задачи:

Н0: p = 0.5 (р0 =0.5)

Н1: p> 0.5

N=77 ? n=77-10=67; k=42 (количество положительных разностей) ; w=k/n.

Здесь используем другой критерий. При справедливости гипотезы Н0 критерий t имеет стандартный нормальный закон распределения:


Выполним вычисления:




Результаты вычислении й покажем графически:


Из сравнения значений границы критической области и наблюдаемого значения критерия следует перейти к альтернативной гипотезе, т.е. на основе экспериментальных значений можно сделать вывод о том, что реклама значимо в лучшую сторону изменила мнение аудитории.

На этот закончим рассмотрение примером методического пособия.

Учебный материал
© bib.convdocs.org
При копировании укажите ссылку.
обратиться к администрации