Дипломный проект - Многомерный статистический анализ дифференциации населения Приволжского федерального округа по уровню жизни - файл n1.docx

Дипломный проект - Многомерный статистический анализ дифференциации населения Приволжского федерального округа по уровню жизни
скачать (375.9 kb.)
Доступные файлы (1):
n1.docx376kb.20.11.2012 07:53скачать

n1.docx

  1   2   3   4   5   6   7

МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РФ




ФГОУ ВПО ОРЕНБУРГСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ



Кафедра статистики и экономического анализа



Тема: Многомерный статистический анализ дифференциации населения Приволжского федерального округа по уровню жизни

Дипломная работа



на присвоение квалификации «Экономист»
Специальность __________________________________________



Дипломник







Руководитель







Зав. кафедрой










Содержание





стр.

Введение

5

1 Теоретические основы многомерного статистического анализа дифференциации населения по уровню жизни

8

1.1 Источники информации статистики доходов и расходов населения

8

1.2 Система индикаторов (показателей) дифференциации доходов населения

12


1.3 Понятие многомерных статистических методов

17

2 Социально-экономический анализ развития субъектов Приволжского федерального округа

32

2.1 Анализ динамики и структуры денежных доходов и расходов населения

32

2.2 Статистический анализ дифференциации населения

40

2.3 Рейтинговая оценка субъектов Приволжского федерального округа по величине социально-экономических показателей

47

3 Многомерный статистический анализ факторов оказывающих влияние на дифференциацию населения по уровню жизни

52

3.1 Кластерный анализ уровня жизни населения

52

3.2 Выявление взаимосвязи между социально-экономическими показателями, характеризующими уровень доходов и дифференциацию населения

60

3.3 Факторный анализ социально-экономических показателей, характеризующих уровень доходов и дифференциацию населения

65

Выводы и предложения

70

Список используемой литературы

74

Приложения

78

Введение
Социальная статистика представляет собой одно из важнейших приложений статистических методов, исследующих количественную характеристику структуры общества, жизни и деятельности людей, позволяет выявить и измерить основные закономерности в распределении благ между социальными группами.

К числу наиболее значимых направлений исследования в социальной статистике относятся: социальная и демографическая структура населения, её динамика, уровень жизни населения, уровень благосостояния, уровень здоровья населения, культура и образования, моральная статистика, общественное мнение, политическая жизнь. Применительно к каждой области исследования разрабатывается и система показателей, определяются источники информации и существуют специфические подходы к использованию статистических материалов в целях регулирования социальной обстановки в стране и регионах. Вместе с тем все эти направления дают, в конечном счёте, единую, последовательную и интегрированную информацию о картине социальной жизни, о тенденциях и закономерностях развития общества.

Как известно, важную роль в изучении уровня жизни населения играют социальные нормативы как научно обоснованные ориентиры направленности социальных процессов в обществе. Различают социальные нормативы:

Целью выполнения дипломной работы является многомерный статистический анализа дифференциации населения Приволжского федерального округа по уровню жизни.

К основным задачам дипломной работы относятся:

Предметом исследования является уровень жизни населения ПФО, механизм их образования и распределения доходов и расходов населения, а также факторы оказывающие существенное влияние на данные показатели. Объектом изучения и анализа исследования является динамика, структура вариация и взаимосвязь уровня жизни населения с основными социально-экономическими показателями.

В теоретической части дипломной работы рассмотрены следующие аспекты: источники данных и задачи социальной статистики; характеристика уровня жизни населения; сущность многомерных статистических методов, их виды.

Аналитическая часть работы включает статистический анализ динамики и структуры уровня жизни населения в России и Приволжском федеральном округе.

Статистические материалы взяты из ежегодных статистических сборников издаваемые Федеральной службы государственной статистики, а также использованы публикации журнала «Вопросы статистики».

При разработке темы использовались следующие статистические методы: табличный и графический, метод сравнения, относительные и средние величины, анализ временных рядов, корреляционно-регрессионный анализ, кластерный анализ.

При работе с табличными данными использовался табличный редактор Excel пакета Microsoft Office 2003. Для подготовки отчета использовался текстовый редактор Microsoft Office Word 2003, статистический пакет программ STATISTICA.

1 Теоретические аспекты статистического изучения доходов и расходов населения
1.1 Источники информации статистики доходов и расходов населения
Статистическая Комиссия при ООН утвердила набор показателей уровня жизни. Среди них: численность населения, ожидаемая продолжительность жизни при рождении, уровень детской смертности, уровень образования населения, показатели материального благосостояния (реальные располагаемые доходы, среднемесячная заработная плата), показатели экономической активности населения и материальной обеспеченности домашних хозяйств, жилищные условия населения, уровень преступности и др. [16]

Интегральные и дифференцированные показатели характеризуют доступность и покупательную способность доходов, неравенство в их распределении, гарантированный государством минимальный уровень обеспеченности, т.е. экономические ресурсы которыми располагает население в целом.

Агрегированные и дезагрегированные показатели содержат данные о личном потреблении (удовлетворении основных физиологических потребностей), т.е. реальные потребительские возможности населения.

Демографические показатели - предназначены для анализа влияния уровня жизни на воспроизводство населения.

Доходы - ресурсы в денежном и натуральном выражении, которые могут быть использованы на удовлетворение личных потребностей, налоговые и другие платежи, сбережения.

Основными источниками данных о доходах и расходах населения являются данные государственной и ведомственной статистики.

Государственная статистика собирает информацию непосредственно от населения и домохозяйств при проведении выборочного обследования домашних хозяйств и от крупных и средних фирм, представляющих отчетность по труду и выплате заработной платы. Кроме того, проводятся периодические обследования задержки выплат заработной платы по некоторым отраслям экономики, а также изучение дифференциации заработной платы по выборке фирм.

Методология изучения доходов в СНС по версии ООН - 1993 г. основана на концепции Дж. Хикса. В соответствии с ней под доходом понимается максимальное количество средств, которое индивид может потратить я течение данной недели при условии, что капитальная стоимость будущих поступлений в денежном выражении сохранится прежней. Специфика концепции Дж. Хикса состоит в том, что в ней, во-первых, четко разделены понятия "доход" и "актив". Поэтому не всякая сумма поступивших денег фиксируется как доход, а только та, которую можно израсходовать на потребление. При этом имеющийся капитал (актив) остается без изменения. Однако перемена актива, например, покупка на сбережения недвижимости не рассматривается как доход. Во-вторых, сумма сбережений не равна сумме прироста денежной наличности (акций, облигаций и депозитов в банке), т. е. финансовых активов, так как их увеличение может быть результатом смены формы активов. В-третьих, прирост капитала, вызываемый случайными причинами (инфляцией, ростом стоимости земли), не рассматривается как доход [32].

Для характеристики процессов формирования, распределения, перераспределения и использования доходов на макроуровне в СНС проводятся построение и анализ следующих счетов:

а) первичного распределения доходов:

1)счета образования доходов;

2)счета распределения первичных доходов;

б) перераспределения доходов:

1)счета вторичного распределения доходов;

2)счета перераспределения доходов в натуральной форме;

в) использования доходов:

1)счета использования располагаемого дохода;

2)счета использования скорректированного располагаемого дохода.

Счет образования доходов отражает выплату первичных доходов институционными единицами-резидентами, непосредственно участвующими в производстве товаров и услуг. Первичные доходы включают:

1) доходы, получаемые институционными единицами в результате их участия в процессе производства:

- оплата труда наемных работников, поступающих в сектор домашних хозяйств,

- налоги на производство и импорт, которые получают органы госуправления,

- прибыль и смешанные доходы, которые получают домохозяйства, нефинансовые предприятия и финансовые учреждения;

2) доходы, получаемые от предоставления в пользование другим институционным единицам финансовых активов, земли и других активов, т. е. доходы от собственности:

- проценты,

- распределенный доход предприятий (корпораций):

- дивиденды,

- изъятия владельцами из дохода предприятий (квазикорпораций),

- реинвестируемые поступления от прямых иностранных инвестиций,

- доход от собственности, вмененный держателям страховых полисов,

- рента.

В счете образования доходов показываются первичные доходы, выплачиваемые производителями-резидентами участниками производства (кроме доходов от собственности). В счете распределения первичных доходов отражается процесс получения первичных доходов участниками производства, а также получение и выплата доходов от собственности.

В счетах вторичного перераспределения доходов отражаются процессы изменения первичных доходов и сальдо первичных доходов от собственности под влиянием различных трансфертов в денежной форме (то, как происходит перераспределение доходов в соответствии с текущей социально-экономической политикой государства). Текущие трансферты в денежной форме представляют собой перераспределительные текущие платежи и поступления, не сопровождающиеся движением товаров. К ним относятся: текущий налог на доходы и собственность; выплата страховых премий и выплаты из госбюджета на социальные нужды (пенсий, стипендий, пособий).

Первичные доходы, скорректированные на сальдо текущих трансфертов в денежной форме, образуют располагаемый доход

РД = ПД +ТТДЕН, (1.1)

где ПД - первичные доходы;

ТТДЕН - сальдо текущих трансфертов в денежной форме.

Располагаемый доход представляет конечную сумму доходов которую можно использовать для потребления и сбережений за счет труда данного года.

Перераспределение социальных трансфертов в натуральной форме отражается на отдельном счете, в котором выявляются те расходы, которые производят органы государственного управления и некоммерческие организации в пользу домашних хозяйств. Трансферты в натуральной форме представляют собой потребление бесплатных услуг образования, здравоохранения, культуры и других социальных отраслей. Располагаемые текущие трансферты в натуральной форме образуют скорректированный располагаемый доход.

 В счетах использования располагаемого и скорректированного располагаемого доходов отражается конечное потребление доходов на удовлетворение потребностей домашних хозяйств, общего государственного управления и некоммерческих организаций, обслуживающих домашние хозяйства и их сбережения. Для остальных секторов экономики сбережения равны располагаемому доходу.

1.2 Система индикаторов (показателей) дифференциации доходов населения
В настоящее время, система основных показателей уровня жизни населения следующая:

Базисные показатели уровня жизни:

I. Доходы населения:

а) Размеры, состав и структура доходов, включая:

1) значение части ВВП на душу населения, идущей на конечное потребление населения,

2) среднедушевой денежный доход,

3) доходы от трудовой и экономической деятельности домашних хозяйств,

б) Собственность и имущество, в том числе:

1) недвижимость;

2) земля в личном пользовании;

3) наличие легковых автомобилей (на 100семей);

в) Располагаемые ресурсы домашних хозяйств;

г) Элементы социальной защиты и социальных гарантий;

1) минимальный размер оплаты труда;

2) тарифная ставка 1-го разряда ЕТС;

3) минимальный размер пенсии по старости;

4) минимальный потребительский бюджет.

д) Финансовые возможности внебюджетных фондов

е) Показатели дифференцации доходов:

ж) Децильные коэффициенты дифференцации

з) Коэффициент фондов,

и) Коэффициент концентрации доходов (индекс Джини).

к) Соотношение долей питания в расходах различных квантильных групп населения

II Стоимость жизни

III Потребление населения

IV Основные непосредственные показатели уровня жизни

(интегральные показатели соотношения уровня доходов и стоимости жизни)

V Уровень бедности

Дифференциация доходов [27] , как правило, рассматривается по размеру среднедушевого совокупного дохода населения в целом, отдельных регионов и групп домохозяйств (проживающих в городской местности, в сельской местности, из них хозяйств пенсионеров, имеющих детей до 16 лет и т.д.) В статистике бюджетов домашних хозяйств используются среднемесячный совокупный доход и средний доход на одного члена домохозяйства. Среди работающих за основу берётся среднемесячная начисленная заработная плата рабочих и служащих по отраслям экономики (без работников, занятых неполные рабочий день или неделю, и учеников). Для изучения дифференциации доходов и потребления населения проводятся перегруппировки домохозяйств:

По каждой выделенной группе вычисляются: средний денежный доход, его состав; средний потребительский расход и его структура; средний размер потребления на душу населения продуктов питания, непродовольственных товаров и услуг (в расчёте на 100 домохозяйств); показатель покупательской способности денежных доходов (денежных доход, делённый на среднюю цену покупки данного товара).

На основании распределения населения по размеру доходов рассчитываются следующие статистические характеристики:

Обобщающие показатели распределения: модальное значение дохода, медианное значение дохода и средний доход.

Показатели структуры распределения дохода: квартальный уровень дохода (нижний и верхний), децильный и другие возможные уровни дохода (нижние и верхние), доля квартальных, децильных и других групп населения (домохозяйств) по уровню дохода в денежном доходе общества, средний доход по выделенным группам населения.

Коэффициенты дифференциации доходов населения, устанавливающие размер повышения денежных доходов высокодоходных групп по сравнению с низкодоходными группами населения.

Децили рассчитываются по формуле [32]:

, (1.2)
где XDi min – нижняя граница интервала содержащая i-й дециль;

L – величина интервала по доходу;

ki – коэффициент соответствующий номеру дециля: для D1 – k1=10, для D2 – k2=20, при D9 – k9=90;

F – объем совокупности;

cum FDi-1 – накопленная частость в интервале, предшествующем интервалу, содержащему i-й дециль;

FDi - частость интервала, содержащего i-й дециль.

К показателям дифференциации денежных доходов относятся: децильный коэффициент дифференциации; коэффициент фондов; кривая Лоренца и коэффициент Джини; коэффициент контрастов. При их расчёте используются данные о доходах крайних (бедных и богатых) групп населения (децильный коэффициент, коэффициент фондов, коэффициент контрастов) или полностью распределение населения по доходам (кривая и коэффициент Лоренца и коэффициент Джини). Они относятся к системе оценок, известной как методология Парето- Лоренца - Джини, широко используемой в зарубежной социальной статистике. Итальянский статист и социолог В.Парето (1848-1923) обобщил данные некоторых стран и установил, что между уровнем доходов и числом их получателей существует обратная зависимость, названная законом Парето. Американский статистик и экономист О.Лоренц (1876-1959) развил этот закон, предложив его графическое изображение в виде кривой, получившей название «кривая Лоренца». При этом используем следующую формулу [32]:

(1.3)

где yi – доля доходов, сосредоточенная у i-ой социальной группы населения;

xi – доля населения, принадлежащая к i-ой социальной группе в общей численности населения.



Рисунок 1.1 – Кривая Лоренца

Кривая Лоренца представляет собой кривую концентрации по группам. На графике Лоренца в случае равномерного распределения дохода попарные доли населения и доходов должны совпадать и располагаться на диагонали квадрата, что и означает полное отсутствие концентрации дохода. Отрезки прямых, соединяющие точки, соответствующие накопленным частостям и нарастающим процентам дохода, образуют ломаную линию концентрации (кривую Лоренца). Чем больше эта линия отличается от диагонали (чем больше её вогнутость), тем больше неравномерность распределения доходов, соответственно выше его концентрация. Очевидно, в конкретных случаях нельзя ожидать ни абсолютного равенства, ни абсолютного неравенства в распределении доходов среди населения.

Экстремальные значения коэффициента Лоренца: L=0 в случае полного равенства в распределении доходов; L=1 - при полном неравенстве. Об относительном неравенстве в распределении доходов может свидетельствовать доля площади отклонения от равномерного распределения (абсолютного равенства, т.е. площади сегмента, образуемого кривой Лоренца и диагональю квадрата, в половине площади этого квадрата).

Коэффициент концентрации доходов Джини показывает распределение всей суммы доходов населения между его отдельными группами.

Коэффициент G изменяется в интервале от 0 до 1. Чем ближе значение G к 1, тем выше уровень неравенства (концентрации) в распределении совокупного дохода; чем ближе он к 0, тем выше уровень равенства.

(1.4)
где dxi – доля i-й группы в общей численности населения;

dHyi - доля i-й группы в общем объеме доходов;

dyi – накопленная доля i-й группы в общем объеме доходов.
1.3 Понятие многомерных статистических методов
Многомерные статистический анализ (МСА) следует рассматривать как логическое развитие методов традиционной статистики, обобщенных в курсе общей теории статистики. Принципиальное отличие заключается в том, что объекты, социальные и экономические явления рассматриваются здесь с учетом не одного-двух, а одновременно некоторого множества признаков. Это позволяет добиваться в исследованиях полноты теоретического описания наблюдаемых объектов и объективности последующих выводов. [21]

МСА - это совокупность глубоко формализованных статистических методов, базирующихся на представлении исходной информации в многомерном геометрическом пространстве и позволяющих определять неявные (латентные), но объективно существующие закономерности в организационной структуре и тенденциях развития изучаемых социально-экономических явлений и процессов.

Для МСА как самостоятельной области науки характерны следующие особенности:

Методы МСА в отличие от классической статистики появились сравнительно недавно: факторный анализ - на рубеже XIX и XX вв., многомерное шкалирование - в конце 30-х - в 40-х годах нашего столетия, кластер-анализ - 10-20-е годы и т.д. Основная часть методов еще находится в стадии активной разработки, область их применения четко не разграничена. Отсутствуют строгие рекомендации по приложению этих методов в решении большого числа конкретных ситуационных задач.

Для методов МСА характерны, как правило, глубокая формализация, сложная логико-математическая конструкция.

Применение методов МСА требует творческого подхода к решению аналитических задач.

В МСА обрабатываются многомерные (многопризнаковые) совокупности данных. Число признаков (или размерность совокупности) при этом может быть любым - от 1 до 100 и более, но обычно более двух, и максимально ограничивается 20-33 при знаками. Существует точка зрения, что для описания реальных объектов достаточно 33 измерений, сверх этого - уже излишняя информация. Такой подход оправдывает себя довольно часто, но не может считаться законом, в конечном счете все определяется условиями задачи и целями исследования.

Практическое применение методов МСА требует обязательного использования вычислительной техники.

MCA основывается на теоретической базе высшей математики и математической статистики. Множество его методов разбивается на две большие группы. К первой группе относятся методы, которые предполагают знание законов распределения многомерной случайной величины и позволяют производить статистическую оценку явлений и процессов, проверять статистические гипотезы - это методы вероятностного анализа многомерных данных. Ко второй группе принадлежат методы, для которых не обязательно знание законов распределения, но существенна рациональная логическая конструкция, позволяющая адекватно моделировать реальные процессы и явления. Эти методы называют методами логико-алгебро-геометрического направления. В общем виде классификация методов МСА показана на рисунке 1.2.

Статистика:

Высшая математика:

Многомерный статистический анализ

Методы вероятностного анализа данных (многомерная математическая статистика):

Методы логико-алгебро-геометрического направления:



Рисунок 1.2 – Классификация многомерных статистических методов

МСА обобщает большое число методов и приемов для обработки многомерных статистических данных. Исследователю при этом открываются возможности достижения самых разнообразных целей.

Последовательно рассмотрим сущность основных методов статистического анализа:

Кластерный анализ — это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных Х12, ..., Хm. Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами. Слово кластер английского происхождения (cluster), переводится как сгусток, пучок, группа. Родственные понятия, используемые в литературе, — класс, таксон, сгущение [8].

В отличие от комбинационных группировок кластерный анализ приводит к разбиению на группы с учетом всех группировочных признаков одновременно. Например, если каждый наблюдаемый объект характеризуется двумя признаками Х1 и Х2, то при выполнении комбинационной группировки вся совокупность объектов будет разбита на группы по Х1, а затем внутри каждой выделенной группы будут образованы подгруппы по Х2. Такой подход получил название монотетического. Определить принадлежность каждого объекта к той или иной группе можно, последовательно сравнивая его значения Х1 и Х2 с границами выделенных групп. Образование группы в этом случае всегда связано с указанием ее границ по каждому группировочному признаку отдельно. В кластерном анализе используется иной принцип образования групп, так называемый политетический подход. Все группировочные признаки одновременно участвуют в группировке, т.е. они учитываются все сразу при отнесении наблюдения в ту или иную группу. При этом, как правило, не указаны четкие границы каждой группы, а также неизвестно заранее, сколько же групп целесообразно выделить в исследуемой совокупности.

Кластерный анализ - одно из направлений статистического исследования. Особо важное место он занимает в тех отраслях науки, которые связаны с изучением массовых явлений и процессов. Необходимость развития методов кластерного анализа и их использования продиктована прежде всего тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности. Кроме того, методы кластерного анализа могут использоваться с целью сжатия информации, что является важным фактором в условиях постоянного увеличения и усложнения потоков статистических данных.
Первые публикации по кластерному анализу появились в конце 30-х годов нашего столетия, но активное развитие этих методов и их широкое использование началось в конце 60-х — начале 70-х годов. В дальнейшем это направление многомерного анализа очень интенсивно развивалось. Появились новые методы, новые модификации уже известных алгоритмов, существенно расширилась область применения кластерного анализа. Если первоначально методы многомерной классификации использовались в психологии, археологии, биологии, то сейчас они стали активно применяться в социологии, экономике, статистике, в исторических исследованиях. Особенно расширилось их использование в связи с появлением и развитием ЭВМ и, в частности, персональных компьютеров. Это связано прежде всего с трудоемкостью обработки больших массивов информации (вычисление и обращение матриц больших размерностей).

Методы кластерного анализа позволяют решать следующие задачи:

Многомерное шкалирование (МШ) - одно из направлений анализа данных, которое отличается от других методов МСА, прежде всего видом исходных данных, которые в данном случае представляют собой матрицу близости между парами объектов. Цель МШ - это описание матрицы близости в терминах расстояний между точками, представление данных о сходстве объектов в виде системы точек в пространстве малой размерности (например, на двумерной плоскости). Упрощая, можно сказать, что «на вход» методов МШ подается матрица близости, а «на выходе» получается координатное раз смещение точек.

Основное предположение МШ заключается в том, что существует некоторое метрическое пространство существенных базовых характеристик, которые неявно и послужили основой для полученных эмпирических данных о близости между парами объектов. Следовательно, объекты можно представить как точки в этом пространстве. Предполагают также, что более близким (по исходной матрице) объектам соответствуют меньшие расстояния в пространстве базовых характеристик. Таким образом, многомерное шкалирование - это совокупность методов анализа эмпирических данных о близости объектов, с помощью которых определяется размерность пространства существенных для данной содержательной задачи характеристик измеряемых объектов и конструируется конфигурация точек (объектов) в этом пространстве. Это пространство («многомерная шкала») аналогично обычно используемым шкалам в том смысле, что значениям существенных характеристик измеряемых объектов соответствуют определенные позиции на осях пространства.

Данные в исходной матрице близости объектов могут быть получены различными способами. Вообще говоря, методы МШ ориентируются на экспертные оценки близости объектов, когда респонденту предъявляют пары объектов, и он должен упорядочить их по степени внутреннего сходства, которое иногда оценивается в баллах. Если данные о близости пар объектов не получены непосредственно, а рассчитаны на основании других данных (различные коэффициенты связи), то следует иметь в виду, что МШ может оказаться далеко не лучшим способом анализа структуры исходных данных. Действительно, первичные данные, на основе которых рассчитывались близости, содержат больше информации, чем «вторичные» данные о близости. Матрица близости должна удовлетворять определенным естественным условиям.

Методы МШ делятся обычно на две категории: неметрическое МШ (НМШ) и метрическое МШ (ММЩ). Методы ММШ используют, когда оценки близости получены на количественной шкале (не ниже интервальной). В таком виде в исследованиях социальных проблем оценки близости возникают крайне редко. Более естественной является оценка близости, измеренная на порядковой шкале (когда пары объектов можно только упорядочить по степени схожести объектов). В этом случае используют методы НМШ, которые дают «покоординатную развертку» матрицы близости в пространстве двух-трех существенных характеристик, так что упорядочения объектов по матрице близости расстояниям в этом пространстве совпадают.

Итак, подводя итог вышесказанному можно сделать вывод, что при использовании многомерного шкалирования:

1) Построение метрического пространства невысокой размерности, в котором наилучшим образом сохраняется структура исходных данных о близости пар объектов. Проектирование объектов на оси полученного пространства определяет их положение на этих осях, т.е. производится процесс шкалирования.

2) Визуализация структуры исходных данных в виде конфигурации точек (объектов) в двух-трехмерном базовом пространстве.

3) Интерпретация полученных осей (базовых характеристик) и конфигурации объектов - конечный результат применения МШ, дающий новое знание об изучаемой структуре (в случае корректного использования метода на всех этапах). Характер конфигурации объектов, а также «внешние» по отношению к исходным данным сведения позволяют дать содержательную интерпретацию осям и тем самым выявить «глубинные» мотивы, которыми руководствовались эксперты, упорядочивая пары объектов по степени их близости (в одном случае), или обнаружить «скрытые» факторы, определяющие структуру сходства и различия объектов (в другом случае).

Дискриминантный анализ - содержанием данного раздела является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам. Например, разбиение совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйственной деятельности.

Методы дискриминантного анализа находят применение в различных областях: медицине, социологии, психологии, экономике и т.д. При наблюдении больших статистических совокупностей часто появляется необходимость разделить неоднородную совокупность на однородные группы (классы). Такое расчленение в дальнейшем при проведении статистического анализа дает лучшие результаты моделирования зависимостей между отдельными признаками.

Дискриминантный анализ оказывается очень удобным и при обработке результатов тестирования отдельных лиц. Например, при выборе кандидатов на определенную должность можно всех опрашиваемых претендентов разделить на две группы: «подходит» и «не подходит».

Можно привести еще один пример применения дискриминантного анализа в экономике. Для оценки финансового состояния своих клиентов при выдаче им кредита банк классифицирует их на надежных и ненадежных по ряду признаков. Таким образом, в тех случаях, когда возникает необходимость отнесения того или иного объекта к одному из реально существующих или выделенных определенным способом классов, можно воспользоваться дискриминантным анализом.

Аппарат дискриминантного анализа разрабатывался многими учеными-специалистами, начиная с конца 50-х годов XX в. Дискриминантным анализом, как и другими методами многомерной статистики, занимались П.Ч. Махаланобис, Р. Фишер, Г. Хотеллинг и другие видные ученые.
Все процедуры дискриминантного анализа можно разбить на две группы и рассматривать их как совершенно самостоятельные методы. Первая группа процедур позволяет интерпретировать различия между существующими классами, вторая — проводить классификацию новых объектов в тех случаях, когда неизвестно заранее, к какому из существующих классов они принадлежат.

Пусть имеется множество единиц наблюдения — генеральная совокупность. Каждая единица наблюдения характеризуется несколькими признаками (переменными) хij - значение j-й переменной у i-го объекта i = 1..N; j = 1..p.

Предположим, что все множество объектов разбито на несколько подмножеств (два и более). Из каждого подмножества взята выборка объемом nk где k - номер подмножества (класса), k = 1..q.

Признаки, которые используются для того, чтобы отличать один класс (подмножество) от другого, называются дискриминантными переменными. Каждая из этих переменных должна измеряться либо по интервальной шкале, либо по шкале отношений. Интервальная шкала позволяет количественно описать различия между свойствами объектов. Для задания шкалы устанавливаются произвольная точка отсчета и единица измерения. Примерами таких шкал являются календарное время, шкалы температур и т. п. В качестве оценки положения центра используются средняя величина, мода и медиана.
Шкала отношений — частный случай интервальной шкалы. Она позволяет соотнести количественные характеристики какого-либо свойства у разных объектов, например, стаж работы, заработная плата, величина налога.
Теоретически число дискриминантных переменных не ограничено, но на практике их выбор должен осуществляться на основании логического анализа исходной информации и одного из критериев, о котором речь пойдет немного ниже. Число объектов наблюдения должно превышать число дискриминантных переменных, как минимум, на два, т. е. p < N. Дискриминантные переменные должны быть линейно независимыми. Еще одним предложением при дискриминантном анализе является нормальность закона распределения многомерной величины, т. е. каждая из дискриминантных переменных внутри каждого из рассматриваемых классов должна быть подчинена нормальному закону распределения. В случае, когда реальная картина в выборочных совокупностях отличается от выдвинутых предпосылок, следует решать вопрос о целесообразности использования процедур дискриминантного анализа для классификации новых наблюдений, т. к. в этом  случае затрудняются расчеты каждого критерия классификации.
Факторный анализ это совокупность методов, которые на основе реально существующих связей признаков (или объектов) позволяют выявлять латентные обобщающие характеристики организационной структуры и механизма развития изучаемых явлений и процессов [20].

Понятие латентности в определении ключевое. Оно означает неявность характеристик, раскрываемых при помощи методов факторного анализа. Вначале мы имеем дело с набором элементарных признаков Xj, их взаимодействие предполагает наличие определенных причин, особенных условий, т.е. существование некоторых скрытых факторов. Последние устанавливаются в результате обобщения элементарных признаков и выступают как интегрированные характеристики, или признаки, но более высокого уровня. Естественно, что коррелировать могут не только тривиальные признаки Xj, но и сами наблюдаемые объекты Ni поэтому поиск латентных факторов теоретически возможен как по признаковым, так и по объектным данным. Рассмотрим несколько примеров.

Набор методов факторного анализа в настоящее время достаточно велик, насчитывает десятки различных подходов и приемов обработки данных. Чтобы в исследованиях ориентироваться на правильный выбор методов, необходимо представлять их особенности. Разделим все методы факторного анализа на несколько классификационных групп:

Метод главных компонент (Г. Хотеллинг). Строго говоря, его не относят к факторному анализу, хотя он имеет с ним много общего. Специфическим является, во-первых, то, что в ходе вычислительных процедур одновременно получают все главные компоненты и их число первоначально равно числу элементарных признаков; во-вторых, постулируется возможность полного разложения дисперсии элементарных признаков, другими словами, ее полное объяснение через латентные факторы (обобщенные признаки).

Методы факторного анализа. Дисперсия элементарных признаков здесь объясняется не в полном объеме, признается, что часть дисперсии остается нераспознанной как характерность. Факторы обычно выделяются последовательно: первый, объясняющий наибольшую долю вариации элементарных признаков, затем второй, объясняющий меньшую, вторую после первого латентного фактора часть дисперсии, третий и т.д. Процесс выделения факторов может быть прерван на любом шаге, если принято решение о достаточности доли объясненной дисперсии элементарных признаков или с учетом интерпретируемости латентных факторов.

Методы факторного анализа целесообразно разделить дополнительно на два класса: упрощенные и современные аппроксимирующие методы.
Простые методы факторного анализа в основном связаны с начальными теоретическими разработками. Они имеют ограниченные возможности в выделении латентных факторов и аппроксимации факторных решений. В числе этих методов следует назвать:
Учебный материал
© bib.convdocs.org
При копировании укажите ссылку.
обратиться к администрации