Xreferat.com » Остальные рефераты » Компонентный и факторный анализ

Компонентный и факторный анализ

Министерство образования Российской Федерации


ОРЕНБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ


Финансово-экономический факультет


Кафедра МММЭ


КУРСОВАЯ РАБОТА

по дисциплине "Многомерные статистические методы"


Компонентный и факторный анализ


ОГУ 061700.5001.06 00

Руководитель работы

__________________ Реннер А.Г.

“____”_____________2001г.

Исполнитель

студент гр.99ст

______________ Рамазанов М.И.


“_____”____________2001г.


Оренбург 2001

Содержание

Задание……………………………………………………………………………3

Введение……………………………………………………………………….….4

1 Исследование на мультиколлинеарность……………………………..……5

2 Метод главных компонент………………………………………………..….7

2.1 Вычисление главных компонент……………………………………….…7

2.2 Экономическая интерпретация полученных главных компонент…..…12

2.3 Матрица наблюденных значений главных компонент……………...….12

2.4 Классификация объектов…………………………………………………13

2.5 Уравнение регрессии на главные компоненты………………………….13

3 Факторный анализ………………………………...…………………………15

3.1 Преобразование матрицы парных коэффициентов корреляции в редуцированную матрицу, получение матрицы факторных нагрузок и экономическая интерпретация ………………………………………………..…...16

3.2 Графическая классификация объектов по двум общим факторам…….19

3.3 Переход к обобщенным факторам с помощью варимаксного

вращения ……………………………………………………………………...19

3.4 Построение функции регрессии на выделенные общие факторы…......21

Список использованной литературы………………………………………...22

Приложения………………………………………………………..………...…23


Задание

По имеющимся данным производственно-хозяйственной деятельности предприятий машиностроения:

Y1 – производительность труда;

X5 – удельный вес рабочих в составе ППП;

X6 – удельный вес покупных изделий;

X7 – коэффициент покупных изделий;

X9 – удельный вес потерь от брака;

X17 – непроизводственные расходы.

1. Выявить наличие мультиколлинеарности.

2. Снизить размерность признакового пространства и удалить наличие мультиколлинеарности следующими методами:

Метод главных компонент:

  • для факторных признаков найти оценку матрицы парных коэффициентов корреляции, найти собственные числа и собственные вектора;

  • на основании матрицы собственных чисел определить вклад главных компонент в суммарную дисперсию признаков, отобрать и указать m (m

  • построить матрицу факторных нагрузок A и дать экономическую интерпретацию;

  • по матрице наблюденных значений главных компонент F провести классификацию объектов по первым двум главным компонентам, дать интерпретацию;

  • используя вектор значений результативного признака Y и матрицу F построить уравнение регрессии.

Метод общих факторов:

  • оценить матрицу парных коэффициентов ;

  • преобразовать матрицу в редуцированную матрицу h;

  • получить первые три общих фактора и дать экономическую интерпретацию по матрице факторных нагрузок;

  • на основе матрицы F провести графически классификацию объектов по первым двум общим факторам;

  • построить функцию регрессии на выделенные общие факторы.


Введение

Наличие множества исходных признаков, характеризующих процесс функционирования объектов, заставляет отбирать из них наиболее существенные и изучать меньший набор показателей. Чаще исходные признаки подвергаются некоторому преобразованию, которое обеспечивает минимальную потерю информации. Такое решение может быть обеспечено методами снижения размерности, куда относят факторный и компонентный анализ. Эти методы позволяют учитывать эффект существенной многомерности данных, дают возможность лаконичного или более простого объяснения многомерных структур. Они вскрывают объективно существующие, непосредственно не наблюдаемые закономерности при помощи полученных факторов или главных компонент. Они дают возможность достаточно просто и точно описать наблюдаемые исходные данные, структуру и характер взаимосвязей между ними. Сжатие информации получается за счет того, что число факторов или главных компонент – новых единиц измерения – используется значительно меньше, чем было исходных признаков.


1. Исследование на мультиколлинеарность объясняющие пере­менные.


Приведем результаты по исследованию на мультиколлинеарность:

  1. Коэффициенты корреляционной матрицы для объясняющих переменных не превышают 0,75, то есть тесная линейная связь между компонентами не подозревается.

  2. Найдем определитель матрицы XTX, det(XTX)= 1.425E+6 - мал. Необходимое условие мультиколлинеарности (плохой обусловленности системы).

  3. В численных методах обусловленность системы характеризуется числом обусловленности М

, где - собственные числа матрицы системы линейных уравнений.

Если число обусловленности велико, то система плохо обусловлена (порядка выше 10).

Собственные числа матрицы =2.292, =1.042, =0.952, =0.659, =0.055.

- велико система плохо обусловлена.

  1. Анализ корреляционной матрицы позволяет лишь в первом приближении (и относительно поверхностно) судить об отсутствии мультиколлинеарности в наших исходных данных. Более внимательное изучение этого вопроса достигается с помощью расчёта значений коэффициентов детерминации каждой из объясняющих переменных на все остальные.

Проверим с уровнем значимость множественных коэффициентов корреляции.

Строим статистику:

Если

Т. к. все то отвергаем нулевую гипотезу, т. е. будем считать, что все генеральные множественные коэффициенты корреляции не равны нулю, т. е. значимы.

Для наибольшего значимого множественного коэффициента корреляции получим оценку уравнения регрессии.

(0,302) (0,524) (0,0003) (0,079)

С учётом значимых коэффициентов получим:


Выявили наличие мультиколлениарности, одним из методов ее устранения является метод главных компонент.



2 Метод главных компонент

Компонентный анализ относится к многомерным методам снижения размерности. Он содержит один метод – метод главных компонент. Главные компоненты представляют собой ортогональную систему координат, в которой дисперсии компонент характеризуют их статистические свойства.

Учитывая, что объекты исследования в экономике характеризуются большим, но конечным количеством признаков, влияние которых подвергается воздействию большого количества случайных причин.


2.1 Вычисление главных компонент


Первой главной компонентойZ1 исследуемой системы признаков Х1, Х2, Х3 , Х4 ,…, Хn называется такая центрировано – нормированная линей­ная комбинация этих признаков, которая среди прочих центрировано – нормированных линейных комбинаций этих признаков, имеет дисперсию наиболее изменчивую.

В качестве второй главной компоненты Z2 мы будем брать такую цен­трировано – нормированную комбинацию этих признаков, которая:

  1. не коррелированна с первой главной компонентой,

  2. среди всех возможных комбинаций исходных признаков, которые не

не коррелированны с первой главной компонентой, эта комбинация имеет наибольшую дисперсию.

K-ой главной компонентой Zk (k=1…m) мы будем называть такую центрировано – нормированную комбинацию признаков, которая:

  1. не коррелированна с к-1 предыдущими главными компонентами,

  2. среди всех возможных комбинаций исходных признаков, которые не

не коррелированны с к-1 предыдущими главными компонентами, эта комбинация имеет наибольшую дисперсию.

Введём ортогональную матрицу U и перейдём от переменных Х к переменным Z, при­чём

Вектор выбирается т. о., чтобы дисперсия была максимальной. После получения выбирается т. о., чтобы дисперсия была максимальной при условии, что не корре­лированно с и т. д.


Так как признаки измерены в несопоставимых величинах, то удобнее будет перейти к центрированно-нормированным величинам. Матрицу исходных центрированно-нормированных значений признаков найдем из соотношения:

,


где - несмещенная, состоятельная и эффективная оценка математического ожидания,

-несмещенная, состоятельная и эффективная оценка дисперсии.

Матрица наблюденных значений исходных признаков приведена в Приложении.

Центрирование и нормирование произведено с помощью программы"Stadia".


Так как признаки центрированы и нормированы, то оценку корреляционной матрицы можно произвести по формуле:


.

Перед тем как проводить компонентный анализ, проведем анализ незави­симости исходных признаков.

Проверка значимости матрицы парных корреляций с помощью кри­терия Уилкса.

Выдвигаем гипотезу:

Н0: незначима

Н1: значима

Строим статистику , распределена по закону с степенями свободы.

=125,7; (0,05;3,3) = 7,8

т.к > , то гипотеза Н0 отвергается и матрица является значимой, следовательно, имеет смысл проводить компонентный анализ.

Проверим гипотезу о диагональности ковариационной матрицы

Выдвигаем гипотезу:

Н0: соv=0,

Н1: соv

Строим статистику , распределена по закону с степенями свободы.

=123,21, (0,05;10) =18,307 т.к > то гипотеза Н0 отвергается и имеет смысл проводить компонентный анализ.


Для построения матрицы факторных нагрузок необходимо найти собственные числа матрицы , решив уравнение.

Используем для этой операции функцию eigenvals системы MathCAD, которая возвращает собственные числа матрицы:

Т.к. исходные данные представляют собой выборку из генеральной сово­купности, то мы получили не собственные числа и собственные век­тора матрицы, а их оценки. Нас будет интересовать на сколько “хорошо” со статистической точки зрения выборочные характеристики описывают соот­ветствующие параметры для генеральной совокупности.

Доверительный интервал для i-го собственного числа ищется по формуле:

Доверительные интервалы для собственных чисел в итоге принимают вид:

Оценка значения нескольких собственных чисел попадает в доверительный интервал других собственных чисел. Необходимо проверить гипотезу о кратности собственных чисел.

Проверка кратности производится с помощью статистики

, где r-количество кратных корней.

Данная статистика в случае справедливости распределена по закону с числом степеней свободы . Выдвинем гипотезы:


Так как , то гипотеза отвергается, то есть собственные числа и не кратны.

Далее,

:


Так как , то гипотеза отвергается, то есть собственные числа и не кратны.

:


Так как , то гипотеза отвергается, то есть собственные числа и не кратны.


Необходимо выделить главные компоненты на уровне информативно­сти 0,85. Мераинформативности показывает какую часть или какую долю дисперсии исходных признаков составляют k-первых главных компонент. Мерой информативности будем называть величину:

I1==0,458

I2==0,667

I3=

На заданном уровне информативности выделено три главных компоненты.


Запишем матрицу =

Для получения нормализованного вектора перехода от исходных признаков к главным компонентам необходимо решить систему уравнений: , где - соответствующее собственное число. После получения решения системы необходимо затем нормировать полученный вектор.

Для решения данной задачи воспользуемся функцией eigenvec системы MathCAD, которая возвращает нормированный вектор для соответствующего собственного числа.

В нашем случае первых четырех главных компонент достаточно для достижения заданного уровня информативности, поэтому матрица U (матрица перехода от исходного базиса к базису из собственных векторов)

Строим матрицу U, столбцами которой являются собственные вектора:

U=.

Матрица весовых коэффициентов:

А=.

Коэффициенты матрицы А являются коэффициентами корреляции ме­жду центрировано – нормированными исходными признаками и ненормиро­ванными главными компонентами, и показывают наличие, силу и направле­ние линейной связи между соответствующими исходными призна­ками и соответствующими главными компонентами.


2.2 Экономическая интерпретация полученных главных компонент


Коэффициент матрицы А представляют собой коэффициенты корреляции между i-ой главной компонентой и j-ым исходным признаком.

Так как первая главная компонента зависит главным образом от первого (X5 – удельный вес рабочих в составе ППП) и третьего (X7 – коэффициент сменности оборудования) исходного признака, следовательно ее можно обозначить как «Эффективность основного производства». Вторая главная компонента тесно взаимосвязана со вторым (X6 – удельный вес покупных изделий) и четвертым (X9 – удельный вес потерь от брака) исходными признаками, ее можно обозначить как «Удельный вес затрат не приносящих прибыль». Третья главная компонента взаимосвязана с четвертым исходным признаком, поэтому ее обозначим «Удельный вес потерь от брака».


2.3 Матрица наблюденных значений главных компонент.


Мы получили ненормированные главные компоненты. Проведя нормирование полу­ченных центрированных , полу­чим . При нормировании дисперсия должна рав­няться 1, . Для этого нужно разделить на среднеквадратическое отклонение .

Обозначим - это матрица весовых коэффициентов, с помощью которой уста­навливается связь между нормированными исходными признаками и нормирован­ными главными компонентами.

Модель метода главных компонент:

где

- значение I-той стандартизированной переменной по j-ому объекту наблюдения;

- m-тая главная компонента по j-ому объекту наблюдения;

- весовой коэффициент m-той главной компоненты и I-той переменной.

Эту матрицу будем строить, исходя из соотношения ,

где - диагональная матрица, на главной диагонали которой стоят дисперсии соответствующих главных компонент в минус первой степени;

- транспонированная матрица факторных нагрузок;

Х-

Если Вам нужна помощь с академической работой (курсовая, контрольная, диплом, реферат и т.д.), обратитесь к нашим специалистам. Более 90000 специалистов готовы Вам помочь.
Бесплатные корректировки и доработки. Бесплатная оценка стоимости работы.

Поможем написать работу на аналогичную тему

Получить выполненную работу или консультацию специалиста по вашему учебному проекту
Нужна помощь в написании работы?
Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Пишем статьи РИНЦ, ВАК, Scopus. Помогаем в публикации. Правки вносим бесплатно.

Похожие рефераты: