搜索
您的当前位置:首页正文

因子分析例题

2020-02-24 来源:年旅网
因子分析

因子分析(Factor Analysis)是主成分分析的推广,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合变量的一种多变量统计分析方法。

第一节 因子分析的基本思想 首先我们看下面两个实际例子:

例1. 例1. 某企业招聘人才,对每位应聘者进行外貌、申请书的形式、专业能力、讨人喜欢的能力、自信

心、洞察力、诚实、推销本领、经验、积极性、抱负、理解能力、潜在能力、实际能力、适应性等15个方面的考核。这15个方面可归结为应聘者的外露能力、讨人喜欢的能力、经验、专业能力4个方面,每一方面称之为一个公共因子。企业可根据这4个公共因子的情况来衡量应聘者的综合水平。

例2. 例2. 在企业经济效益的评价中,有经济效益的指标体系。通常这个指标体系有八项指标:固定资产

利税率、资金利税率、销售收入利税率、资金利税率、固定资产产值率、流动资金周转天数、万元产值能耗、全员劳动生产率等。这八项指标可概括为盈利能力、资金和人力利用、产值能耗三个方面。这三个方面在企业的生产经营活动中为主要因子,起着支配作用,企业要提高经济效益就要在这三个公共因子方面下功夫。

因子分析的基本思想:是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。

因子分析分为两类,即R型因子分析(对变量作因子分析),Q型因子分析(对样品作因子分析)。 第二节 第二节 因子分析的数学模型

1. 1. 模型(R型) 设有 即

X(x1,x2,,xp)为观察到的随机向量,

F(F1,F2,,Fm)是不可观测的向量。

1其中

满足假设:

(,,p)'p

称作误差或特殊因子。

1)m2)cov(F,)0,

var(F)Im,var()diag(1,,p)。 3)

aF称i为第i个公共因子,ij为因子载荷。

因子分析与主成分的关系:

联系:两者都可以看作逼近协方差矩阵。

差别:主成分分析的数学模型是一种变换,因子分析模型是描述X的协方差的结构的一种模型。其次,主成分中ij唯一确定,但因子分析中,每个因子的系数不是唯一的。与多变量回归分析不同,此处的“自变量”F是不可观测的。

2.公共因子:因子载荷和变量共同度的统计意义。 假定因子模型中,所有变量和因子都已标准化。 (1) (1) 因子载荷的统计意义 设

22axiai1F1ainFmi i1,,p E(xiFj)aikE(FkFj)aikr(FkFj)aijK1K1mm则 由于

Fk,Fj不相关,且r(FjF1)1 即aijrxi,Fj

因子载荷

aij是第i个变量与第j个公共因子的相关系数。

(2)变量共同度的统计意义:

mhiaij2j1m2x (i1,,p)称作变量i的共同度:

22m2222j1var(xi)var(aijFj)var(i)aijvar(Fj)iaijihiij1

多。

1h 即共同度是公共因子所占的xi的方差,其共同度越大,说明公共因子包含的xi的信息就越

2i2i

(3)公共因子j的方差贡献的统计意义 因子载荷矩阵中列的平方和。 称

Fsj为公共因子j对i的贡献,是衡量公共因子相对重要性的指标。 第三节 第三节 因子载荷的估计方法 这是常用的主成分法,设随机向量

FxX(x1,,xp)'的协方差为, 的特征值为

12p0当公共因子

其相应的特征向量为

e1,e2,ep,(标准正交基) 则:

Fi有P个时,特殊因子为0,所以,XAF A为因子载荷阵。

因此,D(X)var(AF)Avar(F)A'AA' 所以,所以,分法。 当最后此时,

AA', 因此,A为(

ej与

1e1,,pep),

A(1e1,,pep) 所以第j列因子载荷为第j个主成分

j的乘积。所以称为主成

pm个特征根很小时,去掉m1em1,,pep

A(1e1,,mem),

22AA'=(1e1,,mem)(1e1',,mem')'+diag(1,,p) 方差

ˆˆp为样本相关阵另外,当未知时,用样本协方差s代替,或样本相关阵R代替。一般设1ˆ(aˆ1,,eˆpˆij)eAmpR的特征根,相应的标准正交化特征向量为。设,则因子载荷阵的估计为即

第四节 第四节 因子旋转

建立因子分析数学模型的目的不仅是为了找出公共因子,更重要的是要知道每个公共因子的意义,以便对实际问题进行分析。如果每个公共因子的涵义不清,不便于对实际背景进行解释,这时根据因子载荷阵的不唯一性,可对因子载荷阵实行旋转,即用一个正交阵右乘使旋转后的因子载荷阵结构简化,便于对公共因子进行解释。所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上的载荷比较小。这种变换因子载荷的方法称为因子旋转。

因子旋转有方差最大正交旋转和斜交旋转,此处只介绍方差最大正交旋转。 先考虑两个因子的平面正交旋转,设因子载荷矩阵为:

ˆeˆˆˆA(11,,mem)a11a12a21a22Aap1ap2cossin,

 为正交矩阵。

sincos

b11b12bbp2 p1 (*)

这样做目的是希望所得结果能使载荷矩阵的每一列元素按其平方值说或者尽可能大或者尽可能小,即向1和0两极分化,或者说因子的贡献越分散越好。这实际上是希望将变量

x1,x2,,xp分成两部分,

2222(b,,b),(b,,b11p112p2)一部分主要与第一因子有关,另一部分主要与第二因子有关,这也就是要求

这两组数据的方差要尽可能地大,考虑各列的相对方差

这里取bi是为了消除符号不同的影响,除以hi是为了消除各个变量对公共因子依赖程度不同的影响。现在要求总的方差达到最大,即要求使

22GV1V2达到最大值,于是考虑G对的导数,求出最大值。

如果公共因子多于2个,我们可以逐次对每2个进行上述的旋转,当公共因子数m2时,可以每次取2个,全部配对旋转,旋转时总是对

A阵中第列、列两列进行,此时公式(*)中只需将

2aj1aj,

aj2aj就行了。因此共需进行次旋转,但是旋转完毕后,并不能认为就已经达

到目的,还可以重新开始,进行第二轮cm次配对旋转。依次进行,可以是总的方差越来越大,直到收敛到某一极限。

例:考察我国各省市社会发展综合状况 一、 一、运用方法:多元统计—因子分析

因子分析的基本思想:通过变量的相关系数矩阵内部结构的研究,找出能够控制所有变量的少数几个随机变量的少数几个随机变量去描述多个变量之间的相关关系,但在这里,这少数.几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,只得同组内的变量之间相关性较高,但不同组的变量相关性较低。 二、 二、因子分析方法的计算步骤: 第一步:将原始数据标准化。 第二步:建立变量的相关系数R。

第三步: 求R的特征根极其相应的单位特征向量。 第四步:对因子载荷阵施行最大正交旋转。 第五步:计算因子得分。

以下是我国各省市综合发展情况做因子分析。数据表中选取了六个指标分别是:人均GDP(元)X1,新增固定资产(亿元)X2,城镇居民人均年可支配收入(元)X3,农村居民机家庭纯收入(元)X4,高等学校数量(所)X5,卫生机构数量(所)X6。 原始数据见下表: 地区 人均gdp 新增资产 城镇人均 农村人均 高校数量 卫生机构 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 10265 8164 3376 2819 3013 6103 3703 4427 15204 5785 6149 30.81 49.13 77.76 33.97 54.51 124.02 28.65 48.51 128.93 101.09 41.88 6235 4929 3921 3305 2863 3706 3174 3375 7191 4634 6221 3223 2406 1668 1206 1208 1756 1609 1766 4245 2456 2966 65 21 47 26 19 61 43 38 45 67 37 4955 3182 10266 5922 4915 6719 3891 7637 5286 12039 8721 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 四 川 贵 州 云 南 陕 西 甘 肃 青 海 宁 夏 2521 5386 2376 4473 2475 3341 2701 6380 2772 4802 2516 1553 2490 2344 1925 2910 2685 55.74 18.35 26.28 102.54 71.36 37.75 43.01 51.82 32.52 5.35 80.97 22.07 48.48 26.31 14.84 4.16 7.94 3795 4506 3376 4264 3299 4208 4699 7438 4791 4770 4002 3931 4085 3309 3152 3319 3382 1302 2048 1537 1715 1231 1511 1425 2699 1446 1519 1158 1086 1010 962 880 1029 998 35 30 31 48 50 56 47 42 27 5 64 22 26 46 17 7 7 6593 4537 5423 10463 7661 9744 9137 8848 5571 1653 18885 3934 6395 6215 4131 1176 1028 新 疆 3935 26.65 4163 1136 21 3932 数据来源《中国统计年鉴》 1、将原始数据标准化

2、建立六个指标的相关系数阵R 3、共因子方差

4、总方差解建立因子载荷阵: 5、建立因子载荷阵:

由于前三个特征值的累计贡献率已达93.505%,所以取前三个特征值建立因子载荷阵如下: 6、对因子载荷阵施行方差最大旋转,旋转后得正交因子表矩阵如下: 由此有:

X1=0.947F1+0.178F2-0.115F3 X2=0.940F1+0.105F2+0.261F3 X3=0.893F1-0.0747F2+0.404F3 X4=0.0364F1+0.967F2+0.09455F3 X5=0.212F1+0.830F2+0.345F3 X6=0.222F1+0.493F2+0.806F3 7、输出因子成份得分系数矩阵

最后,由上述表可见,每个因子只有少数几个指标的因子载荷较大,因此可根据上表分类,将6个指标按高载荷分成3类,列于下表: 高载荷指标 因子命名 1 人均GDP 城镇居民人均年可支配收入, 农村居民家庭纯收入, 2 3

高等学校 卫生机构 新增固定资产 投资因子 社会因子 收入因子

因篇幅问题不能全部显示,请点此查看更多更全内容

Top