http://www.5alw.com- 我爱论文网

网站资讯通告:我爱论文网提供论文代写,发表论文,代写毕业论文,代写硕士论文,职称论文发表等论文相关服务。
搜索: 您现在的位置: 我爱论文网 >> 论文考试 >> 论文期刊资源 >> 工程技术 >> 正文

汽车数据分析

作者:佚名    论文来源:本站原创    点击数:    更新时间:2011-11-6

汽车产业是一个国家整个工业的象征和标志,是发达国家国民经济的支柱产业。汽车产业是一个带动性很强的产业,她几乎涉及到所有工业行业,如机械制造、能源、电子(器)、化工、冶金、交通运输等。她的发展,不仅占据着国民经济的重要地位,同时也改变和影响着人们的生活。正因为如此,自从福特发明了汽车以来,世界各国特别是西方发达国家都非常重视汽车工业的发展。整个西方发达国家如美国、日本等被形容为汽车轮子上的国家。汽车改变了社会,也改变了人们的生活。
数据分析就是分析和处理数据的理论与方法,从中获得有用的信息。从这个意义上讲,数据分析存在固定的解决方法,分析的目的和分析的方法不同,从同一数据中发掘出各种有用信息。数据分析作为信息的主要载体在当今信息化社会中扮演着重要角色。基于统计方法对各型汽车数据进行分析,将有利于人们对汽车行业发展的认识,且便于消费者今后对汽车进行挑选,选择合适的汽车类型。
2 基于主成分思想的汽车优劣排序
2.1 主成分分析基本原理
主成分分析[1]的主要目的就是对原变量加以“改造”,在不致损失原变量太多信息的条件下尽可能地降低原变量的维数,即用为数较少的“新变量”代替原变量。在实际问题中,总体 的协方差矩阵 (或相关系数矩阵 )一般是未知的,具有的资料只是来自于X的一个容量为n的样本观测数据
                                  (2.1)
这时,我们便可用其样本协方差矩阵S或样本相关系数矩阵R分别作为 或 的估计进行主成分分析,且
                              (2.2)
                    (2.3)
其中
 ,
 
关于S的样本主成分,我们有如下结论:
设 为样本协方差矩阵,其特征值为 ,相应的正交单位化特征值向量为 ,这里 。则第k个样本主成分可表示为
                       (2.4)
其中 表示 的观测值。当依次代入观测值 时,便得到第k个样本主成分yk的n个观测值 ,我们称之为第k个样本主成分的得分。这时容易得到第k个样本主成分的贡献率为 ,前m个样本主成分的累计贡献率为 。
从样本相关系数矩阵R出发进行主成分分析,即相当于从标准化样本
                        (2.5)
的样本协方差矩阵出发进行主成分分析,只要求出R的特征值及相应的正交单位化特征向量,则类似于上述的结果均成立,这时标准化样本的样本总方差为p。
实际应用中,将样本观测值 逐个代入各主成分中,可得到各样本主成分的相应观测值 ,即各主成分的得分。为便于理解和对照,本文用表1的形式给出原始数据及其主成分得分。
表1 原始数据及其主成分得分
序 号 原变量
选取前m(m<p)个样本主成分,使其累计贡献率达到一定的要求(如80%到90%),以前m个主成分的得分代替原始数据,这样便可达到降低原始数据维数的目的,同时也不致损失原始数据的太多信息。
2.2 汽车排序结果分析
首先对数据进行标准化处理,然后对标准化处理之后的数据利用MATLAB[2]进行分析,得到其相关系数矩阵R(如表2所示)。
表2 相关系数矩阵R
 MPG Weight Drive_Ratio Horsepower Displacement Cylinders
MPG 1.0000 -0.3380 -0.3211 0.8623 -0.2806 -0.4120
Weight -0.3380 1.0000 -0.4605 -0.3770 0.9603 -0.4058
Drive_Ratio -0.3211 -0.4605 1.0000 -0.2600 -0.4608 0.9161
Horsepower 0.8623 -0.3770 -0.2600 1.0000 -0.3226 -0.3671
Displacement -0.2806 0.9603 -0.4608 -0.3226 1.0000 -0.3996
Cylinders -0.4120 -0.4058 0.9161 -0.3671 -0.3996 1.0000
表3 主成分及贡献率
主成分 特征值 方差贡献率(%) 累计贡献率(%)
1 2.8041 46.7342 46.7342
2 2.4996 41.6593 88.3935
3 0.4468 7.4465 95.8401
4 0.1367 2.2783 98.1184
5 0.0778 1.2966 99.4150
6 0.0351 0.5850 100.0000
因当前m个主成分的累计贡献率达到一定的比例(如80%以上)时,就可以用前m个主成分Y1,Y2,...,Ym代替原始变量X1,X2,...,X20,不但可使原始变量的维数降低,也不至于损失原始变量中的太多信息。由表5可知,当m=2时,此时的累计贡献率只有88.3935%,即选用前两个主成分。在原始数据的相关系数矩阵R基础上,计算得到主成分(因子)载荷矩阵,如表4所示。
表4主成分(因子)载荷矩阵
变量名 主成分
 1 2
MPG -0.0320 -0.9317
Weight -0.8475 0.4541
Drive_Ratio 0.8450 0.3934
Horsepower 0.0266 -0.9271
Displacement -0.8459 0.4131
Cylinders 0.8090 0.4903
依据表2~表4中的数据可计算可出各型汽车的综合得分,并依据其得分可对各型汽车进行排名,具体情况请见表5。
表5 各型汽车主成分得分、主成分综合得分及排名表
汽车编号 主成分1得分 主成分2得分 综合得分 排名
1 0.1248 0.0539 0.1786 4
2 -0.0782 0.0409 -0.0373 19
3 -0.0780 0.0638 -0.0142 15
4 -0.0018 -0.1254 -0.1272 34
5 -0.0262 -0.2803 -0.3066 38
6 0.0596 0.0277 0.0874 13
7 0.1049 0.0387 0.1435 8
8 -0.0661 0.0353 -0.0308 16
9 -0.0733 0.0637 -0.0096 14
10 -0.0021 -0.0956 -0.0977 31
11 -0.0237 -0.1898 -0.2135 37
12 0.0688 0.0350 0.1039 12
13 0.1157 0.0453 0.1610 6
14 -0.0906 0.0479 -0.0427 21
15 -0.1161 0.0809 -0.0353 17
16 -0.0021 -0.1002 -0.1023 32
17 -0.0205 -0.1758 -0.1963 36
18 0.0768 0.0384 0.1152 11
19 0.1293 0.0457 0.1751 5
20 -0.1137 0.0600 -0.0536 25
21 -0.1476 0.0912 -0.0564 26
22 -0.0041 -0.0851 -0.0892 29
23 -0.0243 -0.1644 -0.1887 35
24 0.0904 0.0472 0.1376 9
25 0.1704 0.0641 0.2345 1
26 -0.1071 0.0591 -0.0480 24
27 -0.1274 0.0802 -0.0472 22
28 -0.0020 -0.0635 -0.0655 27
29 -0.0216 -0.0741 -0.0956 30
30 0.0971 0.0530 0.1501 7
31 0.1557 0.0602 0.2160 2
32 -0.1045 0.0565 -0.0480 23
33 -0.1313 0.0892 -0.0421 20
34 -0.0026 -0.0736 -0.0762 28
35 -0.0241 -0.0981 -0.1222 33
36 0.0785 0.0411 0.1196 10
37 0.1531 0.0544 0.2074 3
38 -0.0810 0.0448 -0.0362 18
2.3 小结分析
由于统计数据中具体指标间的数量大小存在明显差异,会使得各变量取值的分散程度差异较大,这时变量的总方差则主要受方差较大的变量控制,若由原始统计数据的协方差矩阵出发进行主成分分析,则优先照顾了方差较大的变量,这不但会给主成分变量的解释带来困难,有时还会造成不合理的结果。为了消除原变量彼此方差差异过大的影响,本文是在原始统计数据的相关系数矩阵基础上进行的主成分分析。从主成分分析结果可看出,排在第一的是编号25的汽车(U.S. AMC Spirit),而倒数第一的是编号为5的汽车(U.S. Chevette)。进行汽车排名的意义位于方便今后客户购车的需要,且为汽车各大生产产商提供了参考建议。
3 基于谱系聚类的汽车样本分类
谱系聚类法也称为系统聚类法,是应用较为广泛的一种聚类方法。谱系聚类法是根据植物分类学的思想对研究对象进行分类的方法。在植物分类学中,分类的单位是门、纲、科、属、种,其中种是分类的基本单位。分类单位越小,它包含的植物就越少,至五件的共同特征就越多。利用这种分类的思想,谱系聚类法首先视各样本自成一类,然后把最相近(距离最小)的样品聚为小类,再将已聚合的小类按其相近性(用类间距离度量)再聚合,随着相近性的减弱,最后将一切子类聚合为一个大类,从而得到一个按相近性大小聚结起来的谱系图,再进一步根据实际情况确定合适的分类个数[1][3]。
3.1 类间距离及其递推公式
为简单起见,以i,j分别表示样品 ,以 简记 与 的距离 ,设 , 分别表示两个类,它们分别含有 个样品。若类 中的样品为 ,则其均值
                                                   (3.1)
称为类 的重心。
类与类之间的距离有多种定义方法,如最短距离、最长距离、类平均距离与重心距离。以下记类 与 之间的距离记为 。
(1)最短距离
                                                  (3.2)
即用两类中样品间距离最短者作为两类间的距离。
(2)最长距离
                                                  (3.3)
即用两类中样品间距离最长者作为两类间的距离。
(3)类平均距离
                 (3.4)
即用两类中所有两两样品之间的平方距离作为两类间的平方距离。
(4)重心距离:
                                                   (3.5)
其中 分别是 , 的重心,即用两类的重心之间的距离作为两类间的距离。
按照谱系聚类的思想,先将样品聚合成小类,再逐步聚为大类。设类 由类 , 合并得到,则 包含 个样品。我们的问题是由 , 与其它类 的距离计算 与 的距离,即建立类间距离的递推公式,实现谱系聚类就方便了。下面是4种类型的类间距离的递推公式。
(1)最短距离
                                              (3.6)
事实上
 
(2)最长距离
                                              (3.7)
事实上
 
(3)类平均距离
                                             (3.8)
事实上
 
对于类平均距离的下列定义方式
 
同理可得地推公式
 
(4)重心距离
                                  (3.9)
事实上,由 , 的合并集 的重心是
                                             (3.10)

   (3.11)
由 ,有
     (3.12)
3.2 谱系聚类法的步骤
谱系聚类法的步骤如下:
(1)n个样本开始作为n个类,计算两两之间的距离,构成一个对称距离矩阵
                                        (3.13)
此时, 。
(2)选择 中主对角线以下(或以上)的最小元素,设这个元素是 ,这时 ,首先将 , 合并成一个新类 。在 中消去 , 所对应行与列,并加入由新类 与剩下的其他未聚合的类间的距离所组成一行和一列,得到一个更新的距离矩阵 ,它是n-1阶矩阵。
(3)从 出发重复步骤(2)的做法得 ,再由 出发重复上述步骤,直到n个样品聚为一个大类为止。
(4)在合并过程中要记下合并样品的编号及两类合并时的距离(称为距离水平),并绘制聚类谱系图。
3.3 汽车分类结果
在表5中38型汽车样品进行聚类,根据前面介绍的算法,利用MATLAB[2]软件编写相关程序,进行汽车样本的聚类。
(1)类间最短距离下的汽车分类情况
 
图1  38个汽车样本的最短距离法谱系图
(2)类间最长距离下的汽车分类情况
 
图2  38个汽车样本的最长距离法谱系图
(3)类平均距离下的汽车分类情况
 
图3  38个汽车样本的类平均距离法谱系图
(4)重心距离下的汽车分类情况
 
图4  38个汽车样本的重心距离法谱系图
3.4 小结分析
从图1~图4可以看出,在不同定义距离下的谱系图有所差异,即将各型汽车样品划分为不同类别的情况各不相同。但当把汽车样本划分为两大类时,划分情况是一致的,即编号为1、2、3、4、16、17、18、19与20的汽车样本为一类,剩下的为另一类。
而且当把汽车样本分为较小的类别时,发现编号为13、14与15的汽车样本间的定义距离较小。通过统计数据可观察得到,不管是13、14、15还是1、2、3、4、16、17、18、19与20,美国产汽车之间的距离相对较近,且划分为同一类的概率较大。说明了各国之间生产的汽车有特色,使其在汽车分类过程中,同一国家汽车分为同一类的概率较异国汽车分为同一类的概率大,且从另外一个角度说明,同一国家生产的汽车综合性能更为接近,这从表5(各型汽车主成分得分、主成分综合得分及排名表)即可看出。
参考文献
[1] 梅长林,范金城.数据分析方法[M].北京:高等教育出版社,2007.
[2] 张志涌.精通MATLAB6.5[M].北京:北京航空航天大学出版社,2003.
[3] 赵静.数学建模与数学实验[M].北京:高等教育出版社,2000


“汽车数据分析”版权归作者所有,转载请著名出处。  
Tags:汽车数据分析  
责任编辑:wuyou
相关论文列表
没有相关论文

联系方式

我爱论文网提供毕业论文代写,职称论文发表等相关论文服务,如有需要请通过下面的联系方式联系我们:
如需通过企业QQ咨询请点击
我们的专用企业QQ号码是:4000290153
电话咨询请拨打免费电话:400-029-0153
邮件咨询地址:4000290153@b.qq.com
  • 此栏目下没有推荐论文
  • 此栏目下没有热点论文
设为首页 | 加入收藏 | 友情链接 | 版权申明 | 网站地图