当前位置:首页 >> 数学 >> 11组作业3

11组作业3


中超球队赛场综合能力评估的解决方法
摘 要
本文利用因子分析法和聚类分析法,从积分榜和技术统计表中的积分、净胜 球、 抢断等共计 22 个指标出发, 对 2014-2015 中国足球超级联赛中 16 只球队的 综合能力进行评估分析,建立综合能力评估模型。 我们首先借助相关系数矩阵, 考察原有的 22 个变量是否适合进行因子分析, 排除了黄牌数、红牌数、中门柱、

犯规、胜球、丢球和净胜球,共 7 个变量。其 次,采用主成分分析法提取出因子,选择大于 1 的 4 个特征值,并采用回归法估 计因子得分系数。然后,通过系统聚类分析的组间连接法对因子分析进行检验, 聚类分析法的分析结果与前述因子分析的结果基本一致。最后, 采用计算因子加 权总分的方法对本赛季各球队前 10 轮的表现进行综合评价,并运用 SPSS 和 EXCEL 软件得出本赛季联赛水平的数据分析报告。

关键字:综合能力评估模型、因子分析法、聚类分析、相关系数矩阵

一、问题重述
中国足球协会超级联赛(官方英文名称:Chinese Football Association Super League,简称为 CSL)是由中国足球协会组织的,是中国大陆地区最优秀的职业 足球俱乐部参加的全国最高水平的足球职业联赛,仿照英格兰足球超级联赛,简 称为中超联赛。该联赛开始于 2004 年,脱胎自原中国足球甲级 A 组联赛。 2012 年中国足球超级联赛十六只球队单赛季投入超过 30 亿人民币(约 5 亿美元) ,为历届最高;一些财力雄厚的球队亦网罗了如孔卡,德罗巴,阿内 尔卡,凯塔,罗申巴克,卡努特,雅库布,巴里奥斯等球星,中超自赌球风波后 再次开始被中国国内社会甚至世界球坛所关注;而 2012 年全年的票房亦为 2004 年中超成立以来最高。 2013 年意大利冠军教头里皮率领的广州恒大取得重大突破,获得亚冠 的冠军,提升了中超在世界的影响力。在 2013 年国际足球历史和统计联合会
1

(IFFHS) 公布的世界足球联赛排行榜中, 中超联赛以 430.5 分排在世界第 34 位、 亚洲第 4 位,排在乌拉圭、波兰、瑞典、美国等国联赛之前。值得一提的是,中 超联赛较 2012 年排名提升了 36 个位次,上升幅度在亚洲联赛中位居第一位。 2014 年 3 月 7 日,新赛季中国足球超级联赛正式拉开帷幕,迄今已战 罢 10 轮,请利用附录数据或者其他物联网数据,建立合理的数学模型,对本赛 季各球队前 10 轮的表现进行定量的评估,并解决如下问题: 1、 构建合理的球队赛场综合能力评价指标体系。 2、利用附录数据或者其他物联网数据,建立合理的数学模型,对本赛季各 球队前 10 轮的表现进行定量的评估。 3、 请给中国足协写一份反映本赛季联赛水平的数据分析报告。

二、问题分析
中国足球协会超级联赛始于 2004 年,是中国大陆地区最优秀的职业足球联 赛。2012 年,中国足球投资创造了历史,足球联赛的火爆也创造了历史。赛季 中超联赛球队的积分排名并不是各球队真实的实力体现,可以从积分、净胜球、 抢断等 22 个指标来综合评定球队实力,使得评价更客观、准确,其得分排名更 能体现出球队的实力,对球队延续性的相关研究,所得出的研究成果更准确性、 客观。 针对问题 1,从积分榜和球员技术统计表中共收集 22 个变量,因为收集的 变量过多,并且部分变量间信息的高度重叠,所以需要依据相关系数矩阵,削减 参与数学建模的变量个数至 15 个,减少分析的复杂度,从而构建合理的球队赛 场综合能力评价指标体系。 针对问题 2,利用附录数据,用较少的因子反映原有变量的绝大部分信息, 建立因子分析的数学模型,对球队赛场能力进行综合分析,再建立聚类分析组间 连接模型对因子分析进行检验,使得评价更客观、准确,最终得出本赛季各球队 前 10 轮的综合能力排名。 针对问题 3,从 22 个指标中,概括出技术战略能力、赛场发挥水平、防守 能力、球队间水平差异四种主要能力指标,根据问题二对其排名分别进行分析, 得出本赛季联赛水平的数据分析报告。
2

三、问题假设
1. 参赛各队存在客观的真实实力,这是任何一种综合排名的基础。 2. 设净胜球对实力的影响小于胜负影响,即优先比较胜负关系。若胜负场次相 同即认为实力相差不大,不能说明两队实力情况。 3. 假设每次比赛裁判的判决时公正的,且评判标准一致 4. 假设每个球队在 10 场比赛中每次水平没有太大的起伏 5. 假设每个球队的每次比赛相互独立,这一次的结果不会对下次比赛产生影响

四、符号说明
X i :表示各种指标的结果 (1 ? i ? 15)
F1
:技术战略能力因子

F2 :赛场发挥水平因子 F3 :防守能力因子 F4 :球队间水平差异因子
F :综合得分因子

duv :表示 A 类中的样本 xu 和 B 类中的样本 xv 之间的距离 DAB :表示 A,B 两个聚类间的最短距离 Dn?n :表示已分类的 16 个球队间的的距离 ? n ? 1,2,?,16?

五、模型的建立与求解
5.1.1 问题一模型的建立 进行积分榜和球员技术的数据统计分析,必须对原有的变量进行浓缩,将原 有变量中的信息重叠部分提取和综合,选取合适的指标,做到全面准确地反映球 队赛场综合能力。 表 5.1.1 各球队及其各指标值
3

序 号

1 广 州 恒 大

2 北 京 国 安

3 广 州 富 力

4 山 东 鲁 能

5 上 海 上 港

6 贵 州 人 和

7 杭 州 绿 城

8 江 苏 舜 天

9 上 海 绿 地

10 辽 宁 宏 运

11 大 连 阿 尔 滨 19

12 河 南 建 业

13 长 春 亚 泰

14 天 津 泰 达

15 上 海 申 鑫

16 哈 尔 滨 毅 腾 22

球 队

黄 牌 数 红 牌 数 越 位 控 球 率 中 门 柱 角 球 界 外 球 胜 平 负 进 球 丢 球 净 胜 球 积 分 射 门 传 球 传 威 胁 球 传 中

16

18

18

27

22

19

14

15

21

21

14

23

11

20

0

1

2

0

3

1

1

1

1

0

1

1

0

2

1

3

26 57 .3 7 2

27 58 .2 6 1

12 54 .3

25 54 .2

27 50 .2

32 47 .8 5 2

17 49 .5

24 54 .4 6 7

16 48 .9 5 2

16 42 .5 9 2

18 49. 62

24

19 44 .0 9 4

17 51 .9 3 3

27 52 .5 6 2

13 40. 1

44

4

2

4

5

1

2

0

65 25 6 9 0 1 31 9

56 23 9 8 0 2 11 5

43 21 5 5 4 1 22 10

84 26 3 6 1 3 12 6

44 23 1 4 4 2 14 13

49 22 6 4 3 3 12 8

49 21 3 4 2 4 16 18

60 29 6 3 4 3 14 12

38 19 7 2 4 4 9 13

36 23 3 2 4 4 8 12

46

36 20 1 2 4 4 10 17

46 21 5 2 3 5 10 13

55 24 0 2 3 5 9 16

32 20 9 2 3 5 5 13

40

223 2 4 4 11 17

221 1 1 8 7 19

22

6

12

6

1

4

-2

2

-4

-4

-6

-7

-3

-7

-8

-12

27 17 4 43 90 11 3 25 8

24 13 1 46 30

19 13 2 40 59

19 18 0 36 92 12 8 26 3

16 14 9 38 36 10 6 16 7

15 10 3 37 48

14 11 8 42 08

13 17 8 46 28 12 8 23 5
4

10 12 6 38 71

10 87 33 45

10 113 388 8

10 10 0 35 89

9 11 9 34 55

9 11 6 41 78

9 82 39 26

4 95 303 2

91

97

67

92

79

56

85

82

71

82

65

72

21 9

19 9

16 9

18 5

16 8

16 1

205

16 6

16 1

24 1

18 2

202

抢 断 犯 规 被 射 门 任 意 球 场 数

15 3 15 6 11 4 17 1 10

16 0 19 0 76

13 1 16 0 12 0 18 8 10

16 5 18 4 98

19 1 16 5 11 5 15 1 10

14 0 15 8 83

16 3 14 0 15 4 15 2 10

18 6 17 1 10 7 16 5 10

13 3 15 6 12 0 15 4 10

16 2 18 0 15 9 11 7 10

165 180

18 5 17 1 14 4 14 6 10

16 1 16 5 14 1 15 9 10

18 8 14 7 11 3 14 4 10

18 9 16 7 12 3 18 1 10

236 178

162

174

16 9 10

18 9 10

15 8 10

145

135

10

10

5.1.2 模型的求解 根据相关系数矩阵,如下表5.1.2所示,得出黄牌数、红牌数、中门柱和犯 规四个变量与其他变量的相关系数基本小于0.3,不存在较强的相互关系,自然 不存在信息重叠,那么也就无法将其综合和浓缩,所以我们将该四种变量排除, 不进行因子分析。 表5.1.2各变量之间的相关系数矩阵
传 任 意 球 任 意 球 被 射 门 犯 规 1. 00 0 -. 60 9 -. 01 3 抢 断 -. 34 7 传 中 .4 39 -. 35 6 传 威 .5 42 -. 40 .0 49 -. 03 .1 13 被 射 门 -. 60 9 1. 00 0 -. 01 5 .3 96 犯 规 -. 01 3 -. 01 5 1. 00 0 .2 41 1. 00 0 .0 92 1. 00 0 .7 02 1. 00 .5 54 .9 47 .7 06 5 .7 70 .4 52 .6 53 .2 33 .0 92 -. 03 7 .7 02 .2 41 抢 断 -. 34 7 .3 96 -. 35 6 .1 13 -. 40 0 .0 49 -. 59 5 -. 21 6 -. 31 5 .5 01 -. 19 0 .6 78 .7 28 .1 33 -. 12 9 .8 32 -. 48 6 .0 22 -. 40 7 .2 45 -. 51 1 .1 19 -. 13 7 -. 44 2 -. 12 5 .0 11 -. 71 8 -. 04 5 -. 36 4 .6 61 -. 05 2 .1 04 -. 12 4 -. 03 -. 67 2 .1 50 -. 13 0 .5 12 -. 02 3 -. 15 2 -. 02 .5 91 -. 50 1 .4 89 -. 33 0 -. 34 .5 82 .5 20 传 中 .4 39 威 胁 球 .5 42 传 球 .4 66 射 门 .5 23 界 外 球 .2 17 角 球 .4 75 中 门 柱 .2 03 控 球 率 .7 33 越 位 .3 47 红 牌 数 -. 17 2 .1 20 .0 21 -. 64 5 .0 34 -. 31 6 .5 39 黄 牌 数 .1 61 积 分 .5 79 丢 球 -. 59 9 .8 21 -. 55 8 -. 09 2 -. 56 7 .4 74 净 胜 球 .5 83

胁 球 传 球 .4 66

0

7

0

2

6

1

-. 59 5

-. 21 6 .0 22

-. 31 5 -. 19 0

.5 01

.5 54

1. 00 0

.5 35

.4 69

.4 02

.4 43

.8 76

.3 14

-. 11 3

-. 55 2 .0 75

.6 28

-. 37 1

.5 30

射 门

.5 23

-. 48 6

.6 78

.9 47

.5 35

1. 00 0

.7 30

.8 12

.4 30

.6 51

.2 54

-. 16 7

.6 54

-. 48 2

.6 89

界 外 球 角 球

.2 17

-. 40 7

.2 45

.1 33

.7 28

.7 06

.4 69

.7 30

1. 00 0

.7 45

.3 77

.4 92

.3 12

-. 18 7

-. 05 7 .1 05

.4 03

-. 41 8

.4 33

.4 75

-. 51 1

.1 19

-. 12 9

.8 32

.7 70

.4 02

.8 12

.7 45

1. 00 0

.1 47

.5 83

.3 10

-. 33 0

.5 97

-. 54 1

.5 69

中 门 柱 控 球 率 越 位

.2 03

-. 13 7

-. 44 2 -. 04 5 .1 50

-. 12 5 -. 36 4 -. 05 2

.0 11

.4 52

.4 43

.4 30

.3 77

.1 47

1. 00 0

.2 31

-. 00 5

-. 01 5 -. 15 1

-. 31 4 -. 21 4 .0 50

.0 76

.0 35

.1 83

.7 33

-. 71 8

.6 61

.6 53

.8 76

.6 51

.4 92

.5 83

.2 31

1. 00 0

.3 86

.7 84

-. 61 9

.6 91

.3 47

-. 67 2

.1 04

.2 33

.3 14

.2 54

.3 12

.3 10

-. 00 5

.3 86

1. 00 0

-. 22 9 1. 00 0 -. 12 9

.4 44

-. 53 7

.3 21

红 牌 数 黄 牌 数 积 分

-. 17 2 .1 61

.1 20

-. 13 0

.5 12

-. 12 4

-. 03 2 -. 02 6 .5 91

-. 11 3 -. 55 2 .6 28

-. 16 7 .0 75

-. 18 7 -. 05 7

-. 33 0 .1 05

-. 01 5 -. 31 4

-. 15 1 -. 21 4 .7 84

-. 22 9 .0 50

-. 12 9 1. 00 0 -. 04 4 -. 32 8

-. 27 6 -. 04 4 1. 00 0 -. 75 7 .9 30

.4 13

-. 30 8

.0 21

.5 20

-. 02 3

-. 15 2 .4 89

-. 32 8 -. 75 7 1. 00 0 -. 71 6

-. 02 3 .9 30

.5 79

-. 64 5

.0 34

-. 50 1

.6 54

.4 03

.5 97

.0 76

.4 44

-. 27 6

丢 球

-. 59 9

.8 21

-. 31 6

.5 39

-. 33 0

-. 34 1 .5 82

-. 37 1 .5 30

-. 48 2 .6 89

-. 41 8 .4 33

-. 54 1 .5 69

.0 35

-. 61 9

-. 53 7 .3 21

.4 13

-. 71 6 1. 00 0 .8 86

净 胜 球 进 球

.5 83

-. 55 8

-. 09 2 -. 33 5 .0 57

-. 56 7 -. 41 4 .6 57

.4 74

.1 83

.6 91

-. 30 8

-. 02 3 -. 24 9 .1 08

.3 96

-. 21 4

.4 26

.5 66

.4 74

.6 18

.3 12

.4 16

.2 72

.5 29

.0 80

-. 14 5

.7 63

-. 31 0



-. 51

.6 10

-. 24

-. 55

-. 62

-. 60

-. 31 6

-. 38

-. 30

-. 71

-. 39

.2 29

-. 87

.6 77

-. 86

3 平 -. 28 7 胜 .5 66 -. 61 7 .2 54 -. 17 1 .0 66 -. 12 6 -. 41 1

5 -. 57 7 .5 50

1 -. 24 5 .5 68

5 -. 19 1 .5 89

3 -. 28 5 .6 32

9 -. 26 8 .4 08

3 -. 55 5 .6 39

4 .3 81

8 -. 34 8

0 -. 22 7 .4 36 -. 27 6 .1 64 -. 10 0 -. 01 8

5 -. 51 8 .9 83 -. 73 9 .3 67

2 -. 39 7 .8 97

-. 01 4

.7 59

再排除变量中的信息重叠部分,即胜球数、丢球数和净球数三个变量,从而 选取了能够反映球队竞赛综合能力的15项指标,具体如下表5.1.3所示: 表5.1.3 各指标符号
指标符号 X1 X2 X3 X4 X5 X6 X7 X8 X9 X11 X12 X13 X14 X15 含义 任意球(个) 被射门(次) 抢断(次) 传中(次) 传威胁球(个) 传球(个) 射门(次) 界外球(个) 角球(个) 越位(次) 积分(分) 进球(个) 负(场) 平(场)

5.2 问题二模型的建立 5.2.1.1 因子分析模型的建立
因子分析是一种数据简化的技术,它是以最少的信息丢失为前提,将众多的 原有变量通过空间线性变换成较少几个综合指标的一种方法。 得到新的综合指标 称为公因子, 这些主成分不仅保留了原始指标的绝大部分信息,并且彼此之间的 线性关系不显著,其个数远远少于原有变量的个数。 本文采用因子分析方法,将问题一中有一定相关性的 15 个变量抽象为 4 个 抽象的因子, 再利用因子得分计算出每个评价对象的综合得分,并以此作为综合
7

评价的依据,运用 SPSS 和 EXCEL 进行分析求解。 5.2.1.2 模型的求解 根据问题一可知,收集的 15 个原有变量之间已存在一定的线性关系,适合采 用因子分析提取因子。根据相关系数矩阵如表 5.1.2 所示,15 个原有变量有任 意球、被射门、抢断、传中、传威胁球、传球、射门、界外球、角球、控球率、 越位、积分、进球、负、平。运用 SPSS 软件运行结果分析如下: 根据原有变量的相关系数矩阵, 采用主成分分析法提取因子并选取特征值大于 1 的特征值。 1、因子分析共同度 表 5.2.1 因子分析共同度结果
公因子方差 初始 任意球 被射门 抢断 传中 传威胁球 传球 射门 界外球 角球 控球率 越位 积分 进球 负 平 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 提取 .564 .880 .767 .869 .895 .632 .895 .842 .830 .837 .779 .923 .822 .917 .962

提取方法:主成份分析。

结果分析:该表显示了所有变量的共同度数据。第一列是因子分析初始解下 的变量共同度,均为 1(原始变量标准化后的方差为 1) 。事实上,因子个数小于 原有变量的个数才是因子分析的目的。所以,第二列列出了按指定提取条件提取 特征值的共同度。可以看到,所有变量的绝大部分信息(大于 83%)可被因子解 释,这些变量共同度较高,丢失的信息较少,因此本次因子提取的总体效果是比 较理想的。
8

2、

因子分析的总方差解释

表 5.2.2 因子分析的总方差解释
解释的总方差 初始特征值 成份 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 合计 7.851 2.190 1.343 1.029 .745 .639 .523 .207 .164 .131 .112 .042 .018 .005 方差的 % 52.341 14.598 8.956 6.859 4.965 4.260 3.486 1.382 1.096 .872 .748 .282 .121 .033 累积 % 52.341 66.939 75.895 82.754 87.720 91.979 95.466 96.848 97.943 98.816 99.563 99.845 99.967 100.000 100.000 合计 7.851 2.190 1.343 1.029 提取平方和载入 方差的 % 52.341 14.598 8.956 6.859 累积 % 52.341 66.939 75.895 82.754 合计 4.542 3.748 2.474 1.649 旋转平方和载入 方差的 % 30.280 24.986 16.493 10.994 累积 % 30.280 55.266 71.760 82.754

3.646E-16 2.431E-15

提取方法:主成份分析。

结果分析: 该表显示的是因子分析的总方差解释, 是相关系数矩阵的特征值、 方差贡献率及累计方差贡献率的计算结果。其中,第一列示因子编号,以后三列 组成一组, 每组中数据项的含义依次是特征根值、 方差贡献率和累计方差贡献率。 从中可以看到,第一个因子的特征值是7.851,解释了原有15个变量总方差的 52.341%; 前四个因子的累计方差贡献率为82.754%,并且只有它们的特征值大于 1,说明前四个公因子基本包含了全部变量的主要信息,因此选取前四个因子为 主因子即可。同时, “提取平方和载入”和“旋转平方和载入”这两列分别列出 了因子提取后和旋转后的因子方差解释情况。从表中可以看到,它们都选择四个 公因子。我们把这四个公因子分别表示为F1、F2、F3和F4。 3、旋转前的因子载荷矩阵 表 5.2.3 旋转前的因子载荷矩阵
9

旋转前成份矩阵

a

成份 1 任意球 被射门 抢断 传中 传威胁球 传球 射门 界外球 角球 控球率 越位 积分 进球 负 平 .700 -.725 -.355 .738 .827 .756 .863 .675 .807 .899 .457 .880 .683 -.772 -.451 2 -.192 .269 .765 .552 .298 -.176 .224 .510 .419 -.148 -.150 -.266 -.185 .532 -.391 3 -.152 .522 -.222 .079 .227 -.032 .230 -.024 -.010 -.089 -.732 .040 .522 -.164 .206 4 -.120 -.099 .082 -.117 .264 .169 .216 .354 -.054 .004 .107 -.275 -.224 -.103 .750

提取方法 :主成分分析法。 a. 已提取了 4 个成份。

结果分析:该表显示了旋转前的因子载荷矩阵,它是因子分析的核心内容。 通过载荷系数大小可以分析不同公共因子所反映的主要指标的区别。从结果看, 大部分因子解释性较好,但是仍有少部分指标解释能力较差,如“界外球”在四 个因子的载荷系数区别不大。 因此,接着采用因子旋转的方法使得因子载荷系数 向 0 或 1 两极分化,使大的载荷更大,小的载荷更小,这样结果更加具有可解释 性。 4、旋转后的因子载荷矩阵 表 5.2.4 旋转后的因子载荷矩阵
旋转成份矩阵
a

成份 1 任意球 被射门 抢断 .278 -.247 .189 2 .477 -.352 -.837 3 .443 -.829 -.124 10 4 .250 -.090 .125

传中 传威胁球 传球 射门 界外球 角球 控球率 越位 积分 进球 负 平

.794 .887 .463 .850 .885 .766 .500 .090 .341 .387 -.286 -.197

.079 .303 .500 .384 -.050 .161 .563 .029 .737 .766 -.850 -.019

.080 .117 .409 .139 .236 .228 .481 .873 .342 -.165 -.322 -.137

.475 .052 -.004 .079 .040 .405 .198 .084 .383 .240 .091 -.951

提取方法 :主成分分析法。 旋转法 :具有 Kaiser 标准化的正交旋转法。 a. 旋转在 5 次迭代后收敛。

结果分析: 由旋转后的因子载荷矩阵可以看出, 第一公因子 F1 在传威胁球、 射门、界外球以及角球上的载荷都很大,其中射球是反映技术能力的指标,传威 胁球、界外球以及角球是反映球员的战略战术的指标。因此,可以将 F1 命名为 技术战略能力因子。
350 300 250 200 150 100 50 0 角球 界外球 射门 传威胁球

第二公因子 F2 在抢断、积分、进球以及负上载荷较大,反映了球队的赛场 发挥水平,可以命名为赛场发挥水平因子。

11

200 180 160 140 120 100 80 60 40 20 0

4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 50 0 广州恒大 广州恒大 北京国安 广州富力 山东鲁能 上海上港 贵州人和 北京国安 广州富力 山东鲁能 上海上港

100

150

200

250

广州恒大

北京国安

广州富力

为球队间水平差异因子。

5、因子得分系数矩阵 表 5.2.5 因子得分系数矩阵
贵州人和
杭州绿城 江苏舜天 上海绿地 辽宁宏运 大连阿尔滨 河南建业 长春亚泰 天津泰达 上海申鑫 哈尔滨毅腾

可以命名为防守能力因子。

山东鲁能

上海上港

贵州人和

杭州绿城

杭州绿城
江苏舜天 上海绿地 辽宁宏运 大连阿尔滨 河南建业 长春亚泰 天津泰达 上海申鑫 哈尔滨毅腾

江苏舜天

第四公因子 F4 仅在平上有较大的载荷,反映了球队间水平差异,可以命名

第三公因子 F3 仅在被射门和越位上有较大的载荷, 反映了球队的防守能力,

12

上海绿地

辽宁宏运

大连阿尔滨

河南建业

长春亚泰

天津泰达

上海申鑫

哈尔滨毅腾



越位

抢断

积分

进球

被射门



成份得分系数矩阵 成份 1 平 负 进球 积分 越位 控球率 角球 界外球 射门 传球 传威胁球 传中 抢断 被射门 任意球 -.057 -.098 .087 .112 .058 .114 .103 .086 .110 .096 .105 .094 -.045 -.092 .089 2 -.179 .243 -.084 -.121 -.069 -.068 .191 .233 .103 -.080 .136 .252 .349 .123 -.088 3 .154 -.122 .388 .030 -.545 -.066 -.008 -.018 .171 -.024 .169 .059 -.165 .388 -.113 4 .729 -.100 -.218 -.268 .104 .004 -.052 .344 .210 .164 .257 -.113 .080 -.097 -.116

结果分析:根据表中的内容,可以写出以下因子得分函数:
F1=-0.057X1-0.098X2+0.087X3+0.112X4+0.058X5+0.114X6+0.103X7+0.086X8+0.11X9+0.096X10+ 0.105X11+0.094X12-0.045X13-0.092X14+0.089X15 F2=-0.179X1+0.243X2-0.084X3-0.121X4-0.069X5-0.068X6+0.191X7+0.233X8+0.103X9-0.08X10+ 0.136X11+0.252X12+0.349X13+0.123X14-0.088X15 F3=0.154X1-0.122X2+0.388X3+0.03X4-0.545X5-0.066X6-0.008X7-0.018X8+0.171X9-0.024X10+0 .169X11+0.059X12-0.165X13+0.388X14-0.113X15 F4=0.729X1-0.1X2-0.218X3-0.268X4+0.104X5+0.004X6-0.052X7+0.344X8+0.21X9+0.164X10+0.2 57X11-0.113X12+0.08X13-0.097X14-0.116X15

最后, 计算出因子得分, 以各因子的方差贡献率占四个因子总方差贡献率的比重 作为权重进行加权汇总得出各球队的综合得分 F,即 F=(F1*52.341+F2*14.598+F3*8.956+F4*6.859)/82.754
初始特征值 方差 合计 7.851 2.190 1.343 1.029 的 % 52.341 14.598 8.956 6.859 累积 % 52.341 66.939 75.895 82.754

6、各个球队在每个公因子上的得分及综合得分如下表所示:
13

表 5.2.6 各个球队综合得分及排名

球队 江苏舜天

Fi1

Fi2

Fi3

Fi4

Fi

排名

538.3982 广州恒大 518.0103 北京国安 529.0128 上海申鑫 436.695 杭州绿城 469.4838 山东鲁能 455.4103 广州富力 467.3967 上海上港 440.9461 大连阿尔滨 437.448 长春亚泰 392.6871 上海绿地 435.8358 贵州人和 429.1612 河南建业 400.805 哈尔滨毅腾 342.8046 辽宁宏运 371.7024 天津泰达 474.4189

-141.213 -141.519 -183.623 -138.718 -152.522 -72.3972 -156.266 -115.406 -118.692 -102.39 -150.498 -139.891 -108.521 -25.1392 -90.4169 -124.64

-69.2636 -51.7259 -94.8853 -82.4656 -48.8769 -48.7495 -47.6518 -58.9691 -40.605 -44.3216 -52.6685 -79.562 -52.0532 -31.0945 -37.0963 -69.5458

884.9596 811.6549 843.9935 1074.839 769.0086 703.6637 738.4468 730.4308 714.0403 963.5721 708.783 679.7109 662.9424 853.1022 624.8305 -389.384

381.472 364.3453 361.8864 331.8957 328.4856 328.3162 324.1046 312.6936 310.5304 305.3756 302.1587 294.488 283.6742 279.7281 266.9206 238.2754

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

5.2.2.1 系统聚类分析模型的建立 5.2.2.2 模型的求解
为了更加清晰地反映上述 16 队球队的综合能力水平,在技术战略能力、在赛场发

挥水平、防守能力、球队间水平差异因子上存在的差异,将对这些球队进行进一步系
统聚类分析,对因子分析的结果进行检验。

系统聚类首先根据一批数据或指标找出能度量这些数据或指标之间相似程 度的统计量; 然后以统计量作为划分类型的依据,把一些相似程度大的变量首先 聚合为一类, 而把另一些相似程度较小的变量聚合为另一类,直到所有的变量都 聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图。其 相似程度由距离或者相似系数定义。进行类别合并的准则是使得类间差异最大, 而类内差异最小。其基本流程如下: 第一步:设初始指标样本共有 n=16 个,每个样本自成一类,即建立 16 类,
(0) (0) 。 G1(0) , G2 ,?, Gn

计算各类之间的距离(初始时即为各样本间的距离) ,得到一个 N*N 维的距 离矩阵 D(0)。这里,标号(0)表示聚类开始运算前的状态。 第二步:假设前一步聚类运算中已求得距离矩阵 D(n),n 为逐次聚类合并的
14

次数,则求 D(n)中的最小元素。如果它是 Gi(n)和 Gj(n)两类之间的距离,则将 Gi(n)
( n ?1) ( n?1) ( n?1) 和 Gj(n)两类合并为一类 Gij ,由此建立新的分类: G1( n?1) , G2 。 ,?, Gn

第三步:计算合并后新类别之间的距离,得 D(n+1)。
( n ?1) ( n?1) ( n?1) 计算 Gij 与其它没有发生合并的 G1( n?1) , G2 之间的距离,可采用 ,?, Gn

多种不同的距离计算准则进行计算,公式如下:
duv ? max xuk ? xvk
1? k ? n

(2 )

第四步: 返回第二步, 重复计算及合并, 直到得到满意的分类结果。 过程中, 我们选择最短距离法:设 A 和 B 是两个聚类,则两类间的最短距离定义为:

DAB ? min(duv ), u ? A, v ? B

(3)

其中,du,v 表示 A 类中的样本 xu 和 B 类中的样本 xv 之间的距离,DA,B 表示 A 类中的所有样本和 B 类中的所有样本之间的最小距离。 具体流程图如下图 5.2.2.1 所示: 图 5.2.2.1 迭代次数为 n 的系统聚类算法流程图
开始

选择距离函数的形式; 选择聚类方法

输入 N 个模型样本的特征向量

计算 N*N 维距离矩阵 D

(0)

迭代次数设置 n=N 求距离矩阵中的元素 Dij —按照 距离函数计算,将二类合并,建 立新的距离矩阵 D(N+1-n)

15

n=n-1 否

n=0?

输出聚类的分级树

停止

运用 SPSS 软件分析得出结果,如下表 5.2.2.1 所示: 表5.2.2.1 聚类表
群集组合 阶 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 群集 1 9 7 5 2 5 10 3 5 4 1 4 10 3 3 1 群集 2 11 14 9 8 15 13 7 6 12 2 5 16 4 10 3 系数 5484.449 7405.905 8158.949 8962.440 11065.415 15889.250 24559.328 24974.262 39311.448 62256.630 64873.405 147462.560 150471.565 466005.501 761298.529 首次出现阶群集 群集 1 0 0 0 0 3 0 0 5 0 0 9 6 7 13 10 群集 2 0 0 1 0 0 0 2 0 0 4 8 0 11 12 14 下一阶 3 7 5 10 8 12 13 11 11 15 13 14 14 15 0

图 5.2.2.1 系统分析冰柱图

16

由系统冰柱图划线分成四类,可以分析得出分类结果,具体如下表 5.2.2.2 所示。 表 5.2.2.2 16 个样本球队分类结果
类型 1 2 3 4 球队 16、13、10 6、15、11、9、5、12、4 14、7、13 1、2、8

采用组间联接法, 把球队最终分为四类, 表中分别给出了各个球队所属的类别。 1. 第一类:辽宁宏运、长春亚泰、哈尔滨毅腾,此类为赛场综合水平较差的 球队 2. 第二类:山东鲁能、上海上港、贵州人和、上海绿地、大连阿尔滨、河南 建业,此类为赛场综合水平中等偏下的球队。 3. 第三类:长春亚泰、天津泰达、杭州绿城,此类为赛场综合水平中等偏上 的球队。 4. 第四类:广州恒天、北京国安、江苏舜天,此类为赛场综合水平较好的球 队。 通过与因子分析结果相比较, 可知聚类分析法的分析结果与前述因子分析的结 果基本一致,说明前述因子分析的的结果具有很强的解释力。
17

5.3 问题三的数据分析报告
5.3.1 本赛季各球队前 10 轮的表现综合分析及评价 1、根据各个球队在四个公因子上的得分对其综合发展水平进行评价 (1) 在技术战略能力因子 F1 上得分最高的前三个队依次是江苏舜天、广州 恒大和北京国安,得分分别为 538.3982、518.0103 和 529.0128。得分在 400 分 以上的有 12 人, 说明这些球队的足球技术战略能力都是比较优秀的。 总体来说, 就球队的技术战略能力而言, 江苏舜天、广州恒大和北京国安无疑是技术战略水 平最好的球队,其水平是其他球员所无法超越的。 (2)在赛场发挥水平因子 F2 上得分较高的是北京国安、广州富力、杭州绿城 和上海绿地, 在 F2 中的得分分别为-183.623、 -156.266、 -152.522 和-150.498。 此项得分在 100 分以上的有 12 队,说明这些球队的赛场发挥水平总体来说是较 好的。得分最低的为哈尔滨毅腾,为-25.1392,这说明,该球队的赛场发挥水平 不好,前十场积分不高,因此这类球队应针对自己本身存在的问题进行改善,及 早的适应现场比赛之中。 (3)在防守能力因子 F3 上得分最高的是北京国安、上海申和贵州人和,他 们的得分均在 70 分以上,分别为-94.8853、-82.4656 和-79.562。说明这些球 队在球场上的防守能力较强, 能充分有效地防守对手进攻。在此项因子中得分最 低的为哈尔滨毅腾和辽宁宏运,得分分别为-31.0945 和-37.0963 分,这说明该 球队在球场上的防御能力较差,不能有效的防守被射门。 (4) 在球队间水平差异因子 F4 上得分最高的是上海申鑫, 得分为 1074.839。 说明该球队在前十场比赛中,与对手水平相差较大,较有优势。 2、结合各个球员的综合得分对其综合水平进行评价 根据综合得分 F 来综合评价各位球员的综合水平。 综合得分排名前四位的球队 依次是江苏舜天、广州恒大、北京国安和上海申鑫,他们的综合得分均在 330 分以上;综合得分最低的六个球员依次是贵州人和、河南建业、哈尔滨毅腾、辽 宁宏运和天津泰达。他们的得分均在 300 分一下。通过此项分析可知,这些球员 的综合水平还是存在着较大的差距, 综合能力较低的球队有待于进一步提高他们 在各方面的能力,继续保持自己的优势,加强训练水平较低的其他指标。
5.3.2、对于加强球队综合能力水平的建议

通过以上因子分析和聚类分析队球员的各项数据、因子进行分析得出以上结
18

论,针对这些结论所反映的问题提出以下建议。 加强球队的技术水平,平时多进行足球训练,在训练的同时不断提高技术战 略水平,加强防守、控球水平,并且抓住每一次上场的机会,在球场上尽量减少 失误,提高赛场发挥水平,注重团队合作水平,加强团队合作意识。

六、模型的结论
1. 影响中超 16 支球队成绩是由技术战略能力、在赛场发挥水平、防守能力和 球队间水平差异因子构成。 2. 根据因子分析所建立的新的评价体系得出,赛季中超联赛的积分榜排名并不 是各球队真实的实力体现。 3. 研究得出,因子分析法对球队实力的研究所得出的结果更客观、准确,其得 分排名更能体现出球队的实力,而且对球队系统聚类的相关研究,所得出的 研究成果更准确性、客观。
表 6.1 各个球队综合得分及排名

球队 江苏舜天 广州恒大 北京国安 上海申鑫 杭州绿城 山东鲁能 广州富力 上海上港 大连阿尔滨 长春亚泰 上海绿地 贵州人和 河南建业 哈尔滨毅腾 辽宁宏运 天津泰达

因子排名

聚类类型

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

第四类 第四类 第四类 第二类 第三类 第二类 第三类 第二类 第二类 第一类 第二类 第二类 第二类 第一类 第一类 第三类

其中,第一类为赛场综合水平较差的球队;第二类:为赛场综合水平中等偏 下的球队; 第三类为赛场综合水平中等偏上的球队;第四类为赛场综合水平较好 的球队。
19

七、模型的分析 7.1 优点
因子分析模型不是对原有变量的取舍, 而是根据原始变量的信息进行重新组 合,找出影响变量的共同因子,化简数据,并且它通过旋转使得因子变量更具有 可解释性,命名清晰性高。而系统聚类分析模型十分直观,结论形式简明,灵活 性强,提供了队比赛数据的正确评估,并且可灵活调整。

7.2 缺点
因子分析模型在计算因子得分时,采用的是最小二乘法,此法有时可能会失 效。 而系统聚类模型由于相似系数是根据被试的反映来建立反映被试间内在联系 的指标, 而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关 系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分 析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。当 残缺元素较多时,综合实力排名得稳定性和可靠性较低

7.3 改进
这个模型的改进余地还是很大的, 本模型只是用了因子分析法一种模型分析, 在数据足够充足准确的情况下, 完全可以考虑其他数学模型例如层次分析法,进 行模型比较,并选取最优模型,使综合排名更能反映各队的真实实力。 参考文献: [1] 王凯,吕晓伟,何江川. 2009 赛季中国足球超级联赛 16 支参赛队技、战 术结构差异多元统计分析[J] .中国体育科技,2010,46( 5) : 33-37. [2] 全涛, 孙雪翰.2008 年中国足球超级联赛成绩与技术统计的因子分析 [ J] .数 理统计与管理,2011(2):184-194 [3]周义仓,赫孝良, 《数学建模实验》 (第二版) ,西安交通大学出版社,2007 年 8月 [4] 魏春玲,孙晋海.优秀十项全能运动员成绩结构的因子分析及回归预测模型 研究[J] .北京体育大学学报,2004,27(5):77-79.
20

[5] 姜启源、谢金星、叶俊,数学模型(第三版) ,北京:高等教育出版社,2003.8 [6] 张宜华.精通 SPSS[M].北京:清华大学出版社,2001:504-565.

21


更多相关文档:

11组作业3

11组作业3_数学_高中教育_教育专区。中超球队赛场综合能力评估的解决方法摘 要...然后,通过系统聚类分析的组间连接法对因子分析进行检验, 聚类分析法的分析结果与...

11版-概率作业3详解

11版-概率作业3详解 11版-概率论作业详解11版-概率论作业详解隐藏>> 概率论与数理统计 作业 学号___姓名 姓名___ 学号 姓名 多维随机变量及其分布( 第三章 ...

11六上语文第3组作业本参考答案

11六上语文第3组作业本参考答案_六年级语文_语文_小学教育_教育专区 暂无评价|0人阅读|0次下载|举报文档 11六上语文第3组作业本参考答案_六年级语文_语文_小学...

会计学小组作业(第11组)

会计学小组作业(第11组)_教育学_高等教育_教育专区。浙工大MBA课程会计学小组作业会计学小组作业案例【3】 存货计价方法的疑惑(课外研讨) 金思维与郝脍纪是同学,...

11.3电路(作业)习题集

11.3电路(作业)习题集_工学_高等教育_教育专区。目第一章 第二章 第三章 ...如图所示的含理想运放的电路,其节点方程组中错误的是 (B) 。 (A) (G1 + ...

11.3-11.8-7年级数学晨检作业

11.3-11.8-7年级数学晨检作业_数学_小学教育_教育专区。七年级姓名: 一、选择...( 班数学晨检作业三组 号 日期: 班级: ) x y z + + 不是整式 2 3 ...

训练·提升作业 3.11

训练·提升作业 3.11_语文_初中教育_教育专区。圆学子梦想 铸金字品牌 温馨提示: 此套题为 Word 版,请按住 Ctrl,滑动鼠标滚轴,调节合适的观看 比例,答案解析...

公共关系学作业3答案2011.11.10

公共关系学作业网上1-4 6页 免费如要投诉违规内容,请到百度文库投诉中心;如要提出功能问题或意见建议,请点击此处进行反馈。 公共关系学作业3答案2011.11.10 隐藏...

3-1作业11

3-1作业11_理化生_高中教育_教育专区。1.如图,电源为“9 V 1 Ω ”的电池组,要将“4 V 4 W”的灯泡接入虚线框中,在正常发光的条 件下,最多能接( A...

word1大学计算机作业P56图11-3

word1大学计算机作业P56图11-3_理学_高等教育_教育专区 暂无评价|0人阅读|0次下载|举报文档 word1大学计算机作业P56图11-3_理学_高等教育_教育专区。四代突变,...
更多相关标签:
行政组织学作业3 | 组织行为学作业3 | 组织行为学在线作业3 | 东方组曲 3分11秒 | 浙江11选5组3 | 11选5前3组选 | 2016年11月作业预告 | 11去年的树作业本答案 |
网站地图

文档资料共享网 nexoncn.com copyright ©right 2010-2020。
文档资料共享网内容来自网络,如有侵犯请联系客服。email:zhit325@126.com