当前位置:首页 >> 学科竞赛 >> A题论文新

A题论文新


葡萄酒的评价
摘要
本文通过研究某一年份一些葡萄酒的评价结果和这些葡萄酒和酿酒葡萄的 成分,判断出评酒员评酒的差异,对酿酒葡萄进行分级,并分析酿酒葡萄与葡萄 酒的理化指标之间的联系,最终论证了评价葡萄酒的质量的指标。 模型1 评酒员的评价结果模型 对于问题一,我们采用的是假设检验方法, 经过计算可得第一组与第二组红葡萄酒样本总均值的置信区间分别为: [721.

7972,739.3140]与[700.4031,709.8931], 第二组红葡萄酒样本总均值的置 信区间宽度比第一组的置信区间宽度要窄,容易看出在对红葡萄酒的评价中,两 组评酒员的评价结果有显著性差异,并且第二组的结果更为可信。同理,再由式

[x ? z ? 2s / n , x ? z ? 2s / n]及 z ? 2 ? z 0.025 ? 1.96 可得,第一组与第二组白
葡萄酒样本均值的置信区间分别为:[736.5148,748.6994]与 [761.6072,769.0356], 由第二组白葡萄酒样本均值的置信区间宽度比第一组的 置信区间宽度窄, 可知在对白葡萄酒的评价中,两组评酒员的评价结果有显著性 差异,并且第二组的结果更为可信。 模型2 图表示可视化分类模型 对于问题二, 我们应用了图表示可视化分类 方法, 并利用附件二中的数据得到了酿酒葡萄理化指标中的两种起决定性作用的 主成分, 即为氨基酸总量与褐变度,从而确定了葡萄酒的质量与酿酒葡萄理化指 标之间的关系,最后将酿酒葡萄分成了三个等级。 模型3 多元线性回归模型 对于问题三, 通过运用多元线性回归模型, 求出 了酿酒葡萄与葡萄酒的理化指标之间的9组多元线性回归方程,并且将9 组的优 度值(表8和表9)与alpha(alpha=0.05) 进行比较,可知都小于0.05,从而说明 了拟合出的回归模型都成立。 对于问题四,也应用了多元线性回归模型进行了定性分析,论证了用葡萄和 葡萄酒的理化指标可以评价葡萄酒的质量。

关键词:葡萄酒

假设检验

可视化分类

多元线性回归

1、问题重述
1.1 背景资料与条件 确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。 每个评酒 员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡 萄酒的质量。 酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒 葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。 1.2 需要解决的问题 ● 分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? ● 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 ● 分析酿酒葡萄与葡萄酒的理化指标之间的联系。 ● 分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄 和葡萄酒的理化指标来评价葡萄酒的质量? 1.3 有关信息 附件1 给出了某一年份一些葡萄酒的评价结果, 附件2 和附件3 分别给出了 该年份这些葡萄酒的和酿酒葡萄的成分数据。 附件1:葡萄酒品尝评分表(含4 个表格) 附件2:葡萄和葡萄酒的理化指标(含2 个表格) 附件3:葡萄和葡萄酒的芳香物质(含4 个表格)

2、问题分析
通过聘请一批有资质的评酒员进行品评,然后对各部分进行分类指标评分, 总分为100 分。首先将葡萄酒分为红葡萄酒和白葡萄酒,红葡萄酒有27组样品, 白葡萄酒有28组样品。评酒员又有两组,每组10 人,两组分别对红葡萄酒和白 葡萄酒每组样品进行品尝, 然后对其分类指标打分得出附件一的表格。通过资料 及实验得出附件二和附件三的相应数据库,用来协助分析。 对于问题一, 题目问的是两组评酒员的评价结果有无显著性差异,哪一组结 果更可信。 可以采用假设检验方法,能够得到两组评酒员的评价结果有显著性差 异,对于哪一组的结果更可信,由于酒样品是一样的,而品酒人群不一样,因此 本题与葡萄酒没有多大的直接关系,应该更贴近于考虑人为因素,即此题的问题 实质就是根据评分结果查看哪一组评酒员的资质、技能更好。 对于问题二, 本题是根据酿酒葡萄的理化指标和葡萄酒的质量进而对葡萄进 行分级,因此利用问题一的结果,取更可信评酒员的评分结果来判断酒的质量; 然后利用图表示可视化分类方法, 并利用附件二中的数据得到了酿酒葡萄理化指 标中的两种起决定性作用的主成分,即为氨基酸总量与褐变度,从而确定了葡萄

酒的质量与酿酒葡萄理化指标之间的关系,最后将酿酒葡萄分成了三个等级。 对于问题三, 根据问题一和问题二的分析结果及附件二综合分析假设影响葡 萄酒质量的诸多因素, 进而建模, 导出酿酒葡萄和葡萄酒的理化指标之间的关系。 对于问题四, 根据问题三建立的模型,进而讨论并论证酿酒葡萄和葡萄酒的 理化指标对葡萄酒质量影响关系。

3、模型假设
1、不同种类酿酒葡萄的成分数据值统一标准无差异。 2、不同种类葡萄酒的成分数据值统一标准无差异。 3、酿酒方式及酿酒过程对葡萄酒的质量无影响。 4、品酒先后对打分没有影响。 5、检测理化指标为标准值无误差。

4、符号说明
alpha 显著性检验 (缺省时设定为0.05) 相关矩阵R的第i个特征根 优度值 偏回归系数 表示酿酒红葡萄的对应的分级指标 表示酿酒白葡萄的对应的分级指标 酿酒葡萄的典型变量

?i
p

?j
G1

G2

ui

5、模型的建立与求解
5.1 评酒员的评价结果模型 5.1.1 模型一的概述 非正态总体区间估计:[x ? z ? 2s / n , x ? z ? 2s / n] 5.1.2 模型一的运用与求解 附件一所给的四个表格分别为:第一组为红葡萄酒品尝评分,第二组为红葡 萄酒品尝评分。其中红葡萄酒有 27 组样品。另外的一组为白葡萄酒品尝评分, 另外的第二组为白葡萄酒品尝评分。其中白葡萄酒有 28 组样品。 品酒员无论对红葡萄酒样品,还是白葡萄酒样品的评分,都是以 100 分为基 准,其中,外观分析占有 15 分(澄清度:5 分,色调:10 分) ,香气分析占有 30 分(纯正度:6 分,浓度:8 分,质量:16 分) ,口感分析占有 44 分(纯正度:

6 分,浓度:8 分,持久性:8 分,质量:22 分) ,平衡/整体评价占有 11 分。评 酒员通过对样品不同指标的评分,然后累加为此样品的最终得分。 通过对红葡萄酒, 白葡萄酒,每组样品最终得分的均值与方差的求解得到下 表所示结果: 表 1 红、白葡萄酒品尝评分的均值与方差 红葡萄酒品尝评分 白葡萄酒品尝评分 均值 方差 均值 方差 第 一 第 二 第一组 第二组 第一组 第二组 第一组 第二组 组 组 样 品 1 样 品 2 样 品 3 样 品 4 样 品 5 样 品 6 样 品 7 样 品 8 样 品 9 样 品 10 样 品 62.7 68.1 92.900 81.878 样品 1 样品 2 样品 3 样品 4 样品 5 样品 6 样品 7 样品 8 样品 9 样品 10 样品 11 82 77.9 92.222 25.878

80.3

74

39.789

16.222

74.2

75.8

201.067

49.067

80.4

74.6

45.822

30.711

85.3

75.6

365.122 142.489

68.6

71.2

108.644 41.289

79.4

76.9

44.711

42.100

73.3

72.1

62.011

13.656

71

81.5

126.444

26.278

72.2

66.3

59.733

21.122

68.4

75.5

162.711

22.722

71.5

65.3

103.610 62.678

77.5

74.2

39.167

42.178

72.3

66

44.011

65.111

71.4

72.3

183.600

31.122

81.5

78.2

32.944

25.733

72.9

80.4

92.767

106.267

74.2 70.1

68.8 61.6

30.400 70.767

36.178 38.044

74.3 72.3

79.8 71.4

212.678 177.122

70.400 87.822

11 样 品 12 样 品 13 样 品 14 样 品 15 样 品 16 样 品 17 样 品 18 样 品 19 样 品 20 样 品 21 样 品 22 样 品 23 样 品 24 样 品 25

53.9

68.3

79.656

25.122

样品 12 样品 13 样品 14 样品 15 样品 16 样品 17 样品 18 样品 19 样品 20 样品 21 样品 22 样品 23 样品 24 样品 25

63.3

72.4

115.789 140.044

74.6

68.8

44.933

15.289

65.9

73.9

170.767

46.767

73

72.6

30.000

23.156

72

77.1

114.222

15.878

58.7

65.7

85.567

41.344

72.4

78.4

131.600

54.044

74.9

69.9

18.100

20.100

74

67.3

178.000

82.233

79.3

74.5

88.011

9.167

78.8

80.3

144.178

38.456

59.9

65.4

47.211

50.267

73.1

76.7

156.544

30.233

78.6

72.6

47.378

55.156

72.2

76.4

46.400

26.044

78.6

75.8

26.044

39.067

77.8

76.6

64.400

50.044

77.1

72.2

116.100 35.511

76.4

79.2

172.711

64.400

77.2

71.6

50.622

24.267

71

79.4

138.667

53.600

85.6

77.1

32.489

24.767

75.9

77.4

43.656

11.600

78

71.5

74.889

10.722

73.3

76.1

111.122

38.544

69.2

68.2

64.622

43.733

77.1

79.5

33.878

106.500

样 品 26 样 品 27

73.8

72

31.289

41.556

样品 26 样品 27 样品 28

81.3

74.3

72.900

102.900

73

71.5

49.778

20.500

64.8 81.3

77 79.6

144.400 80.456

35.556 25.378

通过观察两表数据我们发现两组红葡萄酒的得分均值近似相等, 两组白葡萄 酒的得分均值也近似相等。而通过两组红葡萄酒得分方差的比较,我们发现,第 一组红葡萄酒得分的方差波动明显比第二组的大。同样,通过对两组白葡萄酒得 分的方差的比较, 我们进一步发现,第一组白葡萄酒得分的方差波动明显比第二 组的大。 应用 Excel 软件, 以及数据拟合,我们得到以上四组样本的均值与方差的柱 形图如下:
两组红葡萄酒均值的比较 100 80

系列1 系列2

均值

60 40 20 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 样品

图 1 两组红葡萄酒均值比较的柱形图

两组红葡萄酒方差的比较 150 100

系列1 系列2
1 3 5 7 9 11 13 15 样品 17 19 21 23 25 27

方差

50 0

图2

两组红葡萄酒方差比较的柱形图
两组白葡萄酒均值的比较

100 80
均值

60 40 20 0 1 3 5 7 9 11 13 15 样品 17 19 21 23 25 27

第一组 第二组

图 3 两组白葡萄酒均值比较的柱形图
两组白葡萄酒方差的比较 400 300
方差

第一组 第二组

200 100 0 1 3 5 7 9 11 13 15 样品 17 19 21 23 25 27

图 4 两组白葡萄酒方差比较的柱形图 通过对图形的直观观察我们发现:均值与方差并不服从正态分布。于是,我 们对所有红葡萄酒与白葡萄酒品尝评分做如下处理:在每一组中,将十位品酒员 对每一酒样品的评分累加, 然后再求均值与方差。第一组红葡萄酒的样本得分均 值为 730.5556,第一组样本方差为 5391.41。第二组红葡萄酒的样本均值为

705.1481,第二组红葡萄酒的样本方差为 1582.439。当均值与方差不服从正态 分布时,由非正态总体的区间估计,设置信系数为 1 ? ? =95%(其中取 ? ? 0.05 ), 根据:非正态整体分布的置信区间公式:

[x ? z ? 2s / n , x ? z ? 2s / n]
并查表:

(1)

z ? 2 ? z 0.025 ? 1.96

可得,第一组与第二组红葡萄酒样本总均值的置信区间分别为: [721.7972,739.3140]与[700.4031,709.8931], 第二组红葡萄酒样本总均值的置 信区间宽度比第一组的置信区间宽度要窄,容易看出在对红葡萄酒的评价中,两 组评酒员的评价结果有显著性差异,并且第二组的结果更为可信。同理,再由式 (1)及 Z? /2 ? Z0.025 ? 1.96 可得, 第一组与第二组白葡萄酒样本均值的置信区间分别 为: [736.5148,748.6994]与[761.6072,769.0356], 由第二组白葡萄酒样本均值 的置信区间宽度比第一组的置信区间宽度窄,可知在对白葡萄酒的评价中,两组 评酒员的评价结果有显著性差异,并且第二组的结果更为可信。 5.1.3 问题一结果 综上,我们得出第一问的结论为:两组品酒员的评价结果有显著性差异,并且 第二组结果更可信。 5.2 图表示可视化分类模型 葡萄酒是一种成分复杂的酒精饮料,不同产地、年份和品种的葡萄酒成分不 同。成分与葡萄酒的质量关系密切,是划分葡萄酒等级的重要依据。对于问题二 的求解,可通过葡萄酒的等级和酿酒葡萄的理化指标来对酿酒葡萄进行分级。 5.2.1 酿酒葡萄理化指标数据的可视化质量评估 ① 葡萄酒数据 葡萄酒数据包括 27 个红葡萄酒样本和 28 个白葡萄样本, 输入的变量包括客 观的测试(如花色苷) ,输出变量基于感觉数据(葡萄酒专家提出的至少 3 个评 价的均值) 。每位专家的葡萄酒质量分级介于 0 (极坏的) 和 10 (非常优秀)。 极好的和极差的葡萄酒的样本都是少数,评价为中间的葡萄酒样本最多,因此可 以从葡萄酒专家的评分来确定葡萄酒的质量。 由问题一的求解已经确定第二组品 酒师的评分显著性差异较小, 所以对葡萄酒的质量评价可借助于第二组评酒师的 评分作为依据建立模型。 ② 酿酒葡萄理化指标数据 根据对酿酒葡萄理化测试得到的输入变量为 30 个,包括氨基酸总量 (mg/100gfw),蛋白质(mg/100g),VC 含量(mg/L),花色苷(mg/100g),鲜重(g),酒

石酸(g/L),苹果酸(g/L),柠檬酸(g/L),多酚氧化酶活力((A/min·g·ml)), 褐变度(Δ A/g*g*min*ml),DPPH 自由基 1/IC50(g/L),总酚(mmol/kg),单宁 (mmol/kg),葡萄总黄酮(mmol/kg) ,白藜芦醇(mg/kg),黄酮醇(mg/kg),总糖 (g/L) ,还原糖(g/L) ,可溶性固形物(g/l) ,PH 值,可滴定酸(g/l) ,可滴 定酸,干物质含量 g/100g ③ 质量评估方法 随着信息技术的进展使得搜集、 存储和处理数据成为可能。数据挖掘、神 经网络、模式识别、机器学习等技术都能在葡萄酒分类中应用。复杂的模型容易 过拟合导致泛化能力减弱, 模型太简单导致学习能力有限。神经网络、支持向 量机两种方法均有参数可以调整,能获得令人满意的效果。由于酿酒葡萄的理化 指标参数为多元数据,因此采用图表示的可视化分类方法可取得比较好的效果。 采用图表示的可视化分类方法,一般使用星点图 (star plot) ,又称雷达 图或蜘蛛图, 是目前应用最广泛的对多元数据进行作图的方法。由于星点图是将 正交坐标轴重新安排为非正交的坐标轴,即相交于圆心的径向坐标轴,因此可以 在二维平面上同时显示多维数据。从星点图的图表示可以看出,特征排序很重要 外,相邻维之间的角度的作用也重要。星点图之所以能可视化,就是因为星点图 要求所有相邻维之间的角度的总和等于 2? 。 多维数据用图来表示, 可能会形成有利于视觉上分类或聚类的很有特色的图 形特征。这与传统的三大特征 (物理特征、结构特征和数学特征) 相对应。重心 是星点图多边形提供的一种图形特征。从几何角度看,一个样本的星点图中的每 一个三角形都产生一个重心。 从几何上讲三角形三条中线相交于一点,这个交点 叫做三角形的重心, 而且三角形的重心与顶点的距离等于它与对边中点的距离的 2 倍。 当然也可以利用三角形的重心坐标是 3 个顶点坐标的平均值的性质,计算 的结果是一样的。 可以把三角形重心称为重心图形特征 (维数与原始特征维数一 样)。星点图的重心图形特征提取方法如下: , 果穗质量/g, 百粒质量/g, 果梗比(%), 出汁率(%), 果皮质量(g) ,果皮颜色。借助各项理化指标可对酿酒葡萄的质量进行评分。

Gi ? f ? ri , ri ?1 ? ?
其中, ? ?
2?

ri 2 ? ri 21 ? 2rri ?1 cos ? ? i 3

(2)

, i ? 1,2,? ? ?,d , ri 和 ri ?1 表示诡异化特征样本的第 i 维变量和第 d 2? i+1 维变量的值,一般由预处理计算得到:弧度 ? ? 为第 i 维变量和第 i+1 d 维变量间的夹角弧度。 因此一个 d 维特征的样本就会产生一个对应的 d 维图形特

征的样本。 这样特征排序影响重心图形特征的问题就能够解决,它转化为一个特 征选择问题。 因 此 , 应 用 贝 叶 斯 理 论 , 这 个 规 则 表 述 如 下 : 如 果

p ? x ? wk ? P(wk ) ? p ? x ? wi ? P(wj ) p ? x ? wk ?

,所有的 j ? k ,那么指定 x 属于类 wk 。这里

是类概率密度函数, P(wk ) 是类 wk 的先验概率。一般

p ? x ? wk ?

是未知

的,需要从训练样本中估计。那么第 i 个样本得到的结果就是一个回归值 pi ,一 般这个回归值和那个类别标签距离近,第 i 个样本就属于哪个类别。提出一种新 的方法如下:对于第 i 个样本,利用分类方法得到一个类别标签 yi ,利用回归方 法得到一个排序的预测值 pi ,如果 pi 和 yi 的绝对值小于阈值 1,那么样本属 于 yi 类;否则样本 i 属于距离预测值 pi 最近的类。例如,第 i 个样本的分类标签

yi =5,排序的预测值 pi =5.2,那么第 i 个样本属于类别 5;第 i 个样本的分类标签 yi =5,排序的预测值 pi =6.2,那么第 i 个样本属于类别 6。
基于以上理论, 可用图表示的可视化分类方法对酿酒葡萄的理化指标进行分 类, 从而达到对葡萄的分级, 进而来确定酿酒葡萄的理化指标与葡萄酒的理化指 标间的关系。 5.2.3 模型的应用与求解 对酿酒葡萄的 30 种理化指标分别编号,以该编号和酿酒葡萄理化指标的含 量建立二维直角坐标系, 并以理化指标的编号为输入变量,酿酒葡萄理化指标的 含量为变量值,借助 matlab 软件(相应的 matlab 程序见附录) ,做出 27 个红葡 萄样本和 28 个白葡萄样本的数据可视化平行坐标图。如图 5 红葡萄数据的可视 化平行坐标图和图 6 白葡萄数据的可视化平行坐标图。

图 5 红葡萄数据的可视化平行坐标图

图 6 白葡萄数据的可视化平行坐标图 从图 5 和图 6 分析所得,对于同一种葡萄,这几类数据在很多理化性质上几 乎相同,只有第 1 个变量氨基酸总量和第 9 个变量褐变度不同,这说明这两大 理化性质大大影响口味。 因此要根据酿酒葡萄的理化指标和葡萄酒的质量对这些 酿酒葡萄进行分级, 还需结合第二组品酒师对葡萄酒样本的打分和葡萄中氨基酸 总量和褐变度来进一步对酿酒葡萄进行分级。 相应的数据见附录中葡萄中氨基酸 与褐变度及相应葡萄酒的评分数据。 依以上数据,分别作出以葡萄中氨基酸含量(褐变度)和葡萄酒相应的评分 建立直角坐标系,作出分布图,如图 7 红葡萄酒中氨基酸含量和葡萄酒相应的 评分分布图, 8 红葡萄酒中褐变度和葡萄酒相应的评分分布图,图 9 白葡萄酒 图

中氨基酸含量和葡萄酒相应的评分分布图,图 10 白葡萄酒中褐变度和葡萄酒相 应的评分分布图

图 7 红葡萄酒中氨基酸含量和葡萄酒相应的评分分布图

图 8 红葡萄酒中褐变度和葡萄酒相应的评分分布图 通过对图 7 和图 8 的分析, 当红葡萄中氨基酸和褐变度含量比较低时,对葡 萄酒的影响比较低,当含量较高时,可以依据褐变度(t)对红葡萄质量( Q1 ) 进行分类如下:

??1 ? Q1 ? ? 0 ?1 ?

t ? ? 0, 600 ? t ? (600,1000) t ? (1000,1400)

(3)

其中-1 代表酿酒葡萄质量较差,0 代表酿酒葡萄质量中等,1 代表酿酒葡萄质量 较好。

图 9 白葡萄酒中氨基酸含量和葡萄酒相应的评分分布图

图 10 白葡萄酒中褐变度和葡萄酒相应的评分分布图 通过对图 9 和图 10 的分析,得到对于白葡萄,氨基酸的含量对其所酿的葡 萄的质量影响较大,因此可用白葡萄中氨基酸的含量(t )来衡量所酿的葡萄酒

的质量( Q2 ) ,具体分类如下:
??1 ? Q2 ? ? 0 ?1 ? t ? ? 0, 2500 ? t ? (2500,3000) t ? (3000,5500)

? 4?

其中-1 代表酿酒葡萄质量较差,0 代表酿酒葡萄质量中等,1 代表酿酒葡萄质量 较好。 5.2.3 模型二评价 应用以上图表示可视化分类模型,虽能对葡萄等级进行分级,但由于其并没 有考虑酿酒葡萄中各成分理化指标的相互关系及对所酿葡萄质量的影响, 所以其 模型仍具有许多不足之处, 需对酿酒葡萄与葡萄酒的理化指标之间联系的进一步 研究来完善该模型。 5.3 多元线性回归模型 5.3.1 多元线性回归模型概念 在回归分析中, 如果有两个或两个以上的自变量, 就称为多元回归。 事实上, 一种现象常常是与多个因素相联系的, 由多个自变量的最优组合共同来预测或估 计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。 在实际经济问题中,一个变量往往受到多个变量的影响。例如,家庭消费 支出,除了受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、 金融机构存款利息等多种因素的影响,表现在线性回归模型中的解释变量有多 个。这样的模型被称为多元线性回归模型(multivariable linear regression model ) 。 多元线性回归模型的一般形式为:

Yi ? ?0 ? ?1X 1i ? ?2X 2i ? ? ? ? ? ?k X ki ? ?i , i ? 1,2,? ? ?n
体回归函数的随机表达式。它的非随机表达式:

(5)

其中 k 为解释变量的数目,? j (j ? 1,2,? ? ?k ) 称为回归系数。上式也被称为总

Yi ? ?0 ? ?1X 1i ? ?2X 2i ? ? ? ? ? ?k X ki , i ? 1,2,? ? ?n
? j 也称为偏回归系数。

(6)

5.3.2 多元线性回归模型满足假设条件 (1)有正确的期望函数,即在线性回归模型中没有遗漏任何重要的解 释变量,也没有包含任何多余的解释变量。 (2) 被解释变量等于期望函数与随机干扰项之和。 (3) 随机干扰项独立于期望函数。即回归模型中的所有解释变量 X j 与随机 干扰项 u 不相关。 (4) 解释变量矩阵X是非随机矩阵,且其秩为列满秩的,即:

rank(X ) ? k , k ? n 。式中 k 是解释变量的个数,n为观测次数。
(5) 随机干扰项服从正态分布。 (6) 随机干扰项的期望值为零, E (u ) ? 0 。 (7) 随机干扰项具有方差齐性, ? 2 (u i ) ? ? 2 (常数) (8) 随机干扰项相互独立,即无序列相关, ? (u i ,u j ) ? cov( i ,u j ) ? 0 u 5.3.3 模型的建立 (1)多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误 差平方和为最小的前提下,用最小二乘法或最大似然估计法求解参数。 一般地,多元线性回归模型可表示为:

Y ? b0 ? b1x 1 ? b2x 2 ? b3x 3 ? b4x 4 ? ?

(7)

其中, x 1, x 2 ,?x m 是自变量, b0 为常数, b1,b2 ,?,bm 为回归系数,

b0 ,b1,b2 ,?,bm 皆为未知,统称 b0 ,b1,b2 ,?,bm 为回归参数,一旦回归参数确定,
则多元线性回归模型就完全确定,一般假定随机误差 ? ~ N (0,? 2 ) 。 为了得到回归参数的估计值, 就要对变量进行观测, 假设对变量的 n(n ? m ) 次独立观测数据为:{( y i , x i 1, x i 2 ,?, x im ), i ? 1,?, n} , 则这些观测数据应满足 式(7) ,即有 ? y 1 ? b0 ? b1x 11 ? b2 x 12 ? b3x 13 ? b4 x 14 ? ? 1 ? ? y 2 ? b0 ? b1x 21 ? b2 x 22 ? b3x 23 ? b4 x 24 ? ? 2 (8) ? ???? ? ?y n ? b0 ? b1x n1 ? b2 x n 2 ? b3x n 3 ? b4 x n 4 ? ? n ? 其中 E (? i ) ? 0,Cov (? i , ? j ) ? ? ij ? 2 , (i , j ? 1,?, n) , 若记Y ? (y 1, y 2 ,?, y n )T , ? ? (b0 ,b1,?,bm )T , ? ? (?1, ?2 ,?, ? n )T , ?1 x 11 x 12 ? x 1m ? ? ? ?1 x 21 x 22 ? x 2m ? X ?? ? ? ? ? ?? ? ?1 x x n 2 ? x nm ? n ?(m ?1) n1 ? ? 则多元线性回归的数学模型式(8)可以写成矩阵形式 Y ? X? ? ? 2 其中 E (? ) ? 0,Var (? ) ? ? I n 。 (2)参数的最小二乘估计 为了获得参 ? 的估计,我们采用最小二乘法,即选择 ? ,使 (9)

Q (? ) ? ? ? i2 ? ? T ? ? (Y ? X? )T (Y ? X? )
i ?1

n

(10)

达到最小。 将Q ?? ? 对 ? 求导数并令其为零,得 ?Q ? ?2X T (Y ? X? ) ? 0 ?? 即 X T X? ? X TY 。记 L ? X T X ,则

(11) 方 程 ( 11 ) 称 为 正 规 方 程 , 其 中 X 为 n ? (m ? 1) 阶 矩 阵 , 一 般 假 定 rank (X ) ? m ? 1 ,由线性代数理论可知, L ? X T X 为满秩矩阵,它的秩 rank(L ) ? m ? 1 ,则正规方程(11)有唯一解,记作 ? (12) ? ? L?1X TY ? 我们来证明(12)式中 ? 为参数向量 ? 的最小二乘法估计量,现用矩阵形 式来叙述其证明步骤。 从式(10)知,对任意的 ? Q ? (Y ? X? )T (Y ? X? ) 则有

L? ? X TY

(Y ? X? )T (Y ? X? ) ? [(Y ? X ? ) ? X (? ? ? )]T [(Y ? X ? ) ? X (? ? ? )] ? (Y ? X ? )T (Y ? X ? ) ? (? ? ? )T X T X (? ? ? ) ? (Y ? X ? )T X (? ? ? ) ?(? ? ? )T X T (Y ? X ? ) ? (Y ? X ? )T (Y ? X ? ) 上述证明过程中应用了如下结果:
? ? ? ? ? ? ? ? ? ?

?

?

?

?

(? ? ? )T X T X (? ? ? ) ? [X (? ? ? )]T [X (? ? ? )] ? 0 (Y ? X ? )T X (? ? ? ) ? (Y T X ? ? X T X )(? ? ? ) ? (Y T X ? Y T X )(? ? ? ) ? 0
至此,在 L ? 0 时,证明了式(4-10)中的 ? 是 ? 的最小二乘法估计量。 在实际工作中,常称 y ? b0 ? b1 x 1 ? ? ? bm x m 为经验线性回归方程。 5.3.3 MATLAB求解 MATLAB命令 命令格式 [b,bint,r,rint,stats]=regress(Y,X,alpha),其中输入向量 X, Y 的排列方式分别为 ?1, x11 , x22 ,? , x1m ? ? y1 ? ?1, x , x ,? , x ? ?y ? 2m ? ? 21 22 X ? Y ? ? 2? ?? ? ?? ? ? ? ? ? ? yn ? ?1, xn1 , xn 2 ,? , xnm ? alpha 为显著性水平(缺省时设定为 0.05) 。 输出向量 b 为回归系数的估计值,即 T b ? ? b0 , b1 ,? , bn ? 输出向量 bint 为回归系数估计值的置信区间; 输出向量 r 为残差向量; 输出向量 rint 为残差向量的置信区间; 输出向量 stats ? (R 2 , F , P )T ,它是一个 3 维向量,用于检验回归模型的统 计量,其中第一个分量 R 2 中的 R 是相关系数,第二个分量是 F 统计量,第三个 分量是与统计量 F 对应的概率 P ,当 P ? alpha 时拒绝原假设 H 0 ,说明回归模
? ? ? ?
?
? ? ? ? ?

?

?

?

?

型成立。 5.3.4 MATLAB求解结果 根据matlab2012a可运行出 b ? (b0 ,b1,? ? ?,bn ) 的9组值, 以下为求得的15组多 元线性回归方程:

5.3.5 多元线性回归方程的显性检验 从上面的参数估计过程可以看出,对于一批观察数据

i ? 1,? ? ?, n (13) (y i , x i 1, x i 2 ,? ? ?, x im ) 不论它们是否具有线性关系,总可以利用最小二乘法建立起多元线性回归
方程

? ? ? ? ? y ? b0 ? b1x1 ? b2x2 ? ? ? ? ? bm x m

(14)

当 b1 ? b2 ? ? ? ? ? bm ? 0 时,y 与 x 1, x 2 ,? ? ?, x m 没有关系, 回归模型没有意 义,于是要检验 H 0 : b1 ? b2 ? ? ? ? ? bm ? 0 是否成立。 若 H 0 成立,则 x 1, x 2 ,? ? ?, x m 对 y 没有影响;反之,若 H 0 不成立,则

x 1, x 2 ,? ? ?, x m 对 y 有影响,此时 y 与 x 1, x 2 ,? ? ?, x m 的线性关系显著,也称为整个
回归效果显著。 但要注意, 即使整个回归效果是显著地,y 也可能只与某几个 x i 关系密切(相应的 bi 显著不为零) ,而与另几个 x i 关系不密切(相应的 bi 为零) 。 根据matlab 2012a中求的的优度值可以直接对以上15组多元线性回归方程进行 显性检验。

表5 优度值

续表5 优度值

从上述三线表的优度值可看出,p ? alpha(alpha ? 0.05) , 所以拒绝原假设 H 0 , 说明回归模型都成立。 5.4 多元线性回归模型的定性分析 5.4.1 多参数多元线性回归模型 多元线性回归模型的一般形式为:

Yi ? ?0 ? ?1X 1i?? 2X 2i ? ? ? ??k X ki ? u i , i ? 1,2,? ? ?n ,其中k为解释变量的数目,
? j (j ? 1,2,? ? ?k ) 称为回归系数。
本题模型含有三个参数指标葡萄酒的物化指标、 葡萄的物化指标以及芳香物 质的含量,考虑到三参的复杂性,分析认为:葡萄在做成葡萄酒后很多的指标将 发生很大的改变, 某些营养物质将不复从在。故舍去与葡萄酒的质量关联度较小 的葡萄物化指标, 而对剩余的两个参数指标进行多元线性回归分析。 模型建立为:

f ? ? bi x i ? ?c j y j
i ?1 j ?1

9

6

(15)

其中 f 代表第一组评委对红白葡萄酒的评分, bi 和 c j 分别代表葡萄酒物化 指标 x i 和芳香度指标 y j 的相关系数,且两因变量指标均经过单位归一化和住成 分分析法提取主成分。 5.4.2 模型求解 在第二问中已经求解出了酿酒葡萄的主要理化指标对葡萄酒质量的影响如 下: 红葡萄线性回归模型:
y ? 73.0002 - 0.0015x 1 - 0.0015 x2 ? 0.4922x 3 - 0.1452x 4 ? 0.0191x 5 - 0.0775x 6 ? 0.2035x 7
? 21.4222x 8 - 0.2614x 9

白葡萄线性回归模型:
y ? 54.4738 ? 2.2569x 1 ? 0.2099x 2 - 0.0602x 3 ? 0.0333 x 4 ? 0.0001x 5 ? 0.0641x 6 - 0.0945x 7
- 0.9406 x 8 ? 0.1914 x 9

对葡萄酒的理化指标进行相同的分析, k1 , k2 ...... k 9 分别表示花色苷、单宁、

总酚、 酒总黄酮、 白藜芦醇、 DPPH 半抑制体积、 (L*(D65)) 色泽 色泽 、 (a*(D65)) 、 色泽(b*(D65))求出葡萄酒的理化指标对葡萄酒质量的影响: 红葡萄酒各理化指标回归模型:

y ? 84.0323 ? 0.0201k1 ? 0.7852 k 2 ? 0.6042 k 3 ? 0.6057k 4 ? 0.4149 k 5 ? 6.8370 k 6 ? 0.1956 k 7
? 0.0484 k 8 ? 0.1179 k 9

白葡萄酒各理化指标回归模型:
y ? 333.2721 - 0.0085 k 2 - 0.0062 k 3 ? 0.4960 k 4 - 1.3569 k 5 ? 30.5907k 6 ? 2.5215 k 7 ? 1.8326 k 8
? 0.4621k 9

用葡萄和葡萄酒的理化指标来评价葡萄酒的质量是有一定道理的。 葡萄酒质 量属性主要指:复杂性、协调性以及能够激发消费者感情的能力。复杂性,意味 着葡萄酒有浓郁的、令人愉快的香气与滋味,及它的潜力与精巧性;协调性,指 各种感官成分的结合是平衡的, 每一种成分与其他成分相比,它的存在及其含量 是非常适宜的。同时,它的复杂性、颜色强度、香气、滋味、后味是稳定一致的。 理化指标各物质比例合适,达到一种平衡,葡萄酒的质量就高,而求出的各理化 指标的系数正是近似合理的搭配比例。 物质含量使得 y 值越大葡萄酒的质量就是 越好的,通过所求出的线性相关关系,就可近似评价酒的质量,所以是可以用葡 萄和葡萄酒的理化指标来评价葡萄酒的质量。 当然,感官指标是评价葡萄酒质量的一个很重要指标,但感官指标是由附表 三中给出的芳香类物质造成的, 而这些芳香类物质也是来源于理化指标中的,这 样就可以利用理化指标来评价葡萄酒的好坏, 评酒师感官的效果是由芳香类物质 造成的, 这样就建立了理化指标和感官指标之间的联系,就可以直接用理化指标 来判断葡萄酒的质量。

6、模型的检验 问题一中主要运用了统计学知识进行数据处理, 葡萄酒的评价结果由品酒员 给出, 由于不同的品酒员经验不同等主观与客观因素的影响,所以不同的评酒员 对同一样品酒的评价也会有明显不同,所以两组品酒员的评判结果有显著性差 异。实际情况和本问题的求解结果相符合。 问题二给出了酿酒葡萄的30个理化指标, 为了有效的对数据进行处理, 我们 筛选出了9个主要理化指标,通过查找资料,我们发现所求的主要理化指标与实 际中影响葡萄品质的主要理化指标基本相符, 这说明我们的模型建立与求解是正 确的和符合实际的。 对酿酒葡萄的分级,我们主要根据其能酿出的葡萄酒的好坏 决定其分级,在实际情况中,一般按地区,种类等对葡萄分级。 问题三研究酿酒葡萄和葡萄酒的理化指标之间的联系, 通过运用多元线性回 归模型,求出了酿酒葡萄与葡萄酒的理化指标之间的9组多元线性回归方程,并 且将9 组的优度值(表8和表9)与alpha(alpha=0.05) 进行比较,可知都小于 0.05,从而说明了拟合出的回归模型都成立。 问题四的求解有一部分是和问题二相同的。 当然无论是酿酒葡萄的理化指标

还是葡萄酒的理化指标与葡萄酒质量的联系既存在相关项,也有负相关项,这是 与实际一致的。 用葡萄和葡萄酒的理化指标来评价葡萄酒的质量,就是研究葡萄 和葡萄酒的理化指标与其芳香物质的理化指标,与葡萄酒质量之间的联系。这也 是实际情况中研究的关键。 所以综上,本文较好地研究了葡萄和葡萄酒之间的关 系。 7、模型的推广 为了更好地评价葡萄酒的质量,可以从酿酒葡萄开始研究。在模型四中说 明了酿酒葡萄主要理化指标对葡萄酒质量的影响, 我们可以通过研究酿酒葡萄的 成分来判断葡萄酒的质量, 但这是建立在外界条件一定的情况下。 对于实际问题, 我们不仅要考虑酿酒葡萄原料的理化指标, 葡萄酒的生产工艺也是决定葡萄酒好 坏的必要条件。为了使模型更具说服性,可加上生产工艺这一必要因素,并确定 其权重系数,即: 葡萄酒的质量=酿酒葡萄的质量*生产工艺权重。 由于人口味不同, 对葡萄酒的评价也各有取向,这使得对葡萄酒质量的客观 评价不严谨,掺杂着个人主观因素。随着科学技术的进步,影响葡萄酒质量的酿 酒葡萄理化成分的确定会更趋完善, 运用逐步回归分析法选出对葡萄酒质量影响 较大的因素, 确定其权值, 这样可以确定酿酒葡萄的质量。 同时, 在培养葡萄时, 可注重这些因素含量的控制,提高酿酒葡萄的质量。 而车间的流水作业的完善, 可使得生产工艺稳定, 即生产工艺权重变化不大, 这时,葡萄酒的质量就取决于酿酒葡萄的理化指标。

8 参考文献
[1] 王松桂, 张忠占, 程维虎, 高旅端, 概率论与数理统计, 科学出版社, 2006.8。 [2] 王金甲,尹涛,李静,洪文学,马崇霄,基于物理化学性质的葡萄酒质量 的可视化评价研究, 《燕山大学学报》 ,第 34 卷第 2 期:134-136,2010.3。 [3] 李云,李记明,姜忠军,统计分析在葡萄酒质量评价中的应用,酿酒科技, 第四期:79-82,2009。 [4] 李新蕊, 主成分分析、因子分析、聚类分析的比较与应用, 《山东教育学 院学报》 ,第六期:24-26,2007。 [5] 章绍辉,数学建模,科学出版社,2010。

附件 1、问题二的绘图程序: function nn r=load('d://red data.txt');%由 red data 文件中读入红葡萄的理化指标 w=load('d://white data.txt');%由 red data 文件中读入红葡萄的理化指标 for i=1:27 %选取红葡萄所给样本中的任意一个样本 a=[]; b=[]; for j=1:30; %选取红葡萄所选样本中的所有理化指标 b(j)=j; a(j)=r(i,j); end plot(b,a) %绘制所选红葡萄样本的可视化平行坐标图 hold on end title('红葡萄酒数据的可视化平行坐标图'); xlabel('输入变量'); ylabel('变量值'); for q=1:28 %选取白葡萄所给样本中的任意一个样本 x=[]; v=[]; for s=1:30; %选取白葡萄所选样本中的所有理化指标 v(s)=s; x(s)=w(q,s); end figure(2) plot(v,x) %绘制所选白葡萄样本的可视化平行坐标图 hold on end title('白葡萄酒数据的可视化平行坐标图'); xlabel('输入变量'); ylabel('变量值'); y=load('d://red.txt');%由 red 文件读取第二组品酒员对红葡萄酒的打分 x=load('d://white.txt');%由 white 文件读取第二组品酒员对白葡萄酒的打分 for f=1:27 figure(3) plot(f,y(f,2),'*r') hold on end hold on for k=1:28 plot(k,x(k,2),'^b')%绘制葡萄酒质量品尝得分图 hold on end

title('葡萄酒质量品尝得分图'); xlabel('样本编号'); ylabel('葡萄酒品尝得分'); end 2、问题四的线性回归的 MATLAB 程序: load('G:\hptzb.txt'); %把原始数据保存到纯文本 hptzb.txt 中 hptzb=zscore(hptzb); %把原始矩阵进行标准化 fprintf('相关系数矩阵:\n') std=corrcoef(hptzb) %计算相关系数矩阵 fprintf('特征向量(vec)及特征值(val):\n') [vec,val]=eig(std) %求特征值(val)及特征向量(vec) newval=diag(val) ; [y,i]=sort(newval) ; %对特征根进行排序,y 为排序结果,i 为索引 fprintf('特征根排序:\n') for z=1:length(y) newy(z)=y(length(y)+1-z); end fprintf('%g\n',newy) rate=y/sum(y); fprintf('\n 贡献率:\n') newrate=newy/sum(newy) sumrate=0; newi=[]; for k=length(y):-1:1 sumrate=sumrate+rate(k); newi(length(y)+1-k)=i(k); if sumrate>0.85 break; end end %记下累积贡献率大 85%的特征值的序号放入 newi 中 fprintf('主成分数:%g\n\n',length(newi)); fprintf('主成分载荷:\n') for p=1:length(newi) for q=1:length(y) result(q,p)=sqrt(newval(newi(p)))*vec(q,newi(p)); end end %计算载荷 disp(result)


更多相关文档:

A题论文新

作文新题十二则 暂无评价 4页 2.00元 22组A题论文 44页 免费 夏令营A题论文 30页 2财富值 论文A题 暂无评价 92页 8财富值 A题论文2 18页 5财富值 200...

A题论文

A题论文新 22页 免费 A题建模论文 16页 7下载券 夏令营A题论文 30页 1下载券 22组A题论文 44页 免费 2009年A题论文 25页 2下载券 论文A题 暂无评价 92...

A题论文

A题论文_其它_高等教育_教育专区。答卷编号(参赛学校填写): 答卷编号(竞赛组委会填写): 论文题目: (标明 A、B、C、D 之一) 组 别:(填写研究生、本科生、...

2014A题论文

2014A题论文_理学_高等教育_教育专区。2014 高教社杯全国大学生数学建模竞赛 承...并改变某些坐标 以便能获得其他新区域的坐标,再次搜索地势平坦的区域,重复进行...

2015年深圳杯A题论文

2015年深圳杯A题论文_理学_高等教育_教育专区。2015年深圳杯A题论文!医保欺诈行为的主动发现摘 要本文主要讨论了主流的异常检测方法,着重研究并分析了基于统计分布...

A题 论文

A题 论文_数学_自然科学_专业资料。赛区评阅编号(由赛区组委会填写): 2015 高...A题 太阳影子定位摘要 针对问题一: 针对问题二: 针对问题三: 针对问题四: ...

2015年全国大学生电子设计竞赛A题论文

2015年全国大学生电子设计竞赛A题论文_电子/电路_工程科技_专业资料。2015年“...(1T)的单片机,是高速、低功耗、 超强抗干扰的新一代 8051 单片机, 指令代码...

A题论文

A题论文新 22页 免费 A题建模论文 16页 20财富值 夏令营A题论文 30页 2财富值 22组A题论文 44页 免费 2009年A题论文 25页 5财富值 论文A题 暂无评价 ...

A题论文(1)

A题论文(1) 隐藏>> 2013 高教社杯全国大学生数学建模竞赛 承 诺 书 我们仔细...专家指出, 我国应实施“生育自主、倡导节制、素质优先、全面发展”的新人口政策...

2014年数模A题论文

2014年数模A题论文_工程科技_专业资料。2014年数模A题论文嫦娥三号软着陆轨道设计与控制策略摘要本文针对嫦娥三号软着陆轨道设计与控制策略的实际问题,以物理动力学为...
更多相关标签:
2016美赛a题优秀论文 | 2015国赛a题优秀论文 | 2014年美赛a题论文 | 2016年美赛a题论文 | 2015美赛a题优秀论文 | 2013数学建模a题论文 | 2015美赛a题o奖论文 | 2015数学建模a题论文 |
网站地图

文档资料共享网 nexoncn.com copyright ©right 2010-2020。
文档资料共享网内容来自网络,如有侵犯请联系客服。email:zhit325@126.com