当前位置:首页 >> 数学 >> 高中数学-变量间的相关关系与统计案例

高中数学-变量间的相关关系与统计案例


第六单元第 3 讲 变量间的相关关系与统计案例(3 课时)
一基础知识 1.相关关系的分类 从散点图上看, 点散布在从左下角到右上角的区域内,对于两个变量的这种相关 关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的 这种相关关系称为负相关.

2.线性相关 从散点图上看, 如果这些点从整体上看大致分布在一条直线附近,则称这两个变

量之间具有线性相关关系,这条直线叫回归直线. 3.回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小 二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据: ^ ^ ^ (x1,y1),(x2,y2),?,(xn,yn),其回归方程为y=bx+a,则

?
b ?
i ?1

n

xi yi ? n x y ? xi ? n x
2 2

? (x
i ?1 n

n

i

? x )( y i ? y ) ,a ? y ? bx
i

?
i ?1

n

? (x
i ?1

? x)

2

其中,b 是回归方程的斜率,a 是在 y 轴上的截距. 4.样本相关系数

? (x
r=
n i ?1

n

i

? x )( y i ? y ) ?
2

?
i ?1 n 2 2

n

xi yi ? n x y

,用它来衡量两个变量
2 n 2 2 i ?1

? (x
i ?1

i

? x)

? (y
i ?1

n

i

? y)

( ? x i ? n x )( ? y i ? n y )
i ?1

间的线性相关关系. (1)当 r>0 时,表明两个变量正相关; (2)当 r<0 时,表明两个变量负相关; (3)r 的绝对值越接近 1, 表明两个变量的线性相关性越强; 的绝对值越接近于 0, r 表明两个变量之间几乎不存在线性相关关系. (4)相关性检验的步骤:
1

① 作统计假设 ② 根据小概率 0.05 与 n-2 在附表中找出 r 的一个临界值 r0.05 ③ 根据样本相关系数计算公式算出 r 值 ④ 用统计判断,如果 | r |? r0 .05 ,那么可以认为 y 与 x 之间的线性相关关系不显著,从而接 受统计假设. 如果 | r |? r0 .05 ,表明一个发生的概率不到 5%的事件在一次试验中竟发生了. 这个小概率事件的发生使我们有理由认为 y 与 x 之间不具有线性相关关系的假设是不成立 的,拒绝这一统计假设也就是表明可以认为 y 与 x 之间具有线性相关关系.

5.线性回归模型 (1)y=bx+a+e 中,a、b 称为模型的未知参数;e 称为随机误差. (2)相关指数 用 相 关 指 数 R2 来 刻 画 回 归 的 效 果 , 其 计 算 公 式 是 :
2

? (y
R
2

n

i

? ? yi ) ? yi )

?1-

? (y
i ?1

i ?1 n

?1?
2 i

残差平方和 总偏差平方和

, R 2 的值越大(接近 1) R 的值越大,说 ,

2

明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2 表 示解释变量对预报变量变化的贡献率,R2 越接近于 1,表示回归效果越好.
(2) r 具有以下性质: (1)当 r>0 时,表明两个变量正相关;当 r<0 时,表明两个变量负相关; (2)当|r|≤1,并且|r|越接近 1 时,两个变量的线性相关程度越强;当|r|越接近 0 时,两个变 量的线性相关程度越弱; (3)相关性检验的步骤: ① 作统计假设 ② 根据小概率 0.05 与 n-2 在附表中找出 r 的一个临界值 r0.05 ③ 根据样本相关系数计算公式算出 r 值 ④ 用统计判断,如果 | r |? r0 .05 ,那么可以认为 y 与 x 之间的线性相关关系不显著,从而接 受统计假设. 如果 | r |? r0 .05 ,表明一个发生的概率不到 5%的事件在一次试验中竟发生了. 这个小概率事件的发生使我们有理由认为 y 与 x 之间不具有线性相关关系的假设是不成立 的,拒绝这一统计假设也就是表明可以认为 y 与 x 之间具有线性相关关系.

6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例 如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表.
2

(3)一般地,假设有两个分类变量 X 和 Y,它们的值域分别为{x1,x2}和{y1,y2}, 其样本频数列联表(称为 2×2 列联表)为: 2×2 列联表 y1 x1 x2 总计 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d

n?ad-bc?2 K2 = (其中 n=a+b+c+d 为样本容量),可利用独立性 ?a+b??a+c??c+d??b+d? 检验判断表来判断“x 与 y 的关系”. 这种利用随机变量 K2 来确定在多大程度上可以认为“两个分类变量有关系”的 方法称为两个分类变量的独立性检验. 当 K2≥3.841 时,则有 95%的把握说事 A 与 B 有关; 当 K2≥6.635 时,则有 99%的把握说事件 A 与 B 有关; 当 K2≤2.706 时,则认为事件 A 与 B 无关.

三.题型分析 题型 1 相关关系的判断

题 1.某棉业公司的科研人员在 7 块并排、 形状大小相同的试验田上对某棉花新品种进行施化 肥量 x 对产量 y 影响的试验,得到如下表所示的一组数据(单位:kg): 施化肥量 x 棉花产量 y (1)画出散点图; (2)判断是否具有相关关系. [审题视点] (1)用 x 轴表示化肥施用量,y 轴表示棉花产量,逐一画点. (2)根据散点图,分析两个变量是否存在相关关系. 解 (1)散点图如图所示 15 330 20 345 25 365 30 405 35 445 40 450 45 455

3

(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量 x 与产量 y 具有线 性相关关系.

利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点 图中如果所有的样本点都落在某一函数的曲线上, 就用该函数来描述变量之间的 关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近, 变量之间就有相关关系; 如果所有的样本点都落在某一直线附近,变量之间就有 线性相关关系. 题 2. 根据两个变量 x,y 之间的观测数据画成散点图如图所示,这两个变量是否 具有线性相关关系________(填“是”与“否”).

解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线 性相关关系. 答案 否

题型 2.

独立性检验

题 3 为调查某地区老人是否需要志愿者提供帮助, 用简单随机抽样方法从该地区调查了 500
位老年人,结果如下: 是否需要志愿 性别 男 女 40 30 需要 160 270 不需要 (1) 估计该地区老年人中,需要志愿者提供帮助的老年人的比例; (2) 能否有 99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3) 根据(2)的结论,能否提供更好的调查方法来估计该地区老年人,需要志愿帮助的 老年人的比例?说明理由

[审题视点] 第(2)问由 a=40,b=30,c=160,d=270,代入公式可求 K2,由
4

K2 的值与 6.635 比较断定.第(3)问从抽样方法说明. 解 (1)调查的 500 位老年人中有 70 位需要志愿者提供帮助,因此该地区老年人 70 中,需要志愿者提供帮助的老年人的比例的估计值为500=14%. (2)K2= 500×?40×270-30×160?2 ≈9.967. 70×430×200×300

由于 9.967>6.635, 所以有 99%的把握认为该地区老年人是否需要帮助与性别有 关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能 看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异, 因此在调查 时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,采用分 层抽样方法,这要比采用简单随机抽样方法更好. 独立性检验的步骤: (1)根据样本数据制成 2×2 列联表; (2)根据公式 K2= n?ad-bc?2 计算 K2 的观测值; ?a+b??a+c??b+d??c+d?

(3)比较 K2 与临界值的大小关系作统计推断. 题 4. 甲乙两个学校高三年级分别有 1100 人和 1000 人, 为了了解这两个学校全体
高三年级学生在该地区二模考试中的数学成绩情况, 采用分层抽样方法从两个学校一共 抽取了 105 名学生的数学成绩, 并作出了如下的频数分布统汁表, 规定考试成绩在[120, 150]内为优秀.

(I)试求 x,y 的值; (II)由以上统计数据填写右面 2×2 列联表,

5

若按是否优秀来判断,是否有 97.5%的把握 认为两个学校的数学成绩有差异。 (III)根据抽样结果分别估计甲校和乙校的 优秀率,若把频率视为概率,现从乙校学生 中任取 3 人,求优秀学生人数ξ 的分布列和数学期望。

题型 3.

线性回归方程

题 5(2012· 菏泽模拟)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录 的产量 x(吨)与相应的生产能耗 y(吨标准煤)的几组对照数据. x y 3 2.5 4 3
6

5 4

6 4.5

(1)请画出上表数据的散点图; ^ ^ ^ (2)请根据上表提供的数据, 用最小二乘法求出 y 关于 x 的线性回归方程y=bx+a; (3)已知该厂技改前生产 100 吨甲产品的生产能耗为 90 吨标准煤. 试根据(2)求出 的线性回归方程.预测生产 100 吨甲产品的生产能耗比技改前降低多少吨标准 煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) ^ ^ [审题视点] (2)问利用公式求a、b,即可求出线性回归方程. (3)问将 x=100 代入回归直线方程即可. 解 (1)由题设所给数据,可得散点图如图所示.

(2)由对照数据,计算得: ?x2=86, i i=1 x= 3+4+5+6 2.5+3+4+4.5 =4.5(吨), y = =3.5(吨). 4 4

4

4 已知 ?xiyi=66.5, i=1 所以,由最小二乘法确定的回归方程的系数为:

?xiyi-4 x ·y
^ i=1 b= 4 =

4

?xi2-4 x 2

66.5-4×4.5×3.5 =0.7, 86-4×4.52

i=1 ^ ^ a= y -b x =3.5-0.7×4.5=0.35. ^ 因此,所求的线性回归方程为y=0.7x+0.35. (3)由(2)的回归方程及技改前生产 100 吨甲产品的生产能耗,得降低的生产能耗 为:

7

90-(0.7×100+0.35)=19.65(吨标准煤). 在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是 否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程. 题 6. 有 10 名同学高一(x)和高二(y)的数学成绩如下:
高一成绩 x 高二成绩 y 74 76 71 75 72 71 68 70 76 76 73 79 67 65 70 77 65 62 74 72

(1)y 与 x 是否具有相关关系? (2)如果 y 与 x 具有相关关系,求回归直线方程. 参考数据:
x ? 71 , y ? 72 . 3 , ? y i ? 710 , ? y i ? 723 , ? x i y i ? 51467 , ? x i ? 50520 , ? y t ? 52541 .
2 2 i ?1 i ?1 i ?1 i ?1 i ?1 10 10 10 10 10

分析:判断两变量之间是否具有相关关系,首先要求出其相关系数 r,然后根据显著性 水平 ? 及自由度 df ? n ? 2 查相关系数临界值表找临界值 r? ,当 r ? r? 时认为不具有相关 关系;当 r ? r? 时认为具有相关关系,求回归直线方程则比较简单,只要求出 a 与 b 的值即 可. 解: :由已知表格中所给数据进行计算,得: (1)
x ? 71 , y ? 72 . 3 , ? y i ? 710 , ? y i ? 723 , ? x i y i ? 51467 , ? x i ? 50520 , ? y t ? 52541 .
2 2 i ?1 i ?1 i ?1 i ?1 i ?1 10 10 10 10 10





?
r ?
10 2 i ?1 i ?1

10

x i y i ? 10 xy ?
10 2 2 2 i ?1

51467 ? 71 ? 723 ( 50520 ? 10 ? 71 )( 52541 ? 10 ? 72 . 3 )
2 2

? 0 .7

( ? x i ? 10 x )( ? y t ? 10 y )

又查得附表 3 中相应在于显著性水平 0.05 和 df ? n ? 2 的相关系数临界值
r0 . 05 ? 0 . 632

由 r ? r0 .05 知,y 与 x 具有相关关系. 说明:这类问题思路一般不是很复杂,掌握比较容易,但往往运算量较大,很容易出 现计算错误,这就需要在计算时仔细准确,还要能熟练地使用科学计算器,从而解题速度和 准确性.

第六单元第 3 讲作业 1.(人教 A 版教材习题改编)下面哪些变量是相关关系( A.出租车车费与行驶的里程
8

).

B.房屋面积与房屋价格

C.身高与体重

D.铁块的大小与质量

解析 A,B,D 都是函数关系,其中 A 一般是分段函数,只有 C 是相关关系. 答案 C 2.对变量 x,y 有观测数据(xi,yi)(i=1,2,?,10),得散点图(1);对变量 u,v 有观测数据(ui、vi)(i=1,2,?,10),得散点图(2).由这两个散点图可以判断 ( ).

A.变量 x 与 y 正相关,u 与 v 正相关 B.变量 x 与 y 正相关,u 与 v 负相关 C.变量 x 与 y 负相关,u 与 v 正相关 D.变量 x 与 y 负相关,u 与 v 负相关 解析 由题图(1)可知,各点整体呈递减趋势,x 与 y 负相关;由题图(2)可知,各 点整体呈递增趋势,u 与 v 正相关. 答案 C 3.(2012· 南昌模拟)某商品销售量 y(件)与销售价格 x(元/件)负相关,则其回归方 程可能是( ). ^ B.y=10x+200 ^ D.y=10x-200

^ A.y=-10x+200 ^ C.y=-10x-200

解析 因为销量与价格负相关,由函数关系考虑为减函数,又因为 x,y 不能为 负数,再排除 C,故选 A. 答案 A 4.(2012· 枣庄模拟)下面是 2×2 列联表: y1 x1 x2 合计 a 22 b y2 21 25 46 合计 73 47 120

9

则表中 a,b 的值分别为( A.94,72 B.52,50

). C.52,74 D.74,52

解析 ∵a+21=73,∴a=52,又 a+22=b,∴b=74. 答案 C 5.在一项打鼾与患心脏病的调查中,共调查了 1 671 人,经过计算 K2 的观测值 k=27.63, 根据这一数据分析, 我们有理由认为打鼾与患心脏病是________的(有 关,无关). 解析 由观测值 k=27.63 与临界值比较,我们有 99%的把握说打鼾与患心脏病 有关. 答案 有关

6. 某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某 医院抄录了 1 至 6 月份每月 10 号的昼夜温差情况与因患感冒而就诊的人数,得到如下资 料: 日 期 1 月 10 日 10 x(°C) 就诊人数 22 y(个) 该兴趣小组确定的研究方案是:先从这六组数据中选取 2 组,用剩下的 4 组数据求线性回 归方程,再用被选取的 2 组数据进行检验. (Ⅰ) 求选取的 2 组数据恰好是相邻两个月的概率; (Ⅱ)若选取的是 1 月与 6 月的两组数据,请根据 2 至 5 月份的数据,求出 y 关于 x 的线性 回归方程 ? ? bx ? a ; y (Ⅲ)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2 人,则认 为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想? 25 29 26 16 12 2 月 10 日 11 3 月 10 日 13 4 月 10 日 12 5 月 10 日 8 6 月 10 日 6

昼夜温差

?
(参考公式: b ?
i ?1

n

xi yi ? n x y ? xi ? n x
2 2

? (x
i ?1 n

n

i

? x )( y i ? y ) ,a ? y ? bx )
i

?
i ?1

n

? (x
i ?1

? x)

2

10

解:(Ⅰ)设抽到相邻两个月的数据为事件 A.因为从 6 组数据中选 取 2 组数据共有 15 种情况,每种情况都是等可能出现的,其中,抽到相邻两个月的数据的情 况有 5 种 ,所以 P (A) ?
5 15 ? 1 3

(Ⅱ)由数据求得 x ? 11, y ? 24 再由 a ? y ? b x ? ?
30 7 y (Ⅲ)当 x ? 1 0 时, ? ? 150 7

由公式求得 b ?

18 7
18 7 30 7

y 所以 y 关于 x 的线性回归方程为 ? ?

x?

, | , |

150 7

? 2 2 |? 2 ;

y 同样, 当 x ? 6 时, ? ?

78 7

78 7

? 1 4 |? 2

所以,该小组所得线性回归方程是理想的. 7.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随即在这两条流水线上各抽取 ,重量值落在 (495, 510] 的产品为合格品, 40 件产品作为样本称出它们的重量(单位:克) 否则为不合格品.图 1 是甲流水线样本的频率分布直方图,表 1 是乙流水线样本频数分布表.

(Ⅰ) 若以频率作为概率,试估计从甲流水线上任取 5 件产品,求其 中合格品的件数 X 的数 学期望; (Ⅱ)从乙流水线样本的不合格品中任意取 2 件,求其中超过合格品重量的件数 Y 的分布 列; (Ⅲ)由以上统计数据完成下面 2 ? 2 列联表,并回答有多大的把握认为“产品的包装质量 与两条自动包装流水线的选择有关” . 甲流水线 合格品 不合格品
a ? c?
11

乙流水线
b ? d ?

合计





n?

附:下面的临界值表供参考:
p(K
2

? k)

0.15 2.072
2

0.10 2.706

0.05 3.841
2

0.025 5.024
[来源:Zxxk.Com]

0.010 6.635

0.005 7.879

0.001 10.828

k

(参考公式: K

?

n(ad ? bc)

( a ? b )( c ? d )( a ? c )( b ? d )

,其中 n ? a ? b ? c ? d )

解: (Ⅰ)由图1知,甲样本中合格品数为 (0.06 ? 0.09 ? 0.03) ? 5 ? 40 ? 36 ,

则 Y 的取值为 0 ,1, 2 ;且 P ( Y ? k ) ?
P (Y ? 0 ) ? 1 3 , P ( Y ? 1) ? 8 15

C 4 ?C 6 C 10
2

k

2?k

( k ? 0 ,1, 2 ) ,于是有:
2

, P (Y ? 2 ) ?

15

∴ Y 的分布列为

Y
P

0
1 3

1
8 15

2

[来源:Z_xx_k.Com]

2 15

?????10 分 (Ⅲ) 2 ? 2 列联表如下:

∵K

2

?

n(ad ? bc)

2

( a ? b )( c ? d )( a ? c )( b ? d )



8 0 ? (3 6 0 ? 1 2 0 )

2

66 ? 14 ? 40 ? 40

? 3 .1 1 7 ? 2.706

∴ 有 90%的把握认为产品的包装质量与两条自动包装流水线的选择有关.??13 分 补例. 为了解某班学生喜爱打篮球是否与性别有关, 对本班 50 人进行了问卷调查得到了如下的 列联表: 喜爱打篮球 男生 女生 合计
3 已知在全部 50 人中随机抽取 1 人抽到喜爱打篮球的学生的概率为 . 5

不喜爱打篮球 5

合计

10 50

(1)请将上面的列联表补充完整(不用写计算过程); (2)能否在犯错误的概率不超过 0.005 的前提下认为喜爱打篮球与性别有关?说明你的

12

理由; (3)现从女生中抽取 2 人进一步调查,设其中喜爱打篮球的女生人数为 ? ,求 ? 的分布 列与期望. 下面的临界值表供参考:
P(K
2

? k)

0.15 2.072

0.10 2.706

0.05 3.841
2

0.025 5.024

0.010 6.635

0.005 7.879

0.001 10.828

k

(参考公式: K 2 ?

n(ad ? bc)

( a ? b )( c ? d )( a ? c )( b ? d )

,其中 n ? a ? b ? c ? d )

解:(1) 列联表补充如下:----------------------------------------3 分 喜爱打篮球 男生 女生 合计 (2)∵ K
2

不喜爱打篮球 5 15 20

合计 25 25 50

20 10 30
2

?

50 ? (20 ? 15 ? 10 ? 5) 30 ? 20 ? 25 ? 25

? 8 .3 3 3 ? 7 .8 7 9 ------------------------6 分

∴ 在 犯 错 误 的 概 率 不 超 过 0.005 的 前 提 下 , 认 为 喜 爱 打 篮 球 与 性 别 有 关.---------------------7 分

(3)喜爱打篮球的女生人数 ? 的可能取值为 0,1, 2 .-------------------------9 分
C 10 C 15 C 25
2 0 2

其概率分别为 P ( ? ? 0 ) ?

?

7 20

, P ( ? ? 1) ?

C 10C 15 C 25
2

1

1

?

1 2

, P (? ? 2 ) ?

C 10 C 15 C 25
2

2

0

?

3 20

--------------------------12 分 故 ? 的分布列为:
?
P
0
7 20 7 20 1 2 3 20 4 5

1
1 2

2
3 20

--------------------------13 分
? 的期望值为: E ? ? 0 ?
? 1? ? 2? ?

---------------------14 分

13


更多相关文档:

两变量间的相关关系与统计案例练习题

变量间的相关关系与统计案例练习题_数学_高中教育_教育专区。能力测试点 54:两变量间的相关关系与统计案例 考点一: 1. 某商品销售量 y(件)与销售价格 x(元...

高三总复习变量间的相关关系、统计案例1

高三总复习变量间的相关关系统计案例1_数学_高中教育_教育专区 暂无评价|0人阅读|0次下载|举报文档 高三总复习变量间的相关关系统计案例1_数学_高中教育_教育...

变量间的相关关系与统计案例

变量间的相关关系与统计案例_数学_高中教育_教育专区 暂无评价|0人阅读|0次下载 变量间的相关关系与统计案例_数学_高中教育_教育专区。第二节 变量间的相关关系...

变量间的相关关系与统计案例

变量间的相关关系与统计案例_高三数学_数学_高中教育_教育专区。统计案例 变量间的相关关系与统计案例 一、 学习目标及重难点 学习目标: 1.会作两个相关变量的...

2015年全国高考数学试题分类汇编§11.4 变量间的相关关系与统计案例

2015年全国高考数学试题分类汇编§11.4 变量间的相关关系与统计案例_高三数学_数学_高中教育_教育专区。11.4 变量间的相关关系与统计案例 考点一 变量间的相关...

变量间的相关关系与统计案例

变量间的相关关系与统计案例_数学_高中教育_教育专区。课时作业(五十五) n?ad-bc?2 附表:K2= ?a+b??c+d??a+c??b+d? P(K2≥k0) k0 0.25 1.323...

变量间的相关关系、统计案例

变量间的相关关系统计案例_数学_高中教育_教育专区。{{变量间的相关关系统计案例}} 1、概念: (1)回归直线方程(2)回归系数 2.最小二乘法 3.直线回归方程...

高中数学-变量间的相关关系与统计案例

高中数学-变量间的相关关系与统计案例_数学_高中教育_教育专区 暂无评价|0人阅读|0次下载|举报文档 高中数学-变量间的相关关系与统计案例_数学_高中教育_教育专区...

变量间的相关关系、统计案例

变量间的相关关系统计案例_数学_高中教育_教育专区 暂无评价|0人阅读|0次下载|举报文档变量间的相关关系统计案例_数学_高中教育_教育专区。开卷速查课时作业 ...
更多相关标签:
近年医患关系案例统计 | 高中数学统计案例 | 统计学案例 | 生活中的统计学案例 | 基层统计分析实用案例 | 统计学案例分析 | 统计学数据分析案例 | 统计案例 |
网站地图

文档资料共享网 nexoncn.com copyright ©right 2010-2020。
文档资料共享网内容来自网络,如有侵犯请联系客服。email:zhit325@126.com