当前位置:首页 >> 数学 >> 1.2 独立性检验的基本思想及其初步应用

1.2 独立性检验的基本思想及其初步应用


1.2 独立性检验的基本 思想及其初步应用

对于性别变量 其取值为男和女两种这 , . 种变量的不同 值" 表示个体所属的不同 " 类 别 , 像这类变量称为 分类变量 .在现实 生活中, 分类变量是大量存在的例如 是 , 否吸烟 宗教信仰国籍, 等等. , , 在日常生活中我们常常关心两个分类 , 变 量之间是否有关系 .例如, 吸烟

与肺癌是否 有关系? 性 别对于是否喜欢数学课 程 有 影响? 等等.

探究 为调查吸烟是否对患肺 癌有影响,某 肿瘤研究所随机地调查 9 965人,得到如下 了 结果 (单位 : 人) :
表1? 7吸烟与患肺癌列联表

不患肺癌 患肺癌 不吸烟 吸烟 总计 7775 2099 9874 42 49 91

总计 7817 2148 9965

那么吸烟是否对患肺癌 有影响?

像表 1 ? 7 这 样列出的两个分类变量的 频数表 , 称为列联表由吸烟情况和患肺 . 癌情况的列联 表可以粗略 估计出 : 在不 吸烟者中, 有0.54%患有肺癌; 在吸烟者中, 有2.28% 患有肺癌.因此, 直观上可以得出 结论 : 吸烟者和不吸 烟者患 肺癌可能存 在差异.

与表格相比 三维柱形图和二维条形 , 图 能更直观地反映出相关数据的总体 状 况.

8000 7000 6000 5000 4000 3000 2000 1000 0

吸烟
患肺癌

不患肺癌

不吸烟

图1.2 ? 1

图1.2 ? 1是列联表的三维柱形图, 从中能清晰 地看出各个频数的相对大小. 作三维柱形图要注意选 择恰当的视角 ,以使每 个柱体都能看到 .

9000 8000 7000 6000 5000 4000 3000 2000 1000 0

不患肺癌

患肺癌

不吸烟

吸烟

图1.2 ? 2

图 1.2 ? 2 是叠在一起的二维条形图, 其中绿色 条高表示不患肺癌的人数, 黑色条高表示患肺 癌的人数.从图中可以看出, 吸烟者中患肺癌的 比例高于不吸烟者中患肺癌的比例.

1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00

不吸烟

吸烟

图1.2 ? 3

为了更清晰地表达这个特征, 我们还可用如下的等 高条形图表示两种情况下患肺癌的比例 .如图1.2 ? 3 所示 , 在等高条形图中, 绿色的条高表示不患肺癌 的百分比; 黑色的条高表示患肺癌的百分比.

上面我们通过分析数据 和图形 得到的直观印 , 象是吸烟和患肺癌有关 .那么事实是否真的如 此呢 ? 或者说我们能够以多大 的把握认为 吸 " 烟与患肺癌有关 呢 ? " 为了回答上述问题, 我们先假设 H0 : 吸烟与患肺癌没有关系. 用A表示不吸烟,B表示不患肺癌, 则" 吸烟与患 肺 癌没有关系 " 等价于" 吸烟与患肺癌独立" , 即H0等价于 P?AB? ? P?A ?P?B?.

把表1 ? 7中的数字用字母代替, 得到如下用字 母表示的列联表 :
表1? 8 吸烟与患肺癌列联表

不吸烟 吸烟 总计

不患肺癌 患肺癌 a b c d a?c b?d

总计 a?b c?d a?b?c ?d

在表1 ? 8中, a 恰好为事件AB 发生的频数 : a ? b 和a ? c 恰恰好分别为事件A 和 B发生的频数 .由 于频率近似于概率, 所以在H 0成立的条件下应有

a a?b a?c ? ? , 其中n ? a ? b ? c ? d为样本容 n n n 量, 即 ?a ? b ? c ? d?a ? ?a ? b ??a ? c ?,即 ad ? bc.
因此,| ad ? bc | 越小, 说明吸烟与患肺癌之间关 系越弱;| ad ? bc | 越大, 说明吸烟与患肺癌之间 关系越强. 为了使不同样本容量的数据有统一的评判标 准, 基于上面的分析, 我们构造一个随机变量
n?ad ? bc ? K ? ?a ? b??c ? d??a ? c ??b ? d? 其中n ? a ? b ? c ? d为样本容量.
2 2

?1 ?

若H 0成立,即"吸烟与肺癌没有关系" , 则K 应该
2

很小.现在, 根据表1 ? 7中的数据, 利用公式?1?计 算得K 的观测值为
2

9965 ? ?7775 ? 49 ? 42 ? 2099? k? ? 56.632, 7817 ? 2148 ? 9874 ? 91 这个值是不是很大呢 ?
2

在H0成立的情况下, 统计学家估算出如下概率 ?2? P?K 2 ? 6.635 ? ? 0.01. 即在H0成立的情况下K 2的值大于6.635的概率 非常小.近似于0.01.也就是说.在H0成立的情况

下对随机变量K 2进行多次观测, 观测值超过6.635 1 的频率约为 . 100 在?2?中, n越大,近似程度越高在实际应用中通常 . , 要求a,b, c, d都不小于5. 思考 如果K 2 ? 6.635, 就断定H0不成立, 这种判 断出错的可能性有多大 ? 现在观测值k ? 56.632远远大于6.635, 在H0 成立 的条件下,由 ?2?式可知能够出现这样的观测值的 概率不超过 0.01. 因此我们有99% 的把握认为H0 不成立, 即有99%的把握认为" 吸烟与肺癌有关系".

上面这种利用随机变量 2来确定在多大程度上 K 可以认为" 两个分类变量有关系的方法称为两 " 个分类变量的 独立性检验. . 独立性检验的基本思想 类似于反证法要确认" 两个 . 分类变量有关系这一结论成立的可信程 , 首先假 " 度 设该结论不成立即假设结论" 两个分类变量没有关 , 系" 成立, 在该假设下构造的随机 变量K 2 应该很小如 . 果由观测数据计算得到 K 2 的观察值很大 则在一 的 , 定程度上说明假设不合 .根据随机变量 2 的含义, 理 K 可以通过概率?2? 式评价该假设不合理的 程度,由实 际计算出的k ? 6.635 , 说 明 假 设 不 合 理的程度为 99%,即" 两个分类变量有关系这一结论成立的可信 " 程度约为 %. 99

思考 利用上面的结论你能从列联表的三维柱 , 形图中看出两个分类变 量是否相关吗 ?

一般地, 假设两个分类变量 和Y,它们的值域分 X 别为 ?x1, x 2 ? 和 ?y1, y 2 ? , 其样本频数列联表 称为 ( 2 ? 2列联表) 为 :
表1? 9
2? 2列联表

x1 x2 总计

y1 a c a?c

y2 b d b?d

总计 a?b c?d a?b?c ?d

若要推断的论述为 H1 :" X与Y有关系" , 可以按如下步 骤判断结论H1成立的可能性 : 1.通过三维柱形图和二维条形图 , 可以粗略地判断两 个分类变量是否有关, 但是这种判断无法精确地给出 所得结论的可靠程度. ?1?在三维柱形图中, 主对角线上两个柱形高度的乘积 ad与副对角线上的两个柱形高度的乘积bc相差越大, H1成立的可能性越大. ?2?在二维条形图中, 可以估计满足条件X ? x1的个体 a 中具有Y ? y1的个体所占的比例 , 也可以估计满 a?b 足条件X ? x 2的个体中具有Y ? y1的个体所占的比例 c .两个比例的值相差越大,H1成立的可能性就越大. c?d

2.可以利用独立性检验来考察两个分类变量是否 有关系, 并且能较精确地给出这种判断的可靠程度. 具体做法是 : 根据 观测数据计算则 ?1? 式给出的检 验随机变量K 2的值k , 其值越大, 说明 " X与Y有关系" 成立的可能性越大.当得到的观测数据 a, b, c, d 都不 小于5时, 可以通过查阅下表 (表1 ? 10 ) 来确定结论 " X与Y有关系"的可信程度.

当观测数据 ,b, c, d中有小于 时,需采用很复杂的精 a 5 确的检验方法 .
表1? 10 P?K 2 ? k ? 0.50 0.40 0.25 0.15 0.10 k 0.455 0.708 1.323 2.072 2.706
0.05 0.025 3.841 5.024 0.010 6.635 0.005 7.879 0.001 10.828

例如 : ?1?如果k ? 10.828, 就有99.9%把握认为" X与Y有 关系" ; ?2?如果k ? 7.879, 就有99.5% 把握认为" X与Y有关 系" ;

?3?如果k ? 6.635,就有99%把握认为 X与Y有关系"; " ?4?如果k ? 5.024, 就有97.5%把握认为" X与Y有关

系" ; ?5?如果k ? 3.841,就有95%把握认为 X与Y有关系"; "

?6?如果k ? 2.706,就有90%把握认为 X与Y有关系"; "
如果k ? 2.706, 就认为没有充分的证据 显示" X与Y 有关系 ".

1 在某医院 ,因为心脏 病而住 院的 665 名男性 病人中, 有 214 人秃顶,而另外 772 名不是因为患心 脏病而住院的男性病 人中有 175 人秃顶.分别利用 图形和独立性检 验方法判断秃顶与患心 脏病是否 有关系? 你所得的结论在什么范 围内有效 ?



根据题目所给数据得到如下列联表
患心脏病 患其他病 214 175 451 597 665 772 总计 389 1048 1437

表1? 11 秃顶与患心脏病列联表

秃顶 不秃顶 总计

相应的三 维柱形图 如图1.2 ? 4 所示.比 较来说, 底面副对角 线上两个柱 体 高度 的乘积要大一些, 可 以在 某种程度上认 为" 秃顶与患心脏病有关". 根据列联表1 ? 11中的数据, 得到
1437 ? ?214 ? 597 ? 175 ? 451? K ? ? 16 .373 ? 6.635 . 389 ? 1048 ? 665 ? 772 所以有99%的把握认为 秃顶与患心脏病有关". " 因为这组数据来自住院的病人,因此所得到的结论适合 住院的病人群体.
2 2
600 500 400 300 200 100 0

患其他病

秃顶

不秃顶

患心脏病

图1.2 ? 4

2 为考察高中生的性别与 是否喜欢数学课程 之间的关系 , 在某城市的某校高中生 中随机 抽出 300名学生, 得到如下列联表 :
表1? 12 性别与喜欢数学课程列联表

男 女 总计

喜欢数学课程 不喜欢数学课程 总计 37 85 122 35 143 178 72 228 300

由表中数据计算得K 2 ? 4.513 .高中生的性别与是 否喜欢数学课程之间是 否有关系? 为什么?

解 可以有约95%以上把握认为" 性别与喜欢数学 课之间有关系 ". 作出这种判断的依 据是独立性检 验的基本思想, 具体过程如下 :
分别用a, b, c, d表示样本中喜欢数学课的男生人数、 不喜欢数学课的男生人数、喜欢 数学课的女生人 数、不喜欢数学课的女生人数.如果性别与是否喜 欢 数 学 课 有关 系 , 则男生中喜 欢 数 学 课 的比 例 a c 与女生中喜欢 数学课的人数比例 应该 a?b c?d a c ac ? bd 相差很多 即 , ? ? 应很大. a ? b c ? d ?a ? b ??c ? d?

将上式等号右边的式子乘以常数因子

?a ? b ? c ? d??a ? b ??c ? d? , ?a ? c ??b ? d?
然后平方得 n?ac ? bd? K ? , ?a ? b ??c ? d??a ? c ??b ? d?
2 2

其中n ? a ? b ? c ? d.因此K 2越大, " 性别与喜 欢数学课之间有关系" 成立的可能性越大 .

另一方面, 假设" 性别与喜欢数学课之间没有关系" , 由于事件A ? ?K 2 ? 3.841?的概率为P?K 2 ? 3.841? ? 0.05,因此事件A是一个小概率事件.而由样本数 据计算得K 2 ? 4.513, 这表明小概率事件A发生.根 据假设检验的基本原理 我们应该断定 " 性别与喜 , 欢数学课之间有关系 " 成立, 并且这种判断出错的 可能性约为5%.所以, 约有95%的把握认为" 性别与 喜欢数学课之间有关系".


更多相关文档:

1.2 独立性检验的基本思想及其初步应用

高二数学导学案 编制: 审核: 审批: 班级: 小组: 姓名: 等级: 1.2 独立性检验的基本思想及其初步应用【学习目标】 1.了解独立性检验(只要求 2×2 列联表)...

1.2独立性检验的基本思想及其初步应用

1.2独立性检验的基本思想及其初步应用_高二数学_数学_高中教育_教育专区。1.2 独立性检验的基本思想及其初步应用(一) 教学要求:通过探究“吸烟是否与患肺癌有关系...

1.2 独立性检验的基本思想及其初步应用

1.2 独立性检验的基本思想及其初步应用 y1 x1 x2 总计 a 8 b y2 21 25 46 ( ). 总计 男生 73 33 女生 总计 认为作业量大 18 8 26 认为作业量不...

1.2 独立性检验的基本思想及其初步应用(1)

1.2 独立性检验的基本思想及其初步应用(1)_其它课程_高中教育_教育专区。高效课堂导学案(包含预习案、探究案和训练案)高二导学案 班级 【学习目标】 学科:数学 ...

1.2独立性检验的基本思想及其初步应用1

高二数学学案选修 1-2(文科) 命制人: 审核人: 使用时间: 课题:独立性检验的基本思想及其初步应用 学习目标:1. 通过对典型例题的探究,了解独立性检验(只要求 ...

1.2独立性检验的基本思想及其初步应用

(主备人) 芦海 学生姓名 审核人 学号 授课时间 课前批改 编号 课后批改 2 课题: 1.2 独立性检验的基本思想及其初步应用 P(k ≥k0) k0 2 达标训练: 1...

2、1-2独立性检验的基本思想及其初步应用

2、1-2独立性检验的基本思想及其初步应用_高二数学_数学_高中教育_教育专区。高二数学选修1-2全册同步练习1. 2 独立性检验的基本思想及其初步应用一、选择题 1...

独立检验的基本思想及其初步应用

2 八、板书设计 1.2 独立性检验的基本思想及其初步应用(一) 一、 有关概念 1、 分类变量 2、 列联表 二、独立性检验 1、独立性检验的思想 2、独立性检验...

1.2独立性检验的基本思想及其初步应用(学、教案)

1. 2 独立性检验的基本思想及其初步应用 课前预习学案一、预习目标: 能用所学的知识对实际问题进行回归分析, 体会回归分析的实际价值与基本 思想;了解判断刻画...
更多相关标签:
独立性检验的基本思想 | 独立性检验的思想 | 毛泽东思想初步形成于 | 毛泽东思想初步形成 | 毛泽东思想的初步形成 | 毛泽东思想初步形成在 | 初步学开车的基本知识 | 初步广场舞的基本步骤 |
网站地图

文档资料共享网 nexoncn.com copyright ©right 2010-2020。
文档资料共享网内容来自网络,如有侵犯请联系客服。email:zhit325@126.com