还剩29页未读,
继续阅读
成套系列资料,整套一键下载
人教A版数学高二选择性必修第三册 第八章 成对数据的统计分析 知识清单
展开
这是一份人教A版数学高二选择性必修第三册 第八章 成对数据的统计分析 知识清单,共32页。
选择性必修三 第八章 成对数据的统计分析知识点清单一、本章思维导图§8.1 成对数据的统计相关性相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.相关关系是一种不确定性关系;相关关系是相对于函数关系而言的.像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.相关关系与函数关系的异同点2.散点图:成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们我们把这样的统计图叫做散点图。3.相关关系分类:正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就称这两个变量正相关;负相关:当一个变量的值增加时,另一个变量的相应值也呈现减小的趋势,就称这两个变量负相关.4.线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,就称这两个变量线性相关.5.样本相关系数:(1) (2)样本相关系数的数字特征:当时,称成对样本数据正相关;当时,称成对样本数据负相关;当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱. 线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关. 利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若|r|>0.75,则线性相关较为显著,否则不显著.§8.2 一元线性回归模型及其应用1.一元线性回归模型: 称为因变量或响应变量,称为自变量或解释变量,为截距参数,为斜率参数,是与之间的随机误差.2.经验回归方程:(1)相关概念:经验回归直线:经验回归方程也称经验回归函数或经验回归公式,图形称为经验回归直线.最小二乘估计:求经验回归方程的方法叫做最小二乘法,求得的叫做的最小二乘估计.残差:对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.(2)(3)决定系数: 越大,表示残差平方和越小,即模型的拟合效果越好;越小,表示残差平方和越大,即模型的拟合效果越差;3.方法技巧 经验回归方程的求法及应用 在散点图中,样本点大致分布在一条直线附近,利用公式求出, 可写出经验回归方程,利用经验回归模型进行研究,可近似地利用经验回归方程来预测 。4.方法技巧 一元线性回归模型拟合问题的求解策略在一元线性回归模型中,R2与相关系数r都能刻画模型拟合数据的效果.|r|越大,R2就越大,用模型拟合数据的效果就越好.§8.3 列联表与独立性检验1.分类变量:现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.2.列联表:3.独立性检验:(1)零假设(原假设):,即分类变量和独立.(2)独立性检验:①②临界值:对于小概率值,可以找到相应的正实数,使下面关系成立:,我们称为的临界值.常用小概率值和相应的临界值表:③基于小概率值的检验规则:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过.当时,我们没有充分证据推断不成立,可以认为和独立.这种利用的取值推断分类变量和是否独立的方法称为独立性检验,简称独立性检验. 4.方法技巧 独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式计算χ2;(3)比较χ2与临界值xα的大小关系,得到推断结论. 关系项目函数关系相关关系相同点都是两个变量间的关系不同点是一种确定关系是一种非确定关系是一种因果关系不一定是因果关系,也可能是伴随关系 合计 合计 0.10.050.010.0050.0012.7063.8416.6357.87910.828成对数据的相关关系考点分析考法一 相关关系1.对变量x,y有观测数据(xi,yi)(i=1,2,3,…,10),得散点图1;对变量u,v有观测数据(ui,vi)(i=1,2,3,…,10),得散点图2,由这两个散点图可以断定( )A.x与y正相关,u与v正相关B.x与y正相关,u与v负相关C.x与y负相关,u与v正相关D.x与y负相关,u与v负相关【答案】 C【解析】 由图1可知,点散布在从左上角到右下角的区域,各点整体呈递减趋势,故x与y负相关;由图2可知,点散布在从左下角到右上角的区域,各点整体呈递增趋势,故u与v正相关.故选:C.考法一 相关关系2.下列两变量具有相关关系的是( )A.正方体的体积与边长 B.人的身高与体重C.匀速行驶车辆的行驶距离与时间 D.球的半径与体积【答案】B【解析】对选项A,设正方体的体积,边长,则,它们之间的关系是函数关系,故A不正确;对选项B,人的身高会影响体重,但不是唯一因素,故B正确.对选项C,匀速行驶车辆的行驶距离与时间的关系为,其中为匀速速度,它们之间的关系是函数关系,故C不正确;对选项D,设球的半径为,则球的体积为,它们之间的关系是函数关系,故D不正确;故选:B.考点二 样本的相关系数3.两个具有线性相关关系的变量的一组数据,,…,下列说法错误的是( )A.相关系数越接近1,变量相关性越强B.落在回归直线方程上的样本点越多,回归直线方程拟合效果越好C.相关指数越小,残差平方和越大,即模型的拟合效果越差D.若表示女大学生的身高,表示体重则表示女大学生的身高解释了的体重变化【答案】B【解析】对于A. 根据相关系数越接近1,变量相关性越强,故正确;对于B. 回归直线方程拟合效果的强弱是由相关指数或相关系数判定,故不正确;对于C. 相关指数越小,残差平方和越大,效果越差,故正确;对于D. 根据的实际意义可得,表示女大学生的身高解释了的体重变化,故正确;故选:B考点二 样本的相关系数4.在线性回归模型中,分别选择了甲,乙,丙,丁四个不同的模型,它们的相关指数分别为0.46,0.85,0.72,0.93,其中回归效果最好的模型是( )A.甲 B.乙 C.丙 D.丁【答案】D【解析】因为两个变量y与x的回归模型中,它们的相关指数越接近于1,这个模型的拟合效果越好,而丁的相关指数0.93最大,所以回归效果最好的模型是丁,故选:D一元线性回归模型及其应用考点一 样本中心解小题5.某产品在某零售摊位上的零售价(元)与每天的销售量(个)统计如下表:据上表可得回归直线方程为,则上表中的的值为( )A.38 B.39 C.40 D.41【答案】D【解析】由题意,,所以,解得.故选:D.考点一 样本中心解小题6.蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率(每分钟鸣叫的次数)与气温(单位:)存在着较强的线性相关关系.某地观测人员根据下表的观测数据,建立了关于的线性回归方程.则当蟋蟀每分钟鸣叫次时,该地当时的气温预报值为( )A. B. C. D.【答案】D【解析】由表格中的数据可得,,由于回归直线过样本中心点,可得,解得.所以,回归直线方程为.在回归直线方程中,令,可得.故选:D.考点二 一元线性方程7.配速是马拉松运动中常使用的一个概念,是速度的一种,是指每公里所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图1是一个马拉松跑者的心率(单位:次/分钟)和配速(单位:分钟/公里)的散点图,图2是一次马拉松比赛(全程约42公里)前3000名跑者成绩(单位:分钟)的频率分布直方图.(1)由散点图看出,可用线性回归模型拟合与的关系,求与的线性回归方程;(2)该跑者如果参加本次比赛,将心率控制在160左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.参考公式:线性回归方程中,,参考数据:.【答案】(1);(2)210分钟,192名.【解析】(1)由散点图中数据和参考数据得,,,,所以与的线性回归方程为.(2)将代入回归方程得,所以该跑者跑完马拉松全程所花的时间为分钟.从马拉松比赛的频率分布直方图可知成绩好于210分钟的累积频率为,有的跑者成绩超过该跑者,则该跑者在本次比赛获得的名次大约是名.考点二 一元线性方程8.随着电商事业的快速发展,网络购物交易额也快速提升,特别是每年的“双十一”,天猫的交易额数目惊人.2020年天猫公司的工作人员为了迎接天猫“双十一”年度购物狂欢节,加班加点做了大量准备活动,截止2020年11月11日24时,2020年的天猫“双十一”交易额定格在3700多亿元,天猫总公司所有员工对于新的战绩皆大欢喜,同时又对2021年充满了憧憬,因此公司工作人员反思从2014年至2020年每年“双十一”总交易额(取近似值),进行分析统计如下表:(1)通过分析,发现可用线性回归模型拟合总交易额y与年份代码t的关系,请用相关系数加以说明;(2)利用最小二乘法建立y关于t的回归方程(系数精确到0.1),预测2021年天猫“双十一”的总交易额.参考数据:,,;参考公式:相关系数;回归方程中,斜率和截距的最小二乘估计公式分别为:,.【答案】(1)答案见解析;(2)回归方程为,预测2021年天猫“双十一”的总交易额约为38百亿.【解析】(1),,,所以因为总交易额y与年份代码t的相关系数近似为0.98,说明总交易额y与年份代码t的线性相关性很强,从而可用线性回归模型拟合总交易额y与年份代码t的关系.(2)因为,,所以,,所以y关于t的回归方程为又将2021年对应的代入回归方程得:.所以预测2021年天猫“双十一”的总交易额约为38百亿.考点三 非一元线性方程9.在一次抽样调查中测得个样本点,得到下表及散点图.(1)根据散点图判断与哪一个适宜作为关于的回归方程;(给出判断即可,不必说明理由)(2)根据(1)的判断结果试建立与的回归方程;(计算结果保留整数)(3)在(2)的条件下,设且,试求的最小值.参考公式:回归方程中,,.【答案】(1);(2);(3).【解析】(1)由题中散点图可以判断,适宜作为关于的回归方程;(2)令,则,原数据变为由表可知与近似具有线性相关关系,计算得,,,所以,,则.所以关于的回归方程是.(3)由(2)得,,任取、,且,即,可得,因为,则,,所以,,所以,函数在区间上单调递增,则.考点三 非一元线性方程10.某种新产品投放市场一段时间后,经过调研获得了时间x(天数)与销售单价y(元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).表中.(1)根据散点图判断,与哪一个更适合作价格y关于时间x的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y关于x的回归方程.(3)若该产品的日销售量(件)与时间x的函数关系为,求该产品投放市场第几天的销售额最高?最高为多少元?附:对于一组数据,其回归直线的斜率和截距的最小二乘法估计分别为.【答案】(1)更适合作价格y关于时间x的回归方程;(2);(3)第10天,最高销售额为2420元;【解析】(1)根据散点图知更适合作价格y关于时间x的回归方程类型;(2)令,则,而,,即有;(3)由题意结合(2)知:日销售额为,∴,若,令,∴时,,即天,元,所以该产品投放市场第10天的销售额最高,最高销售额为2420元.分类变量与列联表考法一 列联表11.疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动物试验时,得到如下统计数据:附表及公式:,.现从试验动物中任取一只,取得“注射疫苗”的概率为,则下列判断错误的是( )A.注射疫苗发病的动物数为10B.从该试验未注射疫苗的动物中任取一只,发病的概率为C.能在犯错概率不超过0.001的前提下,认为疫苗有效D.该疫苗的有效率为75%【答案】(1)D(2)D【解析】(1)由题意得,,,,,,所以,,,,,则.故选:D.(2)由题知:注射疫苗动物共40只,未注射为60只,补充列联表,由此可得A、B正确.计算得:,故能在犯错概率不超过0.001的前提下认为疫苗有效.C正确,D错误.故选:D.考法一 列联表12.现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列哪个统计结论是不正确的( )A.样本中的女生数量多于男生数量B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量C.样本中的男生偏爱两理一文D.样本中的女生偏爱两文一理【答案】D【解析】由条形图知女生数量多于男生数量,故A正确;有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故B正确;男生偏爱两理一文,故C正确;女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故D错误.故选:D.考点二 独立性检验13.为了解使用手机是否对学生的学习有影响,某校随机抽取名学生,对学习成绩和使用手机情况进行了调查,统计数据如表所示(不完整):(1)补充完整所给表格,并根据表格数据计算是否有的把握认为学生的学习成绩与使用手机有关;(2)现从上表不使用手机的学生中按学习成绩是否优秀分层抽样选出人,再从这人中随机抽取人,记这人中“学习成绩优秀”的人数为,试求的分布列与数学期望.参考公式:,其中.参考数据:【答案】(1)没有的把握认为学生的学习成绩与使用手机有关;(2)分布列见解析,.【解析】(1)列联表如下表所示:假设学生的学习成绩与使用手机无关,,所以,没有的把握认为学生的学习成绩与使用手机有关;(2)人中学习成绩优秀的人有人,学习成绩一般的有人,可能的取值有、、、,,,,.所以,随机变量的分布列为.考点二 独立性检验14.随着新冠疫情防控进入常态化,人们的生产生活逐步步入正轨.为拉动消费,某市发行亿元消费券.为了解该消费券使用人群的年龄结构情况,该市随机抽取了人,对是否使用过消费券的情况进行调查,结果如下表所示,其中年龄低于岁的人数占总人数的.(1)求、值;(2)若以“年龄岁为分界点”,由以上统计数据完成下面列联表,并判断是否有的把握认为是否使用消费券与人的年龄有关.参考数据:,其中.【答案】(1),;(2)列联表答案见解析,有的把握认为是否使用消费券与人的年龄有关.【解析】(1)由题意得,解得,;(2)由以上统计数据填写下面列联表,如下根据公式计算,所以有的把握认为是否使用消费券与人的年龄有关.易混易错练易错点1 选错回归模型致错1.在一次抽样调查中测得5组成对数据,其数值及散点图如下:(1)根据散点图判断y=a+bx与y=c+k·x-1哪一个更适宜作为y关于x的经验回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,试建立y与x的经验回归方程;(计算结果保留整数)(3)在(2)的条件下,设z=y+x且x∈[4,+∞),试求z的最小值.参考公式:经验回归方程y^=b^x+a^中,b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nx y∑i=1nxi2-nx 2,a^=y-b^x.1.解析 (1)由题中散点图可以判断,y=c+k·x-1更适宜作为y关于x的经验回归方程类型.(2)令t=x-1,则y=c+kt,构造新的成对数据,如下表:易知y与t存在线性相关关系.计算得t=1.55,y=7.2,k^≈4,c^=y-k^ t=1,所以y关于t的经验回归方程为y^=4t+1,所以y关于x的经验回归方程为y^=4x+1.(3)由(2)得z=y+x=4x+x+1,易得z=4x+x+1在x∈[4,+∞)上是单调递增函数,即最小值为6.易错点2 求χ2用错公式致错2.为了解人们对延迟退休年龄政策的态度,某部门从年龄在15岁到65岁的人群中随机调查了100人,并得到如图所示的频率分布直方图,在这100人中不支持延迟退休年龄政策的人数与年龄的统计结果如下表所示.(1)由频率分布直方图,估计这100人年龄的平均数(同一组数据用该区间的中点值代表);(2)根据以上统计数据填写下面的2×2列联表,并依据α=0.05的独立性检验,分析以45岁为分界点的不同人群对延迟退休年龄政策的态度是否存在差异.单位:人附表及公式:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.2.解析 (1)估计这100人年龄的平均数为20×0.2+30×0.1+40×0.2+50×0.3+60×0.2=42(岁).(2)由题中频率分布直方图可知,45岁以下的有50人,45岁及以上的有50人.可得2×2列联表如下:单位:人零假设为H0:不同人群与态度相互独立,即以45岁为分界点的不同人群对延迟退休年龄政策的态度不存在差异.计算可得χ2=100×(35×10−40×15)275×25×50×50≈1.333<3.841=x0.05,依据α=0.05的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为以45岁为分界点的不同人群对延迟退休年龄政策的态度不存在差异.3.今年1月至2月由新型冠状病毒引起的肺炎病例陡然增多,为了严控疫情扩散,做好重点人群的预防工作,某地区共统计返乡人员100人,其中50岁及以上的共有40人.这100人中确诊的有10人,其中50岁以下的人占310.(1)试估计50岁及以上的返乡人员因感染新型冠状病毒而引起肺炎的概率;(2)请将下面的列联表补充完整,并依据α=0.05的独立性检验,分析确诊患新冠肺炎与年龄是否有关.单位:人附表及公式:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.解析 (1)因为100人中确诊的有10人,50岁以下的人占310,所以50岁以下的确诊人数为3,50岁及以上的确诊人数为7,因为50岁及以上的共有40人,所以50岁及以上的返乡人员因感染新型冠状病毒而引起肺炎的概率约为740.(2)补充列联表如下:单位:人零假设为H0:确诊患新冠肺炎与年龄无关.计算可得χ2=100×(7×57-33×3)240×60×10×90=256≈4.167>3.841=x0.05.依据α=0.05的独立性检验,推断H0不成立,即认为确诊患新冠肺炎与年龄有关.4.某地区在“精准扶贫”工作中切实贯彻习近平总书记提出的“因地制宜”的指导思想,扶贫工作小组经过多方调研,综合该地区的气候、地质、地理位置等特点,决定向当地农户推行某类景观树苗种植.工作小组根据市场前景重点考察了A,B两种景观树苗,为对比两种树苗的成活率,工作小组进行了引种试验,分别引种树苗A,B各50株,试验发现有80%的树苗成活,未成活的树苗A,B株数之比为1∶3.(1)完成下面的2×2列联表,依据α=0.01的独立性检验,分析树苗A,B的成活率是否有差异;(2)已知树苗A引种成活后再经过1年的生长即可作为景观树A在市场上出售,但每株售价y(单位:百元)受其树干的直径x(单位:cm)影响,扶贫工作小组对一批已出售的景观树A的相关数据进行统计,得到结果如下表:根据上述数据,判断是否可以用线性回归模型拟合y与x的关系,并用样本相关系数r加以说明.(一般认为|r|>0.75为高度线性相关)参考公式及数据:样本相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,∑i=15(xi-x)2=250,∑i=15(yi-y)2=320.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.附表:4.解析 试验发现有80%的树苗成活,故未成活的树苗有20株,未成活的树苗A,B株数之比为1∶3,所以树苗A未成活5株,成活45株,树苗B未成活15株,成活35株.(1)补充列联表如下:零假设为H0:树苗A,B的成活率无差异.计算可得χ2=100×(45×15-35×5)280×20×50×50=6.25<6.635=x0.01,依据α=0.01的独立性检验,没有充分证据推断H0不成立,因此认为H0成立,即认为树苗A,B的成活率无差异.(2)可以用线性回归模型拟合y与x的关系.由题表中数据易得x=20,y=13,所以r=(-10)×(-9)+(-5)×(-5)+0×(-3)+5×3+10×14250×320≈0.95>0.75.故可以用线性回归模型拟合y与x的关系.一、数形结合思想在统计中的应用1.下图是某地区2010年至2019年污染天数y与年份x的折线图,根据2010年至2014年的数据,2015年至2019年的数据,2010年至2019年的数据分别建立一元线性回归模型y^=b1x+a1,y^=b2x+a2,y^=b3x+a3,则( )A.b1a1,b20.75,则线性相关程度很高,可用线性回归模型拟合);(2)求y关于x的经验回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量.附:样本相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2=∑i=1nxiyi-nxy∑i=1nxi2-nx2∑i=1nyi2-ny2,经验回归方程y^=b^x+a^中,b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nxy∑i=1nxi2-nx2,a^=y-b^x.4.解析 (1)可以用线性回归模型拟合y与x的关系.易得x=2+4+5+6+85=5,y=3+4+5+6+75=5,∑i=15(xi-x)(yi-y)=(-3)×(-2)+(-1)×(-1)+0×0+1×1+3×2=14,∑i=15(xi-x)2=(-3)2+(-1)2+02+12+32=20,∑i=15(yi-y)2=(-2)2+(-1)2+02+12+22=10.∴r=∑i=15(xi-x)(yi-y)∑i=15(xi-x)2∑i=15(yi-y)2=1420×10=7210>0.75.∴可以用线性回归模型拟合y与x的关系.(2)设经验回归方程为y^=b^x+a^,b^=∑i=15(xi-x)(yi-y)∑i=15(xi-x)2=1420=0.7,a^=y-b^x=5-0.7×5=1.5,∴y^=0.7x+1.5.当x=12时,y^=0.7×12+1.5=9.9.∴预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量为9.9百千克.二、转化与化归思想在统计中的应用5.某公司为了确定下一年度投入某种产品的宣传费用,需了解年宣传费x(单位:万元)对年销售量y(单位:吨)和年利润(单位:万元)的影响.对2014年至2019年的宣传费xi和年销售量yi(i=1,2,3,4,5,6)的数据进行了初步统计,并绘制成如下表格:经电脑模拟,发现年宣传费x(万元)与年销售量y(吨)之间近似满足关系式y=a·xb(a,b>0),即ln y=bln x+ln a.对上述数据进行了初步处理,得到的相关值如下表:(1)从表中所给出的6年的年销售量数据中任选2个数据进行年销售量的调研,求所选数据中至多有一年的年销售量低于20吨的概率;(2)根据所给数据,求y关于x的经验回归方程;(3)若生产该产品的固定成本为200万元,且每生产1吨产品的生产成本为20万元(总成本=固定成本+生产成本+年宣传费),销售收入为R(x)=[-x+(40+20e)x+500]万元,假定该产品产销平衡(即生产的产品都能卖掉),则2020年该公司应该投入多少宣传费才能使利润最大?(其中e=2.718 28…)附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线v^=β^u+α^中的斜率和截距的最小二乘估计分别为β^=∑i=1nuivi-nu v∑i=1nui2-nu 2,α^=v-β^u−.5.解析 (1)记事件A表示“至多有一年的年销售量低于20吨”,由题表中数据可知6年的数据中2014年和2015年的年销售量低于20吨,记这两年分别为c,d,其余四年分别为e,f,g,h,则从6年中任选2年,共有(c,d),(c,e),(c,f),(c,g),(c,h),(d,e),(d,f),(d,g),(d,h),(e,f),(e,g),(e,h),(f,g),(f,h),(g,h)15种取法,事件A包括(c,e),(c,f),(c,g),(c,h),(d,e),(d,f),(d,g),(d,h),(e,f),(e,g),(e,h),(f,g),(f,h),(g,h),共14种取法,故P(A)=1415.(2)根据题意,令u=ln x,v=ln y,得v=ln a+b·u,由题中数据得,u=24.66=4.1,v=18.36=3.05,又∑i=16uivi=∑i=16(ln xi·ln yi)=75.3,∑i=16ui2=∑i=16(ln xi)2=101.4,所以b^=∑i=16uivi-nu v∑i=16ui2-nu 2=75.3−6×4.1×3.05101.4−6×4.12=0.5,由ln a^=v-b^u=3.05-0.5×4.1=1,得a^=e,故所求经验回归方程为y^=ex.(3)设该公司的年利润为f(x)万元,因为利润=销售收入-总成本,所以由题意可知f(x)=-x+(40+20e)x+500-(200+20ex+x)=-2x+40x+300=-2(x-10)2+500,所以当x=10,即x=100时,年利润f(x)取得最大值,为500万元,故2020年该公司应该投入100万元的宣传费才能使利润最大.16171819503431(次数/分钟)年份2014201520162017201820192020年份代码()1234567总交易额(单位:百亿)5.79.112.116.821.326.837未发病发病总计未注射疫苗20注射疫苗30总计50501000.050.010.0050.0013.8416.6357.87910.828未发病发病总计未注射疫苗204060注射疫苗301040总计5050100使用手机不使用手机总计学习成绩优秀学习成绩一般总计使用手机不使用手机总计学习成绩优秀学习成绩一般总计年龄(单位:岁)调查人数使用消费券人数年龄低于岁的人数年龄不低于岁的人数合计使用消费券人数未使用消费券人数合计年龄低于岁的人数年龄不低于岁的人数合计使用消费券人数未使用消费券人数合计x0.250.5124y1612521t4210.50.25y1612521年龄不支持延迟退休年龄政策的人数[15,25)15[25,35)5[35,45)15[45,55)23[55,65]1745岁以下45岁及以上合计不支持支持合计α0.10.050.010.0050.001xα2.7063.8416.6357.87910.82845岁以下45岁及以上合计不支持354075支持151025合计5050100确诊患新冠肺炎未确诊患新冠肺炎合计50岁及以上4050岁以下合计10100α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828确诊患新冠肺炎未确诊患新冠肺炎合计50岁及以上7334050岁以下35760合计1090100树苗A树苗B合计成活株数未成活株数合计5050100直径x1015202530单株售价y48101627α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828树苗A树苗B合计成活株数453580未成活株数51520合计5050100x681012y2356尿汞含量x246810消光系数y64138205285360年份201420152016201720182019年宣传费x(万元)384858687888年销售量y(吨)16.818.820.722.424.025.5∑i=16(ln xi·ln yi)∑i=16ln xi∑i=16ln yi∑i=16(ln xi)275.324.618.3101.4
选择性必修三 第八章 成对数据的统计分析知识点清单一、本章思维导图§8.1 成对数据的统计相关性相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.相关关系是一种不确定性关系;相关关系是相对于函数关系而言的.像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.相关关系与函数关系的异同点2.散点图:成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们我们把这样的统计图叫做散点图。3.相关关系分类:正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就称这两个变量正相关;负相关:当一个变量的值增加时,另一个变量的相应值也呈现减小的趋势,就称这两个变量负相关.4.线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,就称这两个变量线性相关.5.样本相关系数:(1) (2)样本相关系数的数字特征:当时,称成对样本数据正相关;当时,称成对样本数据负相关;当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱. 线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关. 利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若|r|>0.75,则线性相关较为显著,否则不显著.§8.2 一元线性回归模型及其应用1.一元线性回归模型: 称为因变量或响应变量,称为自变量或解释变量,为截距参数,为斜率参数,是与之间的随机误差.2.经验回归方程:(1)相关概念:经验回归直线:经验回归方程也称经验回归函数或经验回归公式,图形称为经验回归直线.最小二乘估计:求经验回归方程的方法叫做最小二乘法,求得的叫做的最小二乘估计.残差:对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.(2)(3)决定系数: 越大,表示残差平方和越小,即模型的拟合效果越好;越小,表示残差平方和越大,即模型的拟合效果越差;3.方法技巧 经验回归方程的求法及应用 在散点图中,样本点大致分布在一条直线附近,利用公式求出, 可写出经验回归方程,利用经验回归模型进行研究,可近似地利用经验回归方程来预测 。4.方法技巧 一元线性回归模型拟合问题的求解策略在一元线性回归模型中,R2与相关系数r都能刻画模型拟合数据的效果.|r|越大,R2就越大,用模型拟合数据的效果就越好.§8.3 列联表与独立性检验1.分类变量:现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.2.列联表:3.独立性检验:(1)零假设(原假设):,即分类变量和独立.(2)独立性检验:①②临界值:对于小概率值,可以找到相应的正实数,使下面关系成立:,我们称为的临界值.常用小概率值和相应的临界值表:③基于小概率值的检验规则:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过.当时,我们没有充分证据推断不成立,可以认为和独立.这种利用的取值推断分类变量和是否独立的方法称为独立性检验,简称独立性检验. 4.方法技巧 独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式计算χ2;(3)比较χ2与临界值xα的大小关系,得到推断结论. 关系项目函数关系相关关系相同点都是两个变量间的关系不同点是一种确定关系是一种非确定关系是一种因果关系不一定是因果关系,也可能是伴随关系 合计 合计 0.10.050.010.0050.0012.7063.8416.6357.87910.828成对数据的相关关系考点分析考法一 相关关系1.对变量x,y有观测数据(xi,yi)(i=1,2,3,…,10),得散点图1;对变量u,v有观测数据(ui,vi)(i=1,2,3,…,10),得散点图2,由这两个散点图可以断定( )A.x与y正相关,u与v正相关B.x与y正相关,u与v负相关C.x与y负相关,u与v正相关D.x与y负相关,u与v负相关【答案】 C【解析】 由图1可知,点散布在从左上角到右下角的区域,各点整体呈递减趋势,故x与y负相关;由图2可知,点散布在从左下角到右上角的区域,各点整体呈递增趋势,故u与v正相关.故选:C.考法一 相关关系2.下列两变量具有相关关系的是( )A.正方体的体积与边长 B.人的身高与体重C.匀速行驶车辆的行驶距离与时间 D.球的半径与体积【答案】B【解析】对选项A,设正方体的体积,边长,则,它们之间的关系是函数关系,故A不正确;对选项B,人的身高会影响体重,但不是唯一因素,故B正确.对选项C,匀速行驶车辆的行驶距离与时间的关系为,其中为匀速速度,它们之间的关系是函数关系,故C不正确;对选项D,设球的半径为,则球的体积为,它们之间的关系是函数关系,故D不正确;故选:B.考点二 样本的相关系数3.两个具有线性相关关系的变量的一组数据,,…,下列说法错误的是( )A.相关系数越接近1,变量相关性越强B.落在回归直线方程上的样本点越多,回归直线方程拟合效果越好C.相关指数越小,残差平方和越大,即模型的拟合效果越差D.若表示女大学生的身高,表示体重则表示女大学生的身高解释了的体重变化【答案】B【解析】对于A. 根据相关系数越接近1,变量相关性越强,故正确;对于B. 回归直线方程拟合效果的强弱是由相关指数或相关系数判定,故不正确;对于C. 相关指数越小,残差平方和越大,效果越差,故正确;对于D. 根据的实际意义可得,表示女大学生的身高解释了的体重变化,故正确;故选:B考点二 样本的相关系数4.在线性回归模型中,分别选择了甲,乙,丙,丁四个不同的模型,它们的相关指数分别为0.46,0.85,0.72,0.93,其中回归效果最好的模型是( )A.甲 B.乙 C.丙 D.丁【答案】D【解析】因为两个变量y与x的回归模型中,它们的相关指数越接近于1,这个模型的拟合效果越好,而丁的相关指数0.93最大,所以回归效果最好的模型是丁,故选:D一元线性回归模型及其应用考点一 样本中心解小题5.某产品在某零售摊位上的零售价(元)与每天的销售量(个)统计如下表:据上表可得回归直线方程为,则上表中的的值为( )A.38 B.39 C.40 D.41【答案】D【解析】由题意,,所以,解得.故选:D.考点一 样本中心解小题6.蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率(每分钟鸣叫的次数)与气温(单位:)存在着较强的线性相关关系.某地观测人员根据下表的观测数据,建立了关于的线性回归方程.则当蟋蟀每分钟鸣叫次时,该地当时的气温预报值为( )A. B. C. D.【答案】D【解析】由表格中的数据可得,,由于回归直线过样本中心点,可得,解得.所以,回归直线方程为.在回归直线方程中,令,可得.故选:D.考点二 一元线性方程7.配速是马拉松运动中常使用的一个概念,是速度的一种,是指每公里所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图1是一个马拉松跑者的心率(单位:次/分钟)和配速(单位:分钟/公里)的散点图,图2是一次马拉松比赛(全程约42公里)前3000名跑者成绩(单位:分钟)的频率分布直方图.(1)由散点图看出,可用线性回归模型拟合与的关系,求与的线性回归方程;(2)该跑者如果参加本次比赛,将心率控制在160左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.参考公式:线性回归方程中,,参考数据:.【答案】(1);(2)210分钟,192名.【解析】(1)由散点图中数据和参考数据得,,,,所以与的线性回归方程为.(2)将代入回归方程得,所以该跑者跑完马拉松全程所花的时间为分钟.从马拉松比赛的频率分布直方图可知成绩好于210分钟的累积频率为,有的跑者成绩超过该跑者,则该跑者在本次比赛获得的名次大约是名.考点二 一元线性方程8.随着电商事业的快速发展,网络购物交易额也快速提升,特别是每年的“双十一”,天猫的交易额数目惊人.2020年天猫公司的工作人员为了迎接天猫“双十一”年度购物狂欢节,加班加点做了大量准备活动,截止2020年11月11日24时,2020年的天猫“双十一”交易额定格在3700多亿元,天猫总公司所有员工对于新的战绩皆大欢喜,同时又对2021年充满了憧憬,因此公司工作人员反思从2014年至2020年每年“双十一”总交易额(取近似值),进行分析统计如下表:(1)通过分析,发现可用线性回归模型拟合总交易额y与年份代码t的关系,请用相关系数加以说明;(2)利用最小二乘法建立y关于t的回归方程(系数精确到0.1),预测2021年天猫“双十一”的总交易额.参考数据:,,;参考公式:相关系数;回归方程中,斜率和截距的最小二乘估计公式分别为:,.【答案】(1)答案见解析;(2)回归方程为,预测2021年天猫“双十一”的总交易额约为38百亿.【解析】(1),,,所以因为总交易额y与年份代码t的相关系数近似为0.98,说明总交易额y与年份代码t的线性相关性很强,从而可用线性回归模型拟合总交易额y与年份代码t的关系.(2)因为,,所以,,所以y关于t的回归方程为又将2021年对应的代入回归方程得:.所以预测2021年天猫“双十一”的总交易额约为38百亿.考点三 非一元线性方程9.在一次抽样调查中测得个样本点,得到下表及散点图.(1)根据散点图判断与哪一个适宜作为关于的回归方程;(给出判断即可,不必说明理由)(2)根据(1)的判断结果试建立与的回归方程;(计算结果保留整数)(3)在(2)的条件下,设且,试求的最小值.参考公式:回归方程中,,.【答案】(1);(2);(3).【解析】(1)由题中散点图可以判断,适宜作为关于的回归方程;(2)令,则,原数据变为由表可知与近似具有线性相关关系,计算得,,,所以,,则.所以关于的回归方程是.(3)由(2)得,,任取、,且,即,可得,因为,则,,所以,,所以,函数在区间上单调递增,则.考点三 非一元线性方程10.某种新产品投放市场一段时间后,经过调研获得了时间x(天数)与销售单价y(元)的一组数据,且做了一定的数据处理(如表),并作出了散点图(如图).表中.(1)根据散点图判断,与哪一个更适合作价格y关于时间x的回归方程类型?(不必说明理由)(2)根据判断结果和表中数据,建立y关于x的回归方程.(3)若该产品的日销售量(件)与时间x的函数关系为,求该产品投放市场第几天的销售额最高?最高为多少元?附:对于一组数据,其回归直线的斜率和截距的最小二乘法估计分别为.【答案】(1)更适合作价格y关于时间x的回归方程;(2);(3)第10天,最高销售额为2420元;【解析】(1)根据散点图知更适合作价格y关于时间x的回归方程类型;(2)令,则,而,,即有;(3)由题意结合(2)知:日销售额为,∴,若,令,∴时,,即天,元,所以该产品投放市场第10天的销售额最高,最高销售额为2420元.分类变量与列联表考法一 列联表11.疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动物试验时,得到如下统计数据:附表及公式:,.现从试验动物中任取一只,取得“注射疫苗”的概率为,则下列判断错误的是( )A.注射疫苗发病的动物数为10B.从该试验未注射疫苗的动物中任取一只,发病的概率为C.能在犯错概率不超过0.001的前提下,认为疫苗有效D.该疫苗的有效率为75%【答案】(1)D(2)D【解析】(1)由题意得,,,,,,所以,,,,,则.故选:D.(2)由题知:注射疫苗动物共40只,未注射为60只,补充列联表,由此可得A、B正确.计算得:,故能在犯错概率不超过0.001的前提下认为疫苗有效.C正确,D错误.故选:D.考法一 列联表12.现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列哪个统计结论是不正确的( )A.样本中的女生数量多于男生数量B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量C.样本中的男生偏爱两理一文D.样本中的女生偏爱两文一理【答案】D【解析】由条形图知女生数量多于男生数量,故A正确;有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故B正确;男生偏爱两理一文,故C正确;女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故D错误.故选:D.考点二 独立性检验13.为了解使用手机是否对学生的学习有影响,某校随机抽取名学生,对学习成绩和使用手机情况进行了调查,统计数据如表所示(不完整):(1)补充完整所给表格,并根据表格数据计算是否有的把握认为学生的学习成绩与使用手机有关;(2)现从上表不使用手机的学生中按学习成绩是否优秀分层抽样选出人,再从这人中随机抽取人,记这人中“学习成绩优秀”的人数为,试求的分布列与数学期望.参考公式:,其中.参考数据:【答案】(1)没有的把握认为学生的学习成绩与使用手机有关;(2)分布列见解析,.【解析】(1)列联表如下表所示:假设学生的学习成绩与使用手机无关,,所以,没有的把握认为学生的学习成绩与使用手机有关;(2)人中学习成绩优秀的人有人,学习成绩一般的有人,可能的取值有、、、,,,,.所以,随机变量的分布列为.考点二 独立性检验14.随着新冠疫情防控进入常态化,人们的生产生活逐步步入正轨.为拉动消费,某市发行亿元消费券.为了解该消费券使用人群的年龄结构情况,该市随机抽取了人,对是否使用过消费券的情况进行调查,结果如下表所示,其中年龄低于岁的人数占总人数的.(1)求、值;(2)若以“年龄岁为分界点”,由以上统计数据完成下面列联表,并判断是否有的把握认为是否使用消费券与人的年龄有关.参考数据:,其中.【答案】(1),;(2)列联表答案见解析,有的把握认为是否使用消费券与人的年龄有关.【解析】(1)由题意得,解得,;(2)由以上统计数据填写下面列联表,如下根据公式计算,所以有的把握认为是否使用消费券与人的年龄有关.易混易错练易错点1 选错回归模型致错1.在一次抽样调查中测得5组成对数据,其数值及散点图如下:(1)根据散点图判断y=a+bx与y=c+k·x-1哪一个更适宜作为y关于x的经验回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,试建立y与x的经验回归方程;(计算结果保留整数)(3)在(2)的条件下,设z=y+x且x∈[4,+∞),试求z的最小值.参考公式:经验回归方程y^=b^x+a^中,b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nx y∑i=1nxi2-nx 2,a^=y-b^x.1.解析 (1)由题中散点图可以判断,y=c+k·x-1更适宜作为y关于x的经验回归方程类型.(2)令t=x-1,则y=c+kt,构造新的成对数据,如下表:易知y与t存在线性相关关系.计算得t=1.55,y=7.2,k^≈4,c^=y-k^ t=1,所以y关于t的经验回归方程为y^=4t+1,所以y关于x的经验回归方程为y^=4x+1.(3)由(2)得z=y+x=4x+x+1,易得z=4x+x+1在x∈[4,+∞)上是单调递增函数,即最小值为6.易错点2 求χ2用错公式致错2.为了解人们对延迟退休年龄政策的态度,某部门从年龄在15岁到65岁的人群中随机调查了100人,并得到如图所示的频率分布直方图,在这100人中不支持延迟退休年龄政策的人数与年龄的统计结果如下表所示.(1)由频率分布直方图,估计这100人年龄的平均数(同一组数据用该区间的中点值代表);(2)根据以上统计数据填写下面的2×2列联表,并依据α=0.05的独立性检验,分析以45岁为分界点的不同人群对延迟退休年龄政策的态度是否存在差异.单位:人附表及公式:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.2.解析 (1)估计这100人年龄的平均数为20×0.2+30×0.1+40×0.2+50×0.3+60×0.2=42(岁).(2)由题中频率分布直方图可知,45岁以下的有50人,45岁及以上的有50人.可得2×2列联表如下:单位:人零假设为H0:不同人群与态度相互独立,即以45岁为分界点的不同人群对延迟退休年龄政策的态度不存在差异.计算可得χ2=100×(35×10−40×15)275×25×50×50≈1.333<3.841=x0.05,依据α=0.05的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为以45岁为分界点的不同人群对延迟退休年龄政策的态度不存在差异.3.今年1月至2月由新型冠状病毒引起的肺炎病例陡然增多,为了严控疫情扩散,做好重点人群的预防工作,某地区共统计返乡人员100人,其中50岁及以上的共有40人.这100人中确诊的有10人,其中50岁以下的人占310.(1)试估计50岁及以上的返乡人员因感染新型冠状病毒而引起肺炎的概率;(2)请将下面的列联表补充完整,并依据α=0.05的独立性检验,分析确诊患新冠肺炎与年龄是否有关.单位:人附表及公式:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.解析 (1)因为100人中确诊的有10人,50岁以下的人占310,所以50岁以下的确诊人数为3,50岁及以上的确诊人数为7,因为50岁及以上的共有40人,所以50岁及以上的返乡人员因感染新型冠状病毒而引起肺炎的概率约为740.(2)补充列联表如下:单位:人零假设为H0:确诊患新冠肺炎与年龄无关.计算可得χ2=100×(7×57-33×3)240×60×10×90=256≈4.167>3.841=x0.05.依据α=0.05的独立性检验,推断H0不成立,即认为确诊患新冠肺炎与年龄有关.4.某地区在“精准扶贫”工作中切实贯彻习近平总书记提出的“因地制宜”的指导思想,扶贫工作小组经过多方调研,综合该地区的气候、地质、地理位置等特点,决定向当地农户推行某类景观树苗种植.工作小组根据市场前景重点考察了A,B两种景观树苗,为对比两种树苗的成活率,工作小组进行了引种试验,分别引种树苗A,B各50株,试验发现有80%的树苗成活,未成活的树苗A,B株数之比为1∶3.(1)完成下面的2×2列联表,依据α=0.01的独立性检验,分析树苗A,B的成活率是否有差异;(2)已知树苗A引种成活后再经过1年的生长即可作为景观树A在市场上出售,但每株售价y(单位:百元)受其树干的直径x(单位:cm)影响,扶贫工作小组对一批已出售的景观树A的相关数据进行统计,得到结果如下表:根据上述数据,判断是否可以用线性回归模型拟合y与x的关系,并用样本相关系数r加以说明.(一般认为|r|>0.75为高度线性相关)参考公式及数据:样本相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,∑i=15(xi-x)2=250,∑i=15(yi-y)2=320.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.附表:4.解析 试验发现有80%的树苗成活,故未成活的树苗有20株,未成活的树苗A,B株数之比为1∶3,所以树苗A未成活5株,成活45株,树苗B未成活15株,成活35株.(1)补充列联表如下:零假设为H0:树苗A,B的成活率无差异.计算可得χ2=100×(45×15-35×5)280×20×50×50=6.25<6.635=x0.01,依据α=0.01的独立性检验,没有充分证据推断H0不成立,因此认为H0成立,即认为树苗A,B的成活率无差异.(2)可以用线性回归模型拟合y与x的关系.由题表中数据易得x=20,y=13,所以r=(-10)×(-9)+(-5)×(-5)+0×(-3)+5×3+10×14250×320≈0.95>0.75.故可以用线性回归模型拟合y与x的关系.一、数形结合思想在统计中的应用1.下图是某地区2010年至2019年污染天数y与年份x的折线图,根据2010年至2014年的数据,2015年至2019年的数据,2010年至2019年的数据分别建立一元线性回归模型y^=b1x+a1,y^=b2x+a2,y^=b3x+a3,则( )A.b1
相关资料
更多

