


所属成套资源:高考数学精编总复习必刷题一、二轮复习
全国版高考数学必刷题:第十八单元 统计初步
展开
这是一份全国版高考数学必刷题:第十八单元 统计初步,共42页。试卷主要包含了32,∑i=17tiyi=40,1 随机抽样与样本分布等内容,欢迎下载使用。
第十八单元 统计初步
考点一
数据分析
1.(2017年全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( ).
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
【解析】对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;
对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;
对于选项C,D,由图可知显然正确.
故选A.
【答案】A
2.(2017年山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为y^=b^x+a^.已知∑i=110xi=225,∑i=110yi=1600,b^=4.该班某学生的脚长为24,据此估计其身高为( ).
A.160 B.163 C.166 D.170
【解析】∵∑i=110xi=225,∴x-=110∑i=110xi=22.5.
∵∑i=110yi=1600,∴y-=110∑i=110yi=160.
又b^=4,∴a^=y--b^x-=160-4×22.5=70.
∴回归直线方程为y^=4x+70.
将x=24代入上式得y^=4×24+70=166.
故选C.
【答案】C
3.(2016年全国Ⅲ卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( ).
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
【解析】对于选项A,由图易知各月的平均最低气温都在0 ℃以上,故正确;对于选项B,七月的平均最高气温点与平均最低气温点间的距离大于一月的平均最高气温点与平均最低气温点间的距离,所以七月的平均温差比一月的平均温差大,故正确;对于选项C,三月和十一月的平均最高气温均为10 ℃,故正确;对于选项D,平均最高气温高于20 ℃的月份有七月、八月,共2个月份,故错误.
【答案】D
4.(2016年山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( ).
A.56 B.60 C.120 D.140
【解析】由直方图可知每周自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,则每周自习时间不少于22.5小时的人数为0.7×200=140.故选D.
【答案】D
5.(2015年山东卷)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为( ).
A.①③ B.①④ C.②③ D.②④
【解析】甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论①④正确,故选B.
【答案】B
考点二
统计案例
6.(2017年全国Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
旧养殖法
新养殖法
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量s甲2,故甲更稳定.
【答案】甲
方法一
用比例法求解分层抽样中各层抽取的个体数
进行分层抽样的相关计算时,常利用以下关系式巧解:
(1)样本容量n总体的个数N=该层抽取的个体数该层的个体数;
(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.
【突破训练1】(2017唐山调研)甲、乙两套设备生产的同类型产品共4800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总件数为 .
【解析】由题意知,抽样比为804800=160.
设甲设备生产的产品有x件,则x60=50,∴x=3000.
故乙设备生产的产品总件数为4800-3000=1800.
【答案】1800
方法二
用等距法抽取系统抽样中的样本
系统抽样中依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.
【突破训练2】采用系统抽样的方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]内的人做问卷A,编号落入区间[451,750]内的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数有( ).
A.7 B.9 C.10 D.15
【解析】由系统抽样的特点,知抽取号码的间隔为96032=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]内的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n项,显然有729=459+(n-1)×30,解得n=10.所以做问卷B的有10人.
【答案】C
方法三
用估值法提取频率分布直方图中的数据
频率分布直方图与众数、中位数、平均数的关系:
(1)频率组距×组距=频率;
(2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数;
(3)最高的小矩形底边中点的横坐标为众数的估计值;
(4)中位数左边和右边的小矩形的面积和是相等的;
(5)平均数是频率分布直方图的“重心”,其估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
【突破训练3】(2017南宁模拟)某校为指导学生合理选择文理科的学习,根据数理综合测评成绩,按6分为满分进行折算后,若学生成绩小于m分,则建议选择文科,若不低于m分,则建议选择理科(这部分学生称为候选理科生).现从该校高一年级随机抽取500名学生的数理综合测评成绩作为样本,整理得到分数的频率分布直方图如图所示.
(1)求频率分布直方图中的t值.
(2)根据此次测评,为使80%以上的学生选择理科,整数m至多应定为多少?
(3)若m=4,试估计该校高一年级的学生中候选理科生的平均成绩.(精确到0.01)
【解析】(1)根据频率分布直方图中的频率之和为1,得0.15×1+t×1+0.30×1+t×1+0.15×1=1,解得t=0.2.
(2)要使80%以上的学生选择理科,又0.15+0.2+0.30,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2015年的年份代号t=9代入(1)中的回归方程,得y^=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
(1)根据样本数据作出散点图或计算相关系数r来判断两个变量之间是否具有相关关系.
(2)正确运用计算b^,a^的公式并准确的计算,是求线性回归方程的关键.充分利用回归直线y^=b^x+a^必过样本点的中心(x-,y-)进行求值.
【变式训练2】(2017福州模拟)下表数据为某地区某种农产品的年产量x(单位:吨)及对应销售价格y(单位:千元/吨).
x
1
2
3
4
5
y
70
65
55
38
22
(1)若y与x有较强的线性相关关系,根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^.
(2)若该农产品每吨的成本为13.1千元,假设该农产品可全部卖出,预测当年产量为多少吨时,年利润Z最大?
参考公式:b^=∑i=1nxiyi-nx-y-∑i=1nxi2-nx-2=∑i=1n(xi-x-)(yi-y-)∑i=1n(xi-x-)2,a^=y--b^x-.
【解析】(1)由所给数据计算得x-=3,y-=50,∑i=15xiyi =627,∑i=15xi2=55,代入公式,解得b^=-12.3,a^=86.9,
所以y^=-12.3x+86.9.
(2)因为年利润Z=x(86.9-12.3x)-13.1x=-12.3x2+73.8x=-12.3×(x-3)2+110.7,所以当x=3时,年利润Z取得最大值.
故预测当年产量为3吨时,年利润Z最大.
题型三
非线性回归方程及其应用
【例3】(2015年全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
x-
y-
w-
∑i=18(xi-x-)2
∑i=18(wi-w-)2
∑i=18(xi-x-)(yi-y-)
∑i=18(wi-w-)(yi-y-)
46.6
563
6.8
289.8
1.6
1469
108.8
表中wi=xi,w-=18∑i=18wi.
(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v^=α^+β^u的斜率和截距的最小二乘估计分别为
β^=∑i=1n(ui-u-)(vi-v-)∑i=1n(ui-u-)2,α^=v--β^u-.
【解析】(1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=x,先建立y关于w的线性回归方程.
由于d^=∑i=18(wi-w-)(yi-y-)∑i=18(wi-w-)2=108.81.6=68,
c^=y--d^w-=563-68×6.8=100.6,
所以y关于w的线性回归方程为y^=100.6+68w,
因此y关于x的回归方程为y^=100.6+68x.
(3)①由(2)知,当x=49时,
年销售量y的预报值y^=100.6+6849=576.6,
年利润z的预报值z^=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
z^=0.2×(100.6+68x)-x=-x+13.6x+20.12.
所以当x=13.62=6.8,即x=46.24时,z^取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
1.若问题中已经给出经验公式,则可将解释变量进行换元,将变量的非线性关系转化为线性关系,将问题转化为线性回归问题来解决.
2.若问题中没有给出经验公式,则需要画出已知数据的散点图,通过与各种函数的图象比较,选择与这些散点拟合最好的函数,然后采用适当的变量变换,将问题转化为线性回归问题来解决.
【变式训练3】(2017黄冈市检测)噪声污染已经成为影响人们身体健康和生活质量的严重问题,为了了解声音强度D(单位:dB)与声音能量I(单位:W/cm2)之间的关系,将测量得到的声音强度Di和声音能量Ii(i=1,2,…,10)数据作了初步处理,得到下面的散点图及一些统计量的值.
I
D
W
∑i=110(Ii
-I)2
∑i=110(Wi
-W)2
∑i=110(Ii
-I)(Di
-D)
∑i=110(Wi
-W)(Di
-D)
1.04×
10-11
45.7
-11.5
1.56×
10-21
0.51
6.88×
10-11
5.1
其中Wi=lg Ii,W-=110∑i=110Wi.
(1)根据表中数据,求声音强度D关于声音能量I的回归方程D^=a^+b^lg I.
(2)当声音强度大于60 dB时属于噪音,会产生噪声污染.城市中某点P共受到两个声源的影响,这两个声源的声音能量分别是I1和I2,且1I1+4I2=1010.已知点P的声音能量等于声音能量I1与I2之和.请根据(1)中的回归方程,判断点P是否受到噪声污染的干扰,并说明理由.
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v^=α^+β^u的斜率和截距的最小二乘估计分别为
β^=∑i=1n(ui-u-)(vi-v-)∑i=1n(ui-u-)2,a^=v--βu-.
【解析】(1)先建立D关于W的线性回归方程,
∵b^=∑i=110(Wi-W)(Di-D-)∑i=110(Wi-W)2=5.10.51=10,
∴a^=D--b^W=160.7.
∴D关于W的线性回归方程是D^=10W+160.7.
∴D关于I的回归方程是D^=10lg I+160.7.
(2)点P的声音能量I=I1+I2,∵1I1+4I2=1010 ,
∴I=I1+I2=10-101I1+4I2(I1+I2)=10-105+I2I1+4I1I2≥9×10-10.
根据(1)中的回归方程,点P的声音强度D的预报值为
D^=10lg I+160.7≥10×lg(9×10-10)+160.7=10lg 9+60.7>60,
∴点P会受到噪声污染的干扰.
题型四
独立性检验的应用
【例4】某校研究性学习小组对本校高三年级的学生的视力情况进行调查,在高三年级的全体1000名学生中随机抽取了100名学生的体检表,并得到如图所示的频率分布直方图.
(1)若频率分布直方图中后四组的频数成等差数列,估计高三年级的全体学生视力在5.0以下的人数,并求抽出的这100名学生视力的中位数的估计值.(精确到0.1)
(2)学习小组成员发现,学习成绩突出的学生,近视的比较多,为了研究学生的视力与学习成绩是否有关系,研究性学习小组对高三年级全体学生成绩名次在前50名和后50名的学生进行了调查,得到如下表中的数据,问能否在犯错误的概率不超过0.05的前提下认为视力与学习成绩有关系?
前50名
后50名
近视
42
34
不近视
8
16
附:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
【解析】(1)由频率分布直方图可知,第一组有3人,第二组有7人,第三组有27人.因为后四组的频数成等差数列,所以后四组的频数依次为27,24,21,18,故后四组的频率依次为0.27,0.24,0.21,0.18.
则视力在5.0以下的频数为3+7+27+24+21=82,进而高三年级的全体学生视力在5.0以下的人数约为1000×82100=820.
设抽出的100名学生视力的中位数的估计值为x,
则有(0.15+0.35+1.35)×0.2+(x-4.6)×(0.24÷0.2)=0.5,解得x≈4.7.
(2)根据表格中的数据,得到K2的观测值k=100×(42×16-34×8)250×50×76×24=20057≈3.50910.828,
∴有99.9%以上的把握认为喜欢吃辣与性别有关.
方法一
用公式法求解回归直线方程问题
回归分析是处理变量相关关系的一种数学方法.求解回归直线方程问题的关键有两点:一是把相关数据代入公式准确计算,二是抓住样本点的中心(x-,y-)必在回归直线上的特性.
【突破训练1】(2017山东实验中学模拟)2016年高考体检,某中学随机抽取5名女学生的身高x(厘米)和体重y(公斤)的数据如下表:
x
165
160
175
155
170
y
58
52
62
43
60
根据上表可得回归直线方程为y^=0.92x+a^,则a^=( ).
A.-96.8 B.96.8
C.-104.4 D.104.4
【解析】由表中数据可得x-=165,y-=55.∵点(x-,y-)一定在回归直线方程y^=0.92x+a^上,∴55=0.92×165+a^,解得a^=-96.8.故选A.
【答案】A
方法二
利用等高条形图和独立性检验判断两个分类变量是否有关系
1.等高条形图:
在2×2列联表中,若两个分类变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个分类变量之间关系越弱;|ad-bc|越大,说明两个分类变量之间关系越强.
2.独立性检验是对两个分类变量有关系的可信程度的判断,而不是对它们是否有关系的判断.
【突破训练2】(2017沈阳模拟)为考察某种疫苗预防疾病的效果,科学家进行动物试验,得到统计数据如下:
未发病
发病
总计
未注射疫苗
20
x
A
注射疫苗
30
y
B
总计
50
50
100
现从所有试验的动物中任取一只,取到“注射疫苗”动物的概率为25.
(1)求2×2列联表中的数据x,y,A,B的值.
(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率.
(3)能够有多大把握认为疫苗有效?
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
P(K2≥k0)
0.05
0.01
0.005
0.001
k0
3.841
6.635
7.879
10.828
【解析】(1)设“从所有试验的动物中任取一只,取到‘注射疫苗’动物”为事件M,
由已知得P(M)=B100=25,所以B=40,则y=10,x=40,A=60.
(2)未注射疫苗的发病率为4060=23≈0.67,注射疫苗的发病率为1040=14=0.25.
发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.
(3)因为K2的观测值k=100×(20×10-40×30)260×40×50×50=503≈16.67>10.828,
所以至少有99.9%的把握认为疫苗有效.
1.(2017承德期末)某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数不低于70的人,饮食以肉类为主).
(1)根据以上数据完成下列2×2列联表.
主食蔬菜
主食肉类
总计
50岁以下
50岁以上
总计
(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析.
【解析】(1)2×2列联表如下:
主食蔬菜
主食肉类
总计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(2)因为K2的观测值k=30×(4×2-8×16)212×18×20×10=10>6.635,
所以有99%的把握认为其亲属的饮食习惯与年龄有关.
2.(2017岳阳模拟)下表是某地搜集到的新房屋的销售价格y(单位:万元)和房屋的面积x(单位:m2)的数据.
房屋面积x(m2)
115
110
80
135
105
销售价格y(万元)
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线.
参考公式:b^=∑i=1nxiyi-nx-y-∑i=1nxi2-nx-2,a^=y--b^x-,其中∑i=15xi2=60975,
∑i=15xiyi=12952.
【解析】(1)数据对应的散点图如图所示.
(2)根据题意,x-=109,y-=23.2,∑i=15xi2=60975,∑i=15xiyi=12952,
∴ b^=∑i=15xiyi-5x-y-∑i=15xi2-5x-2≈0.1962,a^=y--b^x-≈1.8142,
∴所求回归直线方程为y^=0.1962x+1.8142,其图象如上图所示.
3.(2017石家庄质检)微信是现代生活进行信息交流的重要工具,据统计,某公司200名员工中有90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上.若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,则使用微信的人中有75%是青年人.若规定每天使用微信时间在一小时以上为经常使用微信,则经常使用微信的员工中23是青年人.
(1)若要调查该公司使用微信的员工中经常使用微信与年龄的关系,请完成下列2×2列联表;
青年人
中年人
总计
经常使用微信
不经常使用微信
总计
(2)由列联表中的数据,判断是否有99.9%的把握认为“经常使用微信与年龄有关”.
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
P(K2≥k0)
0.010
0.001
k0
6.635
10.828
【解析】(1)由已知可得,该公司员工中使用微信的有200×90%=180(人).
经常使用微信的有180-60=120(人),
其中青年人有120×23=80(人),
使用微信的人中青年人有180×75%=135(人),
所以2×2列联表如下:
青年人
中年人
总计
经常使用微信
80
40
120
不经常使用微信
55
5
60
总计
135
45
180
(2)将列联表中数据代入公式可得,
K2的观测值k=180×(80×5-55×40)2120×60×135×45≈13.333,
因为13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关”.
4.(2017孝感七校模拟)为研究冬季昼夜温差大小对某反季节大豆新品种发芽率的影响,某农科所记录了5组昼夜温差与100颗种子的发芽数,得到如下资料:
组号
1
2
3
4
5
温差x(°C)
10
11
13
12
8
发芽数y(颗)
23
25
30
26
16
该农科所确定的研究方案是先从这5组数据中选取2组,用剩下的3组数据求出线性回归方程,再对被选取的2组数据进行检验.
(1)若选取的是第1组与第5组的2组数据,请根据第2组至第4组的数据,求出y关于x的线性回归方程y^=b^x+a^.
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
参考公式:b^=?i=1n(xi-x-)(yi-y-)?i=1n(xi-x-)2=?i=1nxiyi-nx-y-?i=1nxi2-nx-2,a^=y--b^x-.
【解析】(1)由题意知x-=11+13+123=12,
y-=25+30+263=27,
b^=?i=13(xi-x-)(yi-y-)?i=13(xi-x-)2=?i=13xiyi-3x-y-?i=13xi2-3x-2
=11×25+13×30+12×26-3×12×27112+132+122-3×122=52,
a^=y--b^x-=27-52×12=-3,
故线性回归方程为y^=52x-3.
(2)当x=10时,y^=52×10-3=22,|22-23|=1
相关试卷
这是一份全国版高考数学必刷题:第十五单元 直线和圆的方程,共41页。试卷主要包含了已知平行直线l1,已知圆M,若圆C1等内容,欢迎下载使用。
这是一份全国版高考数学必刷题:第九单元 平面向量,共57页。
这是一份全国版高考数学必刷题:第十四单元 空间向量及其应用,共70页。