所属成套资源：人教A版（2019）高中数学选择性必修三课件+教案+单元复习提升类（易错点+知识点清单（含训练题）+单元测试 AB 卷

成套系列资料，整套一键下载

浏览整套资料 (共44份)

高中数学人教A版 (2019)选择性必修第三册一元线性回归模型及其应用图文ppt课件

展开

这是一份高中数学人教A版 (2019)选择性必修第三册一元线性回归模型及其应用图文ppt课件，文件包含课件821一元线性回归模型pptx、教案821一元线性回归模型docx等2份课件配套教学资源，其中PPT共14页，欢迎下载使用。
Y = bx + a + e
y = f(x) 是确定性关系，给定x值，y值完全确定
Y = bx + a + e 是统计关系，包含随机误差
核心特点：参数a和b无法精确求出，只能通过样本数据估计
核心问题：如何通过成对样本数据估计参数a和b？
问题1：如何估计未知参数？
一元线性回归模型 Y = bx + a + e 刻画了变量Y与x之间的线性相关关系，其中参数a和b未知。我们能否通过样本数据估计这两个参数？
与函数模型不同，回归模型的参数无法精确求出，只能通过成对样本数据估计这两个参数
参数a和b刻画了变量Y与x的线性关系，估计这两个参数相当于：
寻找一条适当的直线使成对样本数据的散点在整体上与这条直线最接近
样本散点与拟合直线的关系
问题2：如何用数学方法刻画"从整体上看，各散点与直线最接近"？
画出直线，测量各点与它的距离，移动直线使距离之和最小
选择两点画直线，使直线两侧的点个数基本相同
多取几对点确定几条直线，求斜率和截距的平均数
最小二乘法：最优解决方案
利用点到直线的竖直距离（而非垂直距离）来刻画散点与直线的接近程度，用所有竖直距离之平方和刻画整体接近程度。
设n对样本数据为 (x₁,y₁), (x₂,y₂), ..., (xₙ,yₙ)
由模型：yᵢ = bxᵢ + a + eᵢ
得残差：eᵢ = yᵢ - (bxᵢ + a)
残差平方和（目标函数）
Q = Σ(yᵢ - bxᵢ - a)²
目标：寻找a和b，使Q达到最小值
问题3：如何求a,b的值，使 Q = Σ(yᵢ - bxᵢ - a)² 最小？
b̂ = Σ(xᵢ - x̄)(yᵢ - ȳ) / Σ(xᵢ - x̄)²
= [Σxᵢyᵢ - n·x̄·ȳ] / [Σxᵢ² - n·x̄²]
â = ȳ - b̂·x̄
其中 x̄ = (Σxᵢ)/n，ȳ = (Σyᵢ)/n
Ŷ = b̂x + â
也称经验回归函数或经验回归公式，其图形称为经验回归直线
这种求经验回归方程的方法叫做最小二乘法
"二乘" = 平方的意思，指使残差平方和最小
样本数据：14对父子身高（单位：cm）
x̄ = 173.5 cm, ȳ = 174.0 cm
b̂ = 0.839, â = 28.957
Ŷ = 0.839x + 28.957
当父亲身高176cm时，儿子身高一定能长到177cm吗？
还有其他影响儿子身高的因素，回归模型中的随机误差清楚地表达了这种影响。父亲的身高不能完全决定儿子的身高。
当父亲身高为176cm时，儿子身高一般在177cm左右。177cm是子总体均值的估计值。
高个子的父亲一定生高个子的儿子吗？
斜率 b̂ = 0.839 的含义：父亲身高每增加1cm，儿子的身高平均增加0.839cm
高个子父亲 (x=185)
Ŷ = 0.839×185 + 28.957 = 184.2 cm
儿子平均身高 < 父亲身高
矮个子父亲 (x=170)
Ŷ = 0.839×170 + 28.957 = 171.6 cm
儿子平均身高 > 父亲身高
"回归现象"的历史由来
英国著名统计学家高尔顿（Francis Galtn）把这种后代的身高向中间值靠近的趋势称为"回归现象"。
后来，人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析。
父亲身高为多少时，儿子的平均身高与父亲一样？
通过观测得到的数据，记为 yᵢ
通过经验回归方程得到的值，记为 ŷᵢ
êᵢ = yᵢ - ŷᵢ
残差是随机误差的估计结果，通过对残差的分析可以判断模型刻画数据的效果，以及判断原始数据中是否存在可疑数据等，这方面工作称为残差分析。
第6个观测：父亲身高 172cm
儿子身高观测值：y₆ = 176cm
预测值：ŷ₆ = 0.839×172 + 28.957 = 173.265cm
残差 ê₆ = 176 - 173.265 = 2.735cm
正残差表示观测值高于预测值
残差 = 观测值 - 预测值，反映模型预测误差
残差平方和越小，模型拟合效果越好
残差绝对值过大的数据可能是可疑数据
通过残差分析可以改进模型，作出更符合实际的预测
用父亲身高作为横坐标，残差作为纵坐标，画出残差图。
横坐标可以是样本编号、身高数据或预测值
残差比较均匀地分布在横轴的两边
集中在水平带状区域内，且越窄越好
说明残差符合均值为0、方差为σ²的随机变量
问题4：观察以下四幅残差图，哪一个满足一元线性回归模型假设？
残差与观测时间有线性关系，应将时间变量纳入模型
残差与观测时间有非线性关系，应加入时间的非线性函数
残差的方差不是常数，随观测时间变大而变大
残差均匀集中在水平带状区域，满足假设！
残差 = 观测值 - 预测值 = yᵢ - ŷᵢ
残差的平方和越小，说明模型拟合效果越好
原始数据中的可疑数据往往是残差绝对值过大的数据
好的残差图：残差点均匀集中在水平带状区域内
判断模型刻画数据的效果
识别原始数据中的可疑数据
作出更符合实际的预测与决策
关于残差图的描述，错误的是（）
A. 残差图的横坐标可以是样本编号
B. 残差图的横坐标也可以是解释变量或预报变量
C. 残差点分布的带状区域越窄，相关指数越小
D. 残差点分布的带状区域越窄，残差平方和越小
（带状区域越窄，说明模型拟合效果越好，相关指数应该越大）
某种产品的广告支出费用x（万元）与销售额Y（万元）的数据如下表，已知Y关于x的经验回归方程为 Ŷ = 6.5x + 17.5
当广告支出费用为5万元时，残差为______。
Ŷ = 6.5×5 + 17.5 = 50
表格中对应 Y = 60
残差 = 60 - 50 = 10
求经验回归方程的基本步骤
作出散点图，分析线性相关关系
计算 x̄, ȳ, Σxᵢ², Σxᵢyᵢ
代入公式计算 b̂ 和 â
写出经验回归方程并估计