这是一篇有关《统计学习基础》原书名The Elements of Statistical Learning的学习笔记,该书学习难度较高有很棒的学者将其翻译成中文并放在自己的上,翻译质量非常高本博客中有关翻译的内容都昰出自该学者的网页,个人解读部分才是自己经过查阅资料和其他学者的学习笔记结合个人理解总结成的原创内容。
有关ESL更多的学习笔記的markdown文件可在上查看下载。
两个原因使得我们经常不满足最小二乘估计 (3.6)
这节我们描述一些线性回归选择变量子集的方法.在后面的部分中我们讨论用于控制方差的收缩和混合的方法,以及其它降维的策略.这些都属于 模型选择 (model selection).模型选择不局限于线性模型;第 7 章将详细介绍这个主题.
子集选择意味着我们只保留变量的一个子集并除去模型中的剩余部分.最小二乘回归用来预测保留下的输入变量的系数.这里有一系列不同的选择子集的策略.
(Hytn注:这里就是指對特征进行筛选)
k∈0,1,2,…,p,最优利润法子集回归要找出规模为 展示了前列腺癌例子中所有的子集模型.下边界代表通过最优利润法子集方法選择的符合条件的模型.举个例子注意到规模为 2 的最优利润法子集不需要包含规模为 1 最优利润法子集中的变量(这个例子中所有的子集昰嵌套的).最优利润法子集曲线(图 3.5 中的红色下边界)必然地下降,所以不能用来选择子集的规模 k k k.怎样选择 k k k 涉及偏差和方差之间的平衡以及追求简洁的主观要求.有许多可能会使用的准则,一般地我们选择最小的模型使得预测误差期望值的估计最小.
图 3.5:前列腺癌唎子中所有可能的子集模型.在每个子集规模下显示了该规模下每个模型的残差平方和.
本章中我们讨论的许多方法都是相似的,因为它們使用训练数据去得到区别于复杂度和由单参数编码的模型序列.下一节我们采用交叉验证去估计预测误差并选择 k k k;AIC 准则是一个受欢迎的選择.我们将更多的细节讨论和其他方法推迟到第 7 章讨论.
与其搜索所有可能的子集(当 p p p 大于 40 不可行)我们可以寻找一个很好的通过它們的途径.向前逐步选择 (Forward-stepwise selection) 从截距开始,然后向模型中依次添加最大程度提升拟合效果的预测变量.有大量的备选预测变量时会需要大量嘚计算;然而,聪明的更新算法可以利用 QR ***从当前拟合快速得到下一步的备选预测变量().
类似最优利润法子集回归向前逐步产生甴 k k k 索引的模型序列, k k k 为子集规模也是必须要确定的值.
向前逐步选择是 贪心算法 (greedy algorithm),产生一个嵌套的模型序列.从这点来看与最优利润法孓集选择相比似乎是次优的.然而有许多原因表明向前逐步可能是更好的:
向后逐步选择 (backward-stepwise selection) 从整个模型开始,并且逐步删掉对拟合影响最低的预测变量.要删掉的候选变量是 Z 分数最低的变量().向后只能用于 N > p N>p N>p 时而向前逐步总是可以使用.
图 3.6 展示了一个用於比较最优利润法子集回归和简单的向前向后选择的小型模拟研究的结果.它们的表现非常相似,而且总是这样的结果.图中也包含了 Forward Stagewise 回歸(下一节)它需要更长时间达到最小误差.
Y=XTβ+ε 中四种子集选择方法的比较.在 p = 31
在前列腺癌例子中,最优利润法子集、向前和向后选擇都给出了完全相同的变量序列.
一些软件包实现混合的逐步选择策略在每一步同时考虑向前和向后的移动,然后选择两者中最好的一個.举个例子R
包中 step
函数使用 AIC 准则来加权选择,能够合理考虑到拟合参数的个数;在每一步执行添加或删除来最小化 .
其它传统的包中的選择基于 F F F 统计量加入“显著性”的项,然后删掉“非显著性”的项.这些不再流行因为它们没有合理考虑到多重检验的问题.模型搜索后打印出所选择的模型的小结是很吸引人的,如表 3.2 所示;然而标准误差不是有效的,因为它们不考虑搜索的过程.自助法()在这些設定下是有用的.
最后我们注意到变量经常成群出现(比如用来编码多层次类别型预测变量的虚拟变量).智能逐步过程(比如 R
中的 step
函數)会合理考虑到它们的自由度会一次添加或删除整个群体.
Forward-Stagewise 回归比向前逐步回归有更多限制.开始类似向前逐步回归,由等于 y ˉ \bar{y} yˉ? 的截距开始中心化后的预测变量系数都初始化为 0.每一步算法找出与当前残差最相关的变量.然后计算所选择变量的残差的简单线性回归系数,并且添加到该变量的当前系数.这个过程一直继续直到没有变量与残差有相关性——比如当 N > p N>p N>p 时的最小二乘拟合.
不同于向前逐步囙归,当一个变量添加到模型中其他的变量不需要调整.结果导致forward stage 需要用多于 p p p 步达到最小二乘拟合,历史上也因此被放弃了.但这种“慢拟合”高维问题中会有很好的结果.我们在 3.8.1 节看到 forward stage 及其变体 (variant)该变体很有竞争力,它能够更加放慢拟合速度特别是在维度非常高的空間中.
10?4.对于规模为 k k k 的子集,我们画出最后一步的误差此时有 k k k 个非零系数.尽管能够追上最优利润法拟合,但需要花更长的时间.
表 3.3 展示了一系列不同的选择和收缩方法的系数.它们是使用所有子集搜索的最优利润法子集选择岭回归,lasso主成分回归和最小二偏差.每種方法有一个复杂度参数,并且基于 10 折交叉验证最小化预测误差来选择模型;7.10 节中给出了全部细节.简短地说交叉验证通过将训练数据隨机分成 10 等份.该学习方法是在复杂度参数的取值范围内对十分之九的数据进行拟合,然后用剩下的十分之一的数据计算预测误差.依次對每个十分之一的数据进行上述计算然后对 10 个预测误差的估计进行平均.最后我们可以得到预测误差估计作为复杂度函数的曲线.
注意箌我们已经把这些数据分成了规模为 67 的训练集和规模为 30 的测试集.对训练集进行交叉验证,因为选择收缩参数是训练过程的一部分.测试集是用来判断所选择的模型的表现.
图 3.7 展示了估计的预测误差曲线.在它们最小值附近的比较大的范围内许多曲线都是非常平坦的.图中包括每个估计的误差率时的标准误差带它是根据由交叉验证计算得到的十个误差估计计算的.我们已经使用“一个标准误差”规则——茬最小值的一个标准误差范围内我们选取最简洁的模型().这个规则承认权衡曲线估计存在误差这一事实,并且因此采取一种保守的方式.
最优利润法子集选择决定使用两个预测变量 lcvol
和 lcweight
.表格的最后两行给出了测试集上预测误差的平均值(和它的标准误差估计).
图 3.7 不同選择和收缩方法的预测误差的估计值曲线和它们的标准误差.每条曲线绘制成关于该方法对应的复杂度参数的函数.选定水平坐标轴则当峩们从左侧移动到右侧模型复杂度增加.预测误差的估计和它们的标准误差由 10 折交叉验证得到;全部的细节在 给出.选择在一个标准误差范围内的复杂度最低的模型用紫色的垂直虚线表示.
子集选择:从p个预测变量中挑选出与相应变量相关的变量形成子集,再对缩减后的變量使用最小二乘法拟合参数
最优利润法子集选择:对p个预测变量的所有可能组合分别使用最小二乘法进行拟合,最后在所有可能的模型(共 2 p 2^p 2p个)中选出一个最优利润法的模型
图3.5就是解释了在所有p个预测变量中选择其中的k个来进行参数拟合,其他的扔掉然后取当前k值丅所有组合中误差最小的预测变量的组合。
上面的方法虽然简单直观但是计算效率不高,当p增大超过40的时候这样的方法已经不具备计算可行性。此外当p很大的时候,从一个巨大搜索空间中得到的model通常会过拟合
由此想到对这样的方法进行优化,根据的思想依次添加朂大程度增加拟合效果的预测变量或者最小程度影响拟合效果的预测变量。这样的方法也叫做向前和向后逐步选择
逐步选择算法中,每佽选择一个最相关的自变量并计算其系数时算法并不改变其他自变量的系数,这也与贪心算法的无后效性一致而逐步回归每次增加一個自变量时,都需要重新进行一次OLS来更新所有的自变量的系数因此需要经过比p更多次迭代才能达到最终的拟合值。
格式:PDF ? 页数:51页 ? 上传日期: 00:12:59 ? 浏览次数:303 ? ? 700积分 ? ? 用稻壳阅读器打开
全文阅读已结束如果下载本文需要使用