100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 机器学习基础(五):计算学习理论(PAC学习 有限假设空间 VC维 Rademacher复杂度 稳定性)

机器学习基础(五):计算学习理论(PAC学习 有限假设空间 VC维 Rademacher复杂度 稳定性)

时间:2020-12-12 16:45:46

相关推荐

机器学习基础(五):计算学习理论(PAC学习 有限假设空间 VC维 Rademacher复杂度 稳定性)

5、计算学习理论

计算学习理论computational learning theory:研究关于机器学习的基础理论

几个常用不等式

5.1 PAC学习

概率近似正确PAC)Probably Approximately Correct:最基本的计算学习理论

——以较大的概率学得误差满足预设上限的模型,PAC 学习给出了一个抽象地刻画机器学习能力的框架

目标概念c∈H,则H中存在假设能将所有示例按与真实标记一致的方式完全分开,称该问题对学习算法是可分的separable/一致的consistent;

c∉H,则H中不存在任何假设能将所有示例完全正确分开,称不可分的non-separable/不一致的non-consistent

|H|有限时,称假设空间H为有限假设空间,否则称无限假设空间

5.2有限假设空间

5.2.1可分情形(c∈H)

给定包含m个样例的训练集D,如何找出满足误差参数的假设

→D中样例标记都是由目标概念c赋予的,且c存在于H中,则只需保留与D一致的假设,剔除与D不一致的假设即可(训练集规模有限时无法区分等效假设)

需多少样例才能学得目标概念c的有效近似

→保证泛化误差大于,且在训练集上表现完美的所有假设出现概率之和不大于即可:

5.2.2不可分情形(c∉H)

假定对于任何h∈H,,也就是H中任意一个假设都会在训练集上出现或多或少的错误

在H的所有假设中找出最好的一个

H中泛化误差最小的假设是,于是可将PAC学习推广到c∉H的情况,称“不可知学习agnostic learning”:

5.3 刻画假设空间复杂度的途径

5.3.1 VC维(Vapnik-Chervonenkis dimension)

考虑假设空间的VC维:度量假设空间的复杂度

增长函数growth function:假设空间H对m个示例所能赋予标记的最大可能结果数。(结果数越大,H的表示能力越强,适应能力也越强)

→利用增长函数估计经验误差与泛化误差之间的关系:

对二分类问题来说,H中的假设对D中示例赋予标记的每种可能结果称为D的一种"对分dichotomy";若假设空间H能实现示例集D上的所有对分,即,则称示例集D能被假设空间H"打散shattering"

假设空间H的VC维是能被H打散的最大示例集的大小

VC(H)=d表明存在大小为d的示例集能被假设空间H打散

VC维的定义与数据分布无关

VC维与增长函数的联系:

基于VC维的泛化误差界

(只与样例数目m有关,收敛速率为O(1/√m),分布无关distribution-free,数据独立data-independent)

任何VC维有限的假设空间H都是(不可知)PAC可学习的

5.3.2 Rademacher复杂度

与VC维不同的是,Rademacher复杂度在一定程度上考虑了数据分布

Rademacher复杂度与增长函数联系:

→基于Rademacher复杂度的关于函数空间F的泛化误差界

5.3.3稳定性stability

获得与算法有关的分析结果:算法在输入发生变化时,输出是否会随之发生较大的变化

损失函数

刻画假设的预测标记与真实标记之间的差别,简记为

——泛化损失:

经验损失:

留一损失:

5.3.3.1算法的均匀稳定性uniform stability:
5.3.3.2基于稳定性分析推导出的算法的泛化误差界:

经验损失与泛化损失之间差别的收敛率为β√m,若β=O(1/m),则可保证收敛率为O(1/√m),与基于VC维和Rademacher复杂度得到的收敛率一致

→稳定性分析不必考虑假设空间中所有可能的假设,只需根据算法自身的特性(稳定性)来讨论输出假设的泛化误差界

5.3.3.3经验风险最小化ERM(Empirical Risk Minimization):

→若学习算法是ERM且稳定的,则假设空间H可学习

未完待续,喜欢的朋友可以关注后续文章~

机器学习基础系列文章回顾:

机器学习基础(一):简介

机器学习基础(二):模型评估与选择

机器学习基础(三):决策树

机器学习基础(四):特征选择与稀疏学习

参考书目:

周志华.《机器学习》

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。