如何通俗的理解机器学习中的VC维,shatter和break point
来源:知乎
胡科学
通俗来讲,举个例子吧。假如你想训练出这样一个模型:根据人的身高和体重来预测这个人美还是丑。这是一个简单的二分类问题。
现在想象你面前有一个平面直角坐标系。横轴(x轴)代表人的身高,纵轴(y轴)代表人的体重。
现在咱们拍脑袋决定:咱们的模型应该是线性的(就是一条直线)。通俗来讲,在你的平面直角坐标系里,你画一条线,这条线就把美人和丑人分开了。这条线就是我们最终的模型。
现在咱们要开始往平面直角坐标系放数据了。
假设咱只有两组数据(就是说咱们的坐标系里只有两个点)。这两组数据随机组合,一共有3种情况。
第一种情况:咱们有两个美人的数据
第二种情况:咱们有两个丑人的数据
第三种情况:咱们有一美一丑的数据
无论是哪一种情况,咱们都可以通过一条线把美人和丑人分开。这说明:线性的模型是完全可以shatter两组数据的。
但假如说咱们有四组数据(坐标系里有四个点)。咱们就无法保证线性模型可以完全解释所有数据的可能性了。例如咱们的数据是(180cm, 50kg)=美,(10cm, 10kg)=美,(180cm, 10kg)= 丑还有(10cm, 50kg)=丑。对于这组数据,咱无论怎么画直线,都没有办法把美和丑分开在直线两侧。这说明:线性的模型是没有办法Shatter 4组数据的。
假如说咱们有三组数据,还是总可以通过画线的方式把美/丑分开的。(大家仔细想一想)。
所以,线性模型在这种二维数据的情况下的VC dimension 是3。(因为线性模型最多能Shatter3组数据)
现在,假如说我们突然改变主意了:咱们的模型可以是非线性的。那非线性模型的VC dimension可就高了。想象一下,一条曲线是不是理论上可以把坐标系里的所有美丑都分开?
所以通俗的理解: VC dimension就是某类模型对数据数量的包容性。VC dimension越高,就说明包容性越强。
说了这么多,VC dimension到底有什么用呢?简单来说,VC dimension可以帮助我们选择更好的模型。所谓“更好”的模型,可以理解为风险(risk)更低的模型。
如何估计模型的风险呢?咱们有这个公式:
真正的风险 < 根据已有数据计算出的风险 +f(VC dimension)
f(VC dimension)是一个以VC dimension为变量的函数。咱们要选择的模型,一定要使f(VC dimension)低,这样真正的风险就会低。风险低的模型就更好。
Ps: 我上面说的可能不完全准确。只是为了尽量通俗地把概念说明白。
发布于
赵印
简单通俗的说。
VC维是模型的复杂程度,模型假设空间越大,VC维越高。
shatter和break point是VC维理论中的概念。shatter是指模型假设把数据打碎了,也就是区分开了。而break point是指当模型复杂度变的足够高了后,可以把数据打的足够散的一个数学临界点。
更重要的是,VC维的实践意义是给机器学习可学性提供了理论支撑。
1. 测试集合的loss是否和训练集合的loss接近?VC维越小,理论越接近。
2. 训练集合的loss是否足够小?VC维越大,loss理论越小。
一般工业实践中通过引入正则对模型复杂度(VC维)进行控制,平衡这两个问题的矛盾。
如果想深入理解,推荐看看腾讯广点通团队的这个技术博客:VC维的来龙去脉 | 火光摇曳 。 个人认为总结的很好。
仿生学例子
仿生学现象 1。由令人讨厌的苍蝇,仿制成功一种十分奇特的小型气体分析仪。已经被安装在宇宙飞船的座舱里,用来检测舱内气体的成分。
2。从萤火虫到人工冷光;
3。电鱼与伏特电池;
4。水母的顺风耳,仿照水母耳朵的结构和功能,设计了水母耳风暴预测仪,能提前15小时对风暴作出预报,对航海和渔业的安全都有重要意义。
5。人们根据蛙眼的视觉原理,已研制成功一种电子蛙眼。这种电子蛙眼能像真的蛙眼那样,准确无误地识别出特定形状的物体。把电子蛙眼装入雷达系统后,雷达抗干扰能力大大提高。这种雷达系统能快速而准确地识别出特定形状的飞机、舰船和导弹等。特别是能够区别真假导弹,防止以假乱真。
电子蛙眼还广泛应用在机场及交通要道上。在机场,它能监视飞机的起飞与降落,若发现飞机将要发生碰撞,能及时发出警报。在交通要道,它能指挥车辆的行驶,防止车辆碰撞事故的发生。
6。根据蝙蝠超声定位器的原理,人们还仿制了盲人用的“探路仪”。这种探路仪内装一个超声波发射器,盲人带着它可以发现电杆、台阶、桥上的人等。如今,有类似作用的“超声眼镜”也已制成。
7。模拟蓝藻的不完全光合器,将设计出仿生光解水的装置,从而可获得大量的氢气。
8。根据对人体骨胳肌肉系统和生物电控制的研究,已仿制了人力增强器——步行机。
9。现代起重机的挂钩起源于许多动物的爪子。
10。屋顶瓦楞模仿动物的鳞甲。
11。船桨模仿的是鱼的鳍。
12。锯子学的是螳螂臂,或锯齿草。
13。苍耳属植物获取灵感发明了尼龙搭扣。
14。嗅觉灵敏的龙虾为人们制造气味探测仪提供了思路。
15。壁虎脚趾对制造能反复使用的粘性录音带提供了令人鼓舞的前景。
16。贝用它的蛋白质生成的胶体非常牢固,这样一种胶体可应用在从外科手术的缝合到补船等一切事情上。
16.树叶的排列和悉尼大剧院的建设。
17.潜水艇和鱼的沉浮。
18.响尾蛇和空对空响尾蛇导弹。
[编辑本段]【仿生学最新发展】
仿生学与遗传学的整合是系统生物工程(systems bio-engineering)的理念,也就是发展遗传工程的仿生学。人工基因重组、转基因技术是自然重组、基因转移的模仿,还天然药物分子、生物高分子的人工合成是分子水平的仿生,人工神经元、神经网络、细胞自动机是细胞系统水平的仿生,跟随单基因遗传学、单基因转移发展到多基因系统调控研究的系统遗传学(system genetics)、多基因转基因的合成生物学(synthetic biology),以及纳米生物技术(nano-biotechnology)、生物计算(bio - computation、DNA计算机技术的系统生物工程发展,仿生学已经全面发展到一个从分子、细胞到器官的人工生物系统(artificial biosystem)开发的时代。