一、svm什么意思
支持向量机SVM(Support Vector Machine)作为一种可训练的机器学习方法,依靠小样本学习后的模型参数进行导航星提取,可以得到分布均匀且恒星数量大为减少的导航星表
二、Support Vector Machine是什么?
Support Vector Machine - 支持向量机,常简称为SVM,是一种监督式学习的方法,可广泛地应用于统计分类以及回归分析。
支持向量机属于一般化线性分类器,也可以被认为是提克洛夫规范化(Tikhonov Regularization)方法的一个特例。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区,因此支持向量机也被称为最大边缘区分类器。
机的意思就是算法,机器学习领域里面常常用“机”这个字表示算法。支持向量意思就是数据集种的某些点,位置比较特殊,我们找这条直线的时候,一般就看聚集在一起的两类数据,他们各自的最边缘位置的点,也就是最靠近划分直线的那几个点,而其他点对这条直线的最终位置的确定起不了作用,所以我姑且叫这些点叫“支持点”(即有用的点),但是在数学上,没这种说法,数学里的点,又可以叫向量,比如二维点(x,y)就是二维向量,三维度的就是三维向量(x,y,z)。所以“支持点”改叫“支持向量”。
支持向量机构造一个超平面或者多个超平面,这些超平面可能是高维的,甚至可能是无限多维的。在分类任务中,它的原理是,将决策面(超平面)放置在这样的一个位置,两类中接近这个位置的点距离的都最远。我们来考虑两类线性可分问题,如果要在两个类之间画一条线,那么按照支持向量机的原理,我们会先找两类之间最大的空白间隔,然后在空白间隔的中点画一条线,这条线平行于空白间隔。通过核函数,可以使得支持向量机对非线性可分的任务进行分类。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。
三、关于SVM的基本问题(过学习,欠学习,推广性,学习精度)
统计学习原理(STL)通过结构风险最小化原则(SRM)来解释机器学习
期望风险 = 经验风险 + 置信范围
经验风险也就是对样本的分类精度,置信范围由学习机器的复杂度(VC维)决定。
过学习(overfitting),也叫过拟和
由于学习机器过于复杂,尽管保证了分类精度很高(经验风险很小),但由于VC维太大,所以期望风险仍然很高。
典型的过学习是多层前向网络的BP算法
欠学习(underfitting),也叫欠拟和
这类情况很多,由于学习机器过于简单,分类能力不够,造成对样本无法正确分类。此时经验风险较高,而VC维较小
推广性,准确的说法叫做学习机器的泛化能力(Generalization)
结构风险较小的学习机器,能适应更多类别的样本分类,泛化性就较高。
学习精度,一般没有这类说法,从字面理解大概是指经验风险,也就是学习机器对样本的分类能力。
如还有不懂的可以给我发信息。
你运气好,今天我恰好上网,搞SVM的人少得可怜
四、机器学习和统计里面的auc怎么理解
很多,主要说下监督学习这块的算法哈。欢迎讨论。svm,支撑向量机,通过找到样本空间中的一个超平面,实现样本的分类,也可以作回归,主要用在文本分类,图像识别等领域,详见:;lr,逻辑回归,本质也是线性回归,通过拟合拟合样本的某个曲线,然后使用逻辑函数进行区间缩放,但是一般用来分类,主要用在ctr预估、等;nn,神经网络,通过找到某种非线性模型拟合数据,主要用在图像等;nb,朴素贝叶斯,通过找到样本所属于的联合分步,然后通过贝叶斯公式,计算样本的后验概率,从而进行分类,主要用来文本分类;dt,决策树,构建一棵树,在节点按照某种规则(一般使用信息熵)来进行样本划分,实质是在样本空间进行块状的划分,主要用来分类,也有做回归,但更多的是作为弱分类器,用在model embedding中;rf,随进森林,是由许多决策树构成的森林,每个森林中训练的样本是从整体样本中抽样得到,每个节点需要进行划分的特征也是抽样得到,这样子就使得每棵树都具有独特领域的知识,从而有更好的泛化能力;gbdt,梯度提升决策树,实际上也是由多棵树构成,和rf不同的是,每棵树训练样本是上一棵树的残差,这体现了梯度的思想,同时最后的结构是用这所有的树进行组合或者投票得出,主要用在、相关性等;knn,k最近邻,应该是最简单的ml方法了,对于未知标签的样本,看与它最近的k个样本(使用某种距离公式,马氏距离或者欧式距离)中哪种标签最多,它就属于这类;
五、机器学习有很多关于核函数的说法,什么是核函数?核函数的作用是什么
只了解一些SVM中的核函数,欢迎交流
SVM本身是线性分类器,使用了核函数后,相当于把原来的数据,映射到一个高维空间(在相对低维度的空间中难分类的样本,很可能在映射到高维空间后用线性分类器就可以分开)。
而在SVM中使用核函数,我理解是替换了SVM中衡量内积的方式 (x * z)为K(x,z),以此来达到映射的目的的。
六、求概率的一种方法
C右上角的数字,如3则3*2*1=6,右下角数字大于等于3,方法同上,如5,则5*4*3=60,然后60/6=10