一、机器学习是不是训练的数据集越大越好
不一定,太大的话如果过拟合,反而会适得其反。
二、在哪下载moore数据集
Moore 数据集可从下面的网站中下载, 数据格式为ARFF, 可用Weka 软件打开
三、什么是UCI标准数据集?
UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库,这个数据库目前共有187个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。
四、自己学习深度学习时,有哪些途径寻找数据集
一般大型数据集都伴随着比赛,比如图像分类数据集伴随着ImageNet比赛,图像检测/图像分割等数据则是伴随着Pascal VOC和COCO等比赛,文本识别与检测伴随着ICDAR比赛,还有很多这样的。其实你想要什么样类型的数据集,百度一下基本会有。
五、如何确定最适合数据集的机器学习算法
首先,你可以思考哪些算法可能适用于你的数据集。
其次,我建议尽可能地尝试混合算法并观察哪个方法最适用于你的数据集。
尝试混合算法(如事件模型和树模型)
尝试混合不同的学习算法(如处理相同类型数据的不同算法)
尝试混合不同类型的模型(如线性和非线性函数或者参数和非参数模型)
让我们具体看下如何实现这几个想法。下一章中我们将看到如何在 R 语言中实现相应的机器学习算法。
六、机器学习中,确定拆分数据集的次数的方法有哪些
常用的就是先减去平均值,再除以标准差。这么做会把数据集做成标准正态分布,但不是归一化。归一化常用的就是求出数据最大值和最小值,然后把每个数据减去最小值,再除以值域。