如何解决机器学习中数据不平衡问题

如何解决机器学习中数据不平衡问题

首先,数据集不平衡会造成怎样的问题呢。一般的学习器都有下面的两个假设:一个是使得学习器的准确率最高,另外一个是学习器应该用在与训练集有相同分布的测试集上。如果数据不平衡,那么学习器使得它的准确率最高肯定是更偏向于预测结果为比例更大的类别。比如说阳性的比例为1%,阴性的比例为99%,很明显的是即使不学习,直接预测所有结果为阴性,这样做的准确率也能够达到99%,而如果建立学习器也很有可能没有办法达到99%。这就是数据比例不平衡所造成的问题。这样建立的模型即使准确率再高,在实际应用的时候效果肯定不好,而且也不是我们想要的模型。

python机器学习训练的数据存在mysql可以吗

当然可以了, mysql是一种很常用的数据存储的工具, 当你需要使用这些训练数据时, 只需要通过python的mysql的包连接到数据库, 执行查询sql,将数据导入到python的变量就可以拿来用, 十分方便.如果不知道怎么用python读写mysql数据库, 请追问.