数据挖掘对聚类的数据要求是什么?

一、数据挖掘对聚类的数据要求是什么?

1. 可扩展性(Scalability)

大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率

2. 处理不同数据类型的能力

数字型;二元类型,分类型/标称型,序数型,比例标度型等等

3. 发现任意形状的能力

基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的

4. 用于决定输入参数的领域知识最小化

对于高维数据,参数很难决定,聚类的质量也很难控制

5. 处理噪声数据的能力

对空缺值、孤立点、数据噪声不敏感

6. 对于输入数据的顺序不敏感

同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果

7. 高维度

高维度的数据往往比较稀松,而且高度倾斜

8. 基于约束的聚类

找到既满足约束条件,又具有良好聚类特性的数据分组

9. 可解释性和可用性

聚类要和特定的语义解释和应用相联系

相异度矩阵:存储n个对象两两之间的近似性,也叫单模矩阵,行和列代表相同的实体

二、什么是无监督学习?

无监督学习:设计分类器时候,用于处理未被分类标记的样本集

目标是我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。非监督学习一般有两种思路。第一种思路是在指导Agent时不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大回报的决定。这种思路很好的概括了现实世界,Agent可以对那些正确的行为做出激励,并对其他的行为进行处罚。

强化学习的一些形式常常可以被用于非监督学习,由于没有必然的途径学习影响世界的那些行为的全部信息,因此Agent把它的行为建立在前一次奖惩的基础上。在某种意义上,所有的这些信息都是不必要的,因为通过学习激励函数,Agent不需要任何处理就可以清楚地知道要做什么,因为它(Agent)知道自己采取的每个动作确切的预期收益。对于防止为了计算每一种可能性而进行的大量计算,以及为此消耗的大量时间(即使所有世界状态的变迁概率都已知),这样的做法是非常有益的。另一方面,在尝试出错上,这也是一种非常耗费时间的学习。

不过这一类学习可能会非常强大,因为它假定没有事先分类的样本。在某些情况下,例如,我们的分类方法可能并非最佳选择。在这方面一个突出的例子是Backgammon(西洋双陆棋)游戏,有一系列计算机程序(例如neuro-gammon和TD-gammon)通过非监督学习自己一遍又一遍的玩这个游戏,变得比最强的人类棋手还要出色。这些程序发现的一些原则甚至令双陆棋专家都感到惊讶,并且它们比那些使用预分类样本训练的双陆棋程序工作得更出色。

一种次要的非监督学习类型称之为聚合(clustering)。这类学习类型的目标不是让效用函数最大化,而是找到训练数据中的近似点。聚合常常能发现那些与假设匹配的相当好的直观分类。例如,基于人口统计的聚合个体可能会在一个群体中形成一个富有的聚合,以及其他的贫穷的聚合。

三、模式识别和机器学习,数据挖掘的区别与联系

联系是很紧密的,模式识别说白了就是分类,而分类可以认为是数据挖掘的一部分,数据挖掘主要工作有分类、聚类、关联分析、离群点检测等;机器学习的范围更广,算法更多!但三者都要求有坚实的统计学基础,学的越扎实越好!

四、模式识别、机器学习、数据挖掘有什么区别和联系?

联系是很紧密的,模式识别说白了就是分类,而分类可以认为是数据挖掘的一部分,数据挖掘主要工作有分类、聚类、关联分析、离群点检测等;机器学习的范围更广,算法更多!但三者都要求有坚实的统计学基础,学的越扎实越好!

五、基于语义的文本聚类有哪些方法

聚类分析是一种无监督的机器学习方法,能有效地组织文本信息,应用非常广泛,而大部分文本聚类算法都采用向量空间模型表示文本对象