Sunday, August 05, 2007

转:数据挖掘摘录

不错的农村出生的blogger

数据挖掘摘录
===========================================================
作者: junsheng(http://junsheng.itpub.net)发表于: 2005.11.10 21:19分类: 研究 出处: http://junsheng.itpub.net/post/860/45452---------------------------------------------------------------
高维数据的重要属性:(1) 数据集的大小随着维数呈指数级增长。(2)在高维样本空间中,需要一个更大的数据才能把小部分的数据放入。(3) 在高维度空间中,几乎每一个点都比其他样本点更接近于某一边界;(4) 几乎每一个点都是异常点。
数据挖掘最关键的步骤是对初始数据集的预备和转换;原始数据的转换:标准化小数缩放到[-1,1]这个空间最小最大标准化标准差标准化数据平整差值和比率数据规约算法的特性可测性可识别性单调性一致性收益递减中断性优先权数据挖掘的应用技术统计方法:贝叶斯推理、对数回归、ANOVA分析和对数线性模型;聚类分析:分裂算法、凝聚算法、划分算法和增量聚类;决策树和决策规则算法;关联规则算法;人工神经网络遗传算法解决难优化问题;模糊推理系统基于模糊集和模糊逻辑理论;N维可视化可以作为一种标准的数据挖掘方法,几何学、基于图像、像素导向和分层技术;数据挖掘模型取样算法再替换算法:学习集和检验集相同;乐观有偏的;坚持法:三分之二用于学习,三分之一用于检验;悲观的,跟所选的数据有很大的关系;需要多取几种,然后综合标准参数;单个输出法:用n-1个作为学习集,余下的一个作为验证;计算量比较大;旋转法:把可用样本分成没有交集的自己,p-1个用于学习,剩下的子集用于检验;最流行的方法;Bootstrap方法:用替代物对可用数据重取样,产生大量和已知数据集相通的伪数据集;在小数据集情况下常用。

0 Comments:

Post a Comment

<< Home