Tuesday, January 29, 2008

读data preparation for data mining

发现和Pyle真有缘,原来在去年4月就看过他的文章

Blogspot的文章是自动用标题里的英文部分作为文件名静态存储的,如果没有英文,就用post.htm, post-1.htm等等。。不错的考虑哦

1.先手工data assay,确认和了解数据质量,以及是否含有对领域问题的答案,再用工具准备数据

单变量分布:histogram (or histogram 4 a range of values), or curve (or smoothed curves using average of a number of values)

Q1: is the sample representative? Using Convegnece (add one instance at a time untile the curve bacomes stable
Q2: which method of exploring is better?

样本标准差是/n-1,不是除以n:独立变化的数据数目。只要有n-1个数确定,第n个值就确定了,它不能自由变化。所以自由度就是n-1。自由度表示的是一组数据可以自由表化的数量的多少。标准差公式可表述为根号(义赛咯x2-nm2除以n-1,等价于x2的义赛咯-x义赛咯的平方再除,再开根?

对类别变量取样:convergence用rate of discovery来确定有效性,不易再有新类别出现即可

多重线形回归能够解决任何缺失值的模式
autoassociate 神网:利用类似bp的反馈来确认缺失值

状态空间里的毕达哥拉斯定律:总是等于各维长度平方和的根

???Scree Plots,至少5维才能防止影射类型值时的偏差?? P234

数据准备(诸如正态化和分布调整),总是能帮助即使很健壮的工具,也大大加快(人工)调整时间,直接读取整理后的良好结构

数据比例低:p394:选2个子集,一个只有1例含特征,一个不含特征例
有效数据少:增加带白噪音的人工数据,甚至color matching(符合样本的多变量分布的噪音
一定要用未修改的数据来校验测试以上的2种perspective data

measuring information:surprise:小几率出现了;熵;字典

1 Comments:

Anonymous Anonymous said...

Data Mining and Knowledge Discovery Search Engine
http://www.google.com/coop/cse?cx=006422944775554126616%3Aixcd3tdxkke

February 14, 2008 at 5:51 AM  

Post a Comment

<< Home