Crypto, data analysis and BI商业智能，数据挖掘和比特币: 读data preparation for data mining

发现和Pyle真有缘，原来在去年4月就看过他的文章了

Blogspot的文章是自动用标题里的英文部分作为文件名静态存储的，如果没有英文，就用post.htm, post-1.htm等等。。不错的考虑哦

1.先手工data assay,确认和了解数据质量，以及是否含有对领域问题的答案，再用工具准备数据

单变量分布：histogram (or histogram 4 a range of values), or curve (or smoothed curves using average of a number of values)

Q1: is the sample representative? Using Convegnece (add one instance at a time untile the curve bacomes stable
Q2: which method of exploring is better?

样本标准差是/n-1,不是除以n：独立变化的数据数目。只要有n-1个数确定，第n个值就确定了，它不能自由变化。所以自由度就是n-1。自由度表示的是一组数据可以自由表化的数量的多少。标准差公式可表述为根号（义赛咯x2-nm2除以n-1,等价于x2的义赛咯-x义赛咯的平方再除，再开根？

对类别变量取样：convergence用rate of discovery来确定有效性，不易再有新类别出现即可

多重线形回归能够解决任何缺失值的模式
autoassociate 神网：利用类似bp的反馈来确认缺失值

状态空间里的毕达哥拉斯定律：总是等于各维长度平方和的根

???Scree Plots,至少5维才能防止影射类型值时的偏差？？ P234

数据准备（诸如正态化和分布调整），总是能帮助即使很健壮的工具，也大大加快（人工）调整时间，直接读取整理后的良好结构

数据比例低：p394:选2个子集，一个只有1例含特征，一个不含特征例
有效数据少：增加带白噪音的人工数据，甚至color matching(符合样本的多变量分布的噪音
一定要用未修改的数据来校验测试以上的2种perspective data

measuring information:surprise:小几率出现了；熵；字典

Crypto, data analysis and BI商业智能，数据挖掘和比特币

Tuesday, January 29, 2008

读data preparation for data mining

1 Comments:

About Me

Previous Posts