Sunday, June 10, 2007

老生常谈:CRISP-DM

今天又看回了CRISP-DM的流程模型介绍文档。
发现非常之详细有用,模型除了大家耳熟能详的6阶段,还提出了分4层的模型,最上面是6阶段,下一层是通用任务(对6个阶段的每个进行任务分解),在下一层是具体任务(通用任务在具体的情况下应该采取什么行动)。比如通用任务是数据清洗,具体任务则有数值数据清洗,或是否判断问题类型是聚类或预测。 最下一层是流程实例,即某次挖掘的行动、决定和结果记录。
CRISP-DM还提出了数据挖掘上下文的概念,对于将通用模型映射到具体模型很有用,其由下列某些或全部维度特征组成: 问题域、数据挖掘问题类型、技术面、工具包和具体技术。 无论是挖掘理论,或者某次挖掘,都是可以用这个上下文来描述,并且互相关联的。
杂谈:
这种映射可能需要规则推理(替换)+基于案例的推理,可以考虑用owl, ruleml, swrl来实施。
和我最早懵懵懂懂提出的context,其实还是一个方向,原来这几个公司的哥们早就替我想好了,转了一圈看了n多东西,又回来到这篇没认真读完(或者当时读了也不懂)的文档上。下一步要做的就是改进和实例化
笔记:启发式heuristic:一种妥协式的方法,不保证能找到最优/正确解,也不保证时间,只是提出貌似可行的解

Labels:

0 Comments:

Post a Comment

<< Home