把所有资源用crisp-dm面板管理起来(包括拖入的外部doc文件等),当点击属性,即可生成CRISP-DM格式的report
超好教程(英文google搜 clementine 中文)200622215595514568 clementine中文教程.rar from pingu.net
一般教程 by xiaowenzi22很好英文教程(搜clementine project node)http://www.dcs.bbk.ac.uk/~nigel/msc_ais/dwdm_resources/Market_Basket_Exercise.pdf
数据探索3板斧:3 steps in data exploration/understanding: clustering, GeneralRuleInduction, LinkAnalysis
外加Data audit(可生产supernode,用算法如c&rt handle missing value,其用fillernode替换值
关联规则用完GRI(聚类)后,人工知道了几类客户,可以增加几个flag,然后建决策树来看其特征(一次看一个)
To profile these customer groups, connect the existing Type node to these three Derive nodes in series, and then attach another Type node. In the new Type node, set all fields to direction None, except for value, pmethod, sex, homeown, income, and age, which should be set to In, and the relevant customer group (for example, beer_beans_pizza), which should be set to Out. Attach a C5.0 node, set the Output type to Rule set, and execute it. The resultant model (for beer_beans_pizza) contains a clear demographic profile for this customer group。也可用GRI代替一次看多个(其输出个数不限)
web可以直接选择link后生成derive node
如何对普通数据使用关联规则:把普通数据(谁买了某种酒(红,白),用setflag改为flag类型,成为2个变量,即可用关联规则挖掘)
节点操作Table节点可以highlight records where sex=male;Matrix节点可以加appearance中row pencentage和expected value(按概率应该有多少个;statistics节点;historygram直方图按颜色,按面板;年龄+收入plot+颜色性别;web节点有>>>文字信息
平衡node(改分布)可以从Distribution节点生出;reclassify将多类归为几大类;合并:原数据+表数据
SetFlag:把类别变量改为多个2元flag;histogram还可再导出图(derive节点)
决策树产生select node,即可部署.也可以用报告node,须定义template tab: ID projected_value换行#ALL换行['ID'] ['$C_pep']换行# 除了ALL还有where 条件 #where [sex='m']
神经网络:用矩阵来评估模型效果,用表直接看预测,用一个小箭头三线(derive?)加plot来评估
模型效果:lift, analysis,增意图super node
NN后面可跟决策树??
apriori还可生产select, ruleset节点。confidence difference=后件的后验置信度-先验置信度。关联规则一定不要flag,而要set,否则无法解读(sex? sex=male只能从set推导出来
关联规则结果模型的setting tab可调;(ignore unmatched basket
GRI是unrefined model,不能直接预测,只能生产ruleset
可以交互式生成树 Interactive Tree
lift可以画多个模型
data mapping: select replacement node:用新数据替换老数据?
时序:可以建多个模型(用filler制定todate函数把string时间变量化为time lable先;先排除季节变量,看看是否仍有季节特性;在用time plot看看曲线(都参见tutorial)
用analysis节点来看预测模型的效果(除了用table)
C5.0
boost:提高精确度,多次建摩
group symbolic:合并相似的枝
cross-validation:样本少
winnow:去除过多的无用属性
规则: field='value1' and
结果表可以生成 select node
feature selection,Decision Tree都可以生成filter节点,只要接入原数据即可
对新数据的预测值是根据该节点中哪类为主而做出的
if a majority of respondents in a given node is yes, the prediction for all records assigned to that node is yes
分类树,回归树的评价方法不同
Scoring Tree Models
The new field names are derived from the model name (Generated Sequence Rule Models)
模型提升或精度太低:做点新的变量,(2)对变量做FINE-CLASS,COARSE CLASS,(3)修改样本中的TARGET VARIABLE RATIO(oversample),(4)拿走INTERMEDIATE CUSTOMER等方法,也许可以提高模型的POWER.如果上面的方法你都用过了,那么问题就复杂了,需要看具体数据的情况来看了
Connection line can be dragged
对连续型变量进行离散化 derive节点
绝大多少DM算法都不能很好的适应输入变量相关的问题,因此在做模型训练之前最好先把相关性比较大的变量去掉
SPSS提供自身的ODBC DRIVER,从而满足位数超过10的number型字段
先改storage type,否则data type可能把有缺失值?的连续变量读成字符型,然后判定为无类别(超出了set默认上限250种)
Binary classifer可以给模型排序
CLEM既处理数据的function
Project和class面板只起分类作用,可以把节点,模型等归入
Supernode就是复合节点(需zoom in 查看)
analysis node: how many are correct in 决策树模型
有效样本比例太小???抽样去掉非目标类,把目标达到20%,或者用损失函数
quality节点:评估数据质量
看了一下evaluation节点里lift的具体参数,居然有默认值(终于明白为什么lift图能自动识别target=1,然后我改target为set类型之后又自动识别为target=0了):
Flag output fields are straightforward; hits correspond to true values.
For Set output fields, the first value in the set defines a hit.
你说的"部署可以在那个金色的结果上选择generate",能够生成rule set(似乎和决策树没有不同)和filter
node(是否只用于减少数据变量加快速度用),具体怎么交付给用户呢?我记得clustering还是神经网络可以导出C代码,如决策树节点是否只能存在stream里,让user来运行clementine或者用runtime?
.nod节点文件或者supernode有用么?
我所学的专业是数据挖掘,很快要加入一个生产项目(搞不好只有我一个人),所以和你这样的讨论真是太必要了.觉得你对Clementine好熟啊!我也看过Apriori
expert选项卡里那些measure,但是从来没用过所以印象不深
那么里面的confidence差异,information difference和chi square这几种用的多吗?
还有一个问题,有点远了,前久正好看了一些论文,Bing Liu,和 Ke
Wang的,关于用关联规则(而非纯分类算法)挖掘客户价值之类,你觉得类似的东西有可能在Clementine里实现吗?现成node1似乎是没有的,Bing
Liu所说的"多个min supp,多个 min conf"似乎倒是可以把变量分几个区,或者只计算有关变量,
决策树节点都有cost配合Evaluation节点输出lift等好几个指标,部署可以在那个金色的结果上选择generate
1.1 有些modeling节点在建树过程中可交互式观察lift等输出,以决定裁减
1.2 C5不提供交互式裁减,cost可以决定按成本裁减
2 关联规则的各个指标都有其局限性,最好根据数据分布特征选择合适的
1.1 韩家炜的书上有一些极端的例子,你可以参考比对自家的数据分布
1.2 Apriori的expert有一些备选的evaluation measure,h
高度不均衡的数据,待预测的目标类所占比例很少(BingLiu, PhilipYu):
Highly imbalanced class distribution of the data,it is often too hard to accurately predict the cases of minority classes, A commonly used approach is to increase the number of cases (or records) of the minority classes by
over-sampling with replacement [e.g., 7, 23].但无法排序,imbalanced data is not a problem if the classification system is made to output a confidence factor (or probability estimate) rather than a definite class。还可用积分来比较lift段,防扭曲:lift指数=1xn1+0.9xn2+..../T,10个decile则=55%,收敛于0.5。如目标都落在第一个decile(最理想),则lift index=1
single minsup is inadequate for our application, a single minconf also causes
problems. For example, in a database, it is known that only 5% of the people are buyers
and 95% are non-buyers. If we set the minconf at 96%, we may not be able to find any rule
of the buyer class because it is unlikely that the database contains reliable rules of the
buyer class with such a high confidenc
You can split a processing sequence into several streams that feed one into the other. The first stream, for example, creates a data file that the second uses as input. The second creates a file that the third uses as input, and so on. You can manage these multiple streams by saving them in a project. A project provides organization for multiple streams and their output. However, a project file contains only a reference to the objects it contains, and you will still have multiple stream files to manage.
A more streamlined alternative when working with complex stream processes is to create a SuperNode
Feature selection: maximum number of categories As a percentage of records: 95%. This means don't have too many categories
Maximum percentage of records within a Single category
最小coefficient: 0.1,再小则屏蔽。 CE=standard deviation/mean
最小标准差:0
Use partitioned data. 如果选中,训练模型时只使用train partition。
太多不具重要性的小类别可以合并为一个“其他”
transpose:行列互换节点
SLRM可以继续训练现有模型
.STR文件就是zip文件,里面是xml
*****
3种客户细分:基于消费额度,基于年龄等指标,基于行为
可以用聚类,得到每个群的特征,并用文字描述
参见http://www.huaat.com/download/xiaobin/liu_diversity.pdf
觉得你可以把不能预测出来的确定流失的客户拿出来分析,看看有什么特征因素你没有发现出来,或表达方式有问题。这是一个很有效的手段。
另,挖掘预测准确率很依赖于数据准确性。
测试数据是中离网客户的比率只有1.78%。训练集中的
将离网客户比率放大到20%。
**************
华院公司的一些pdf不错
**********
解决问题的方法是保留所有的这200个流失客户,再在其余那19800个忠实客户里随机抽取800个客户。这样一来就组成了一个有1000个客户的数据集,流失率是20%。(一般来说20%~30%能达到较好的效果)
DOC]抽样方法比较
分层是根据若干个变量若干个值在POPULATION里面的比例抽取,过度是保留某变量某值的所有记录其余随机抽取,两者类似却不同。
它可以将一个内部变异很大的总体分成一些内部变异较小的层(次总体)。
每一层内个体变异越小越好,层间变异则越大越好。
要解释MOSAIC UK要先介绍UK的邮政编码。UK的邮政编码分为两部分,比如说M28 1LR。第一部分是城市区域信息,例子中M代表Manchester。第二部分是具体的街道信息。UK的POSTCODE分得很细,一般地说每个POSTCODE里面只有15户人家/单位,所以有了POSTCODE就能基本确定客户所处的区域。
在同一/临近区域居住的人群一般都有相似的特征,如职业,财政情况等等,这些同一区域里居住的相似背景的人有着相似的消费的习惯。Experian 公司因此开发了MOSAIC码,把英国人口根据居住区域(POSTCODE)编入了 1X 大类 5X 小类的人群里面。这套编码是建立在Experian公司尽可能符合事实的数据收集和专业的分析(Data Mining)的基础上,且定期更新以求与客户消费心理趋势的变化保持一致。结果包括类内人群的收入水平、教育程度、职业、电视收看倾向、报纸阅读倾向,等等。B2C公司可以根据MOSAIC码的分类确定对特定的区域制定适合于当地的营销策略。现在MOSAIC 码已经成了英国各B2C公司的必备客户细分工具之一,它既可以作为区域划分的单一标准,也可以作为一个变量(predictor variable)成为模型的一部分。
MOSAIC码是建立在消费者个体的基础上,对B2C市场有比较明显的指导意义,不过它对B2B市场的划分则没什么POWER。不过Experian公司已经意识到了这一点,并因此开发出了Commercial MOSAIC UK(商业MOSAIC码)。http://www.uk.experian.com/business/products/data/248.html
Consumer MOSAIC 系统的输入变量只需要一个变量:POSTCODE。而Commercial MOSAIC UK则要用到六个输入变量,如公司雇员数量,公司类型和消费者MOSAIC码等等。同样,UK市场上的企业无论大小可以被归到Commercial MOSAIC码里那1X大类5X小类里面。
对于整个市场Commercial MOSAIC码能提供一般性的划分,但它不具有针对某一行业某一产品的划分功能,这与完全基于公司自身数据建立的模型的效果肯定是会差一点的。这时候就要比较购买系统和自己开发模型的投入产出了。值得一提的是,若把它作为自开发模型的其中一个输入变量,模型的效果一般都会有一定的提高。
、最常发现的知识
1、广义型知识(Generalization)
根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识
2、分类型知识(Classification &Clustering)
反映同类事物共同性质的特征型知识和不同事物之间差异型特征知识
3、关联型知识(Association)
反映一个事件和其它事件之间依赖或关联的知识
4、预测型知识(Prediction)
通过时间序列型数据,由历史和当前的情况去预测未来的情况
***********************
cart always split 2 branches
相关性和因果关系之间是否有着必然的联系呢?
比方说,两个变量之间(或者说两个指标之间)是不相关的,那么我们是否可以说这两个变量之间一定不存在因果关系呢?
比方说 如果考虑一种“传染病 ”与 “人均收入” 这两个指标,如我们可以得到“传染病 ”与 “人均收入” 这两个指标不相关,那么我们是否可以说这种“传染病 ”与“人均收入” 没有关系,即人均收入高低并不能影响传染病的爆发。
--------------------------------------------------------------------------------
ququhk2004-03-17, 10:17
相关性与因果的关系要看分析的时点,相关性通常看的是同一时点/段的关系,因果则有前后关系.这与分析问题的目的有关.用你的例子,今天的“传染病 ”发病率与 今天的“人均收入”无关,但可能和昨天的收入有关,而今天的收入的效果可能要体现在明天的“传染病 ”发病率上.同时,还有一种可能,就是“传染病 ”发病率与 “人均收入”无关,但“人均收入”在和其他因素共同作用后又能够解释“传染病 ”了.再或者做简单相关分析,“传染病 ”发病率与 “人均收入”无关,但它们之间的相关性可能是非线性的,简单相关分析做不出来,但是实际上还是有关系的.综上,不能简单地讲相关性和因果关系之间是否有着必然的联系,具体问题具体分析吧.
孤独一条狼 加我的ghostgcg@hotmail.com
我看你分析问题头头是道
不过咱家是作东西条理分明 我跟你多学两手 不会把你卖了 像我得手下一样
银行业CRM相关的数据挖掘和商业规则制定的吗?可以与我联系,我的Email:funnyfang@sina.com,MSN:funnyfang@hotmail.com
苦于如何进行数据准备,比如各种话费是采用占总体的比例值还是采用实际值,各种模型需要提供什么类型的输入
其中处理异常值和奇异点的方法是用分位数去截断分布两边的数据,在sas中可以写macro函数来实现
telco dm:除了经典的流失、细分、价值、信用、欺诈分析外 交叉销售、上行销售
现有北美电力市场98年4月到2003年4,每天24小时的供电QUATITY和PRICE ,每个时段对应一对数据,就是价格和供给量各365*24*5个数据(有点怕怕:)
最终要做 CVar(credit value at disk)分析,椐导师说,要通过分析数据,分析出价格中人为的因素,比如人为炒作导致价格的变动啊,什么的。目前,只用SAS做了一些直方图,回归分析,就不知道再怎么进行下去了,哪位高手可以提供一些指点:可以用运平稳时间序列看看,这个数据不算大,有兴趣发给我看看
cjove@21cn.com,有空大家可以一起讨论讨论
caumint2004-08-27, 21:02
咨询了下SPSS公司,好家伙,publisher要60万,还不包括clementine
用不起啊
哪位好心的能提供下载阿,哪怕只能用几个月都行
--------------------------------------------------------------------------------
挖挖人2004-09-02, 15:11
我这里有的 qq:64049876
flash_sy@hotmail.com
么多的前端展示工具中,有哪些是可以免费下载
brio bo cognos sass
都可以 我在地摊上看到过四者的盗版
家好,我从事电力数据挖掘已有2年时间,算法研究了不少,但苦于没有实用的数据,所以没有太大的成果出来。哪位仁兄有这方面兴趣,欢迎与我探讨,我的qq:58420473。邮箱:liuyuuu@sina.com
些变量的数值跨度较大,不利于进行快速聚类分析。但是我的样本数又太大,将近200个,不好用其他聚类方法。不知道有哪位高人能为在下指点一二!感激不尽!感激不尽!
--------------------------------------------------------------------------------
孤独一狼2004-05-27, 22:00
何为快速聚类?样本太大,200个是什么意思?
--------------------------------------------------------------------------------
qkaiwei2004-05-30, 11:30
在使用proc fastclus过程之前,先使用proc standard过程
SAS Enterprise Miner (详细目录还不清楚)
IBM Intelligent Miner For Data 8.1
(Included IM Visualization,IM Scoring PMML Conversion)
IBM Intelligent Miner Scoring 8.1
SPSS Clementine 8
Oracle Darwin(这个好像不要钱,但我还没在9i里找到)
性能比较资料我拿到了,但是不知道价格,请不吝赐教,a lot thx !
--------------------------------------------------------------------------------
Daniel-H2004-03-26, 11:55
楼上仁兄,另外还有两个DM工具不错,若你有兴趣,可来信,它们是:Unica Affinium Model和Insightful Miner(IMiner)。
若可以,可否将其它几个工具的性能比较资料给我看看?
dw_huang@yahoo.com.
或给我电话:021-64692081 黄典伟
--------------------------------------------------------------------------------
hardwood2004-03-27, 01:51
clementine单用户单CPU现在可能报四十多万吧,开始时7.0报60万
--------------------------------------------------------------------------------
repou2004-03-29, 23:14
一个OLAP工具,公开报价都是一百多万,你说的是公开报价吗?
clem8 new node:Neural Connection 2.1
传统的用户离网预测方法都是针对用户信息、消费行为等数据,通过数据挖掘的方法进行预测.为此,在分析移动用户离网原因的基础上提出了一种基于营销策略的用户离网预测模型(CPMP:Churn Prediction based on Market Plan).该模型针对用户主动离网的主要原因是其他运营商推出新的营销策略这一事实,通过比较用户在不同营销策略下可能发生的行为,进而预测用户离网的可能性.实验结果表明,基于CPMP模型对不同营销方案比较所得出差异,直接影响用户离网率.通过对营销策略的对比分析,可有效控制
我们津津乐道于这个显著的lift,大家齐称赞模型多牛比。不过大家忘了一点,业务人员从来不会傻逼到随机地抽取一批号码,去赌其中有多少离网的。多少,他们会动动脑子,从感觉出发。比如,有可能消费太低的容易离网,那好,将月消费小于30块的挑出来。也可能是连续三个月消费消费突降的容易离网,那好,将前两个月平均消费在80以上,最近一个月跌破20的挑出来。这样的猜测大多比随机要准一些,按照这些条件,假设挑选出有1万个用户,其中真的有 800个离网,那么命中率也就是8%了。
如果用模型的命中率跟这个业务猜测的命中率相比,lift确实还多了一点点,2%。只多了一点点?也许说这是微不足道的有点不厚道,因为大家知道有时候即便是提高一点点也得费老鼻子力气。不过不要忘了业务上还有其他关注点。一方面是希望你能够准一点,这通过lift能够证明。另一方面,假如总共 1000个目标,你能够找出多少出来?全找出来就算你狠,这一般用查全率来表示。
从查全这个角度,按照前面的数据,业务猜测找到800个,预测模型找到100个,显然是前者狠一点。也许,你会说,我可以将预测模型的打分放宽一点,也能找到800个目标,但那样,命中率恐怕就不及10%,甚至不及8%。命中率跟查全率俩兄弟常常是一个吃饱了,另一个就得饿肚子。
当然,上面的数字是我随口诌出来的,没有什么根据,只是为了说明方便。如果那个业务猜测真的能够达到那样的效果,所谓模型到真的不必,虽然有时候所谓的"猜测"是知道了模型的结论之后作出的。挖掘模型号称是从海量数据里面发掘知识,所谓知识,也就是规则。因此,掌握了这个知识的人,当然可以"猜测 "。这里涉及到一个将模型转换为知识的过程,且不说。
如果我们将模型当作一个大学生,将知识当作一个有业务经验的人,将什么都没有,没知识,没文化,没道德的人当作白痴。
可以这么说,现在的lift计算方法,大学生的预测能力除以白痴的预测能力。
又看到Qing的旧作,读起来比以前有了更多的体会。
http://groups.google.com/group/ttnn/b ... d/thread/93803de41a525bdb)
"
于是,lift等于10%除以3%,提升了 3倍。
我们津津乐道于这个显著的lift,大家齐称赞模型多牛比。不过大家忘了一点,业务人员从来不会傻逼到随机地抽取一批号码,去赌其中有多少离网的。多少,他们会动动脑子,从感觉出发。比如,有可能消费太低的容易离网,那好,将月消费小于30块的
如果我们将模型当作一个大学生,将知识当作一个有业务经验的人,将什么都没有,没知识,没文化,没道德的人当作白痴。
可以这么说,现在的lift计算方法,大学生的预测能力除以白痴的预测能力。
惭不惭愧呢?惭愧。有本事去跟业务经验比嘛,干吗欺负白痴。整天叫嚣者我比白痴提升3倍,真的有点惭愧。
"