Crypto, data analysis and BI商业智能，数据挖掘和比特币: June 2008

Sunday, June 29, 2008

挖掘实战经验

这回砖家可是真刀真枪开挖了．．涉及商业问题，不便多说．他们的ｄｒｅｓｓｉｎｇ　ｃｏｄｅ很活泼，牛仔裤＋Ｔ榭就可以

1：我的思路：宽表可以用Derive节点(still from per item per line's transaction table)：

推出一系列衍生fields: ProdType1 Prodtype1Qty ProdTyp2 Prodtype2Qty
1 8 0 0
0 0 1 2

然后再aggregate, sum(PT1), sum(PT1_QTY)

实际操作：用Decode(FieldName, value want to measure, 1 ,0) as ProdType1
外加sum(qty)/ count(distinct Tx_ID)等来统计平均每交易的数量等，SQL末尾是group by新的聚集主键（CUST_ID)

CUST_ID分两种，要么来自CUST_REF, or CARD_NUM, also use a flag to indicate the source.

Saturday, June 28, 2008

Excel/word基本格式和自动换行

可以用录宏来制作和查看任何复杂的操作（比如打开并复制CSV文件）

Use camera tools to snap and overlay graphs.

we need the Camera object to have a reference that's something like: =IF($A$1=1,$B$2,$B$3) we have an easy work-around: range names. However, Excel names can be defined using formulas. For example, you could define the name Test as:
=IF($A$1=1,$B$2,$B$3)Try it. Choose Insert, Name, Define. Enter Test as the name.

“Excel图表中的每一个数据序列，都是可以单独设置图表类型的”，
如果要对比贡献，可以用条图(横），而非柱图
Or, use scatter to draw "3rd axis" or reference line, or 拼接也是一种有效的办法。曾有一位网友需要做一个3条曲线的图，但由于数量级,So use two charts and make one transparent

一列太长，又无法回车？ Format Cell: Wrap text

设定列高，18 (默认13.5)

标题栏： fill color

自动填充颜色：某列填入数据后自动变（绿色，标志做完），

定住某些列，右滚时保持不动(freeze window, from window menu)

Bar:在数据列的右边填入如下公式：=REPT("|",100*D5/$D$22)，每行的重复次数是它占总数的百分比，设置字体颜色，就是一个很好的bar图啦。

Y轴的自动舍入位：出现0,1,1,2,2百万（其实是0 0.5M 1M 1.5M 2M),可以格式化把decimal加为一位）

Auto adjust column width to fit content: cursor on right border of column heading, see + and double click

Range(A1,C3): a 3x3 area

FormulaR1C1

ChartTitle 标题”元素只支持引用某个单元格(use click to finish formula which include sheetx! ref)，不支持＝A1&A2 这种引用

数据序列大小不同，无法看出小曲线的剧烈变化，这种情况下，我们该怎么进行作图呢？有的人对数据人为调整至相当的数量级，有的人用虚拟数据做第三个坐标轴，但这都不是好的办法，既存在误导、也很麻烦。

因为这时我们关注的是各序列之间变化趋势的差异，比较好的做法是对先各序列数据进行基期标准化，消去数量级或量纲的差异，然后对标准化后的指数数据进行趋势分析，则可真实反映变化趋势的差异。

基期标准化是以基期数据为标准，基期就是数据系列的第一个时期，各期标准化数据＝100*各期数据/基期数据。这样基期数据就是100，其他各期数据就是100左右的数，是增是减、增减多少都一目了然，曲线图也可以非常清晰地反映各序列之间的变化趋势的差异。

waterfall chart用起点终点值、占位序列Transparent(= sum(PrevTransparent+PrevTrueColumn),TransParent0=0、正数序列、负数序列的数据做堆积柱形图，将占位序列设置为无框无色，达到隐形，从而实现其他数据序列“悬浮”起来的效果
杂填充功能来填充一个等比数列“2、6、18、54、162”的例子。

　　1.在单元格A1中输入“2”；2.用鼠标选择单元格A1～A5（切记，不是使用拖动填充句柄来选择）；3.执行“编辑/填充/序列…”命令，出现序列对话框（如图6）；4.在序列对话框中设置“序列产生在”

Fill accross worksheets的一种样式填充到多个表格中，那么就要进行下面的操作。我们以创建工作簿为例来进行说明。

　　1.创建一个新的工作表，在工作表的各个区域输入一些数字，或者使用前面讲述的填充功能来填充数据;2.选定前面的工作区域；3.按住“Ctrl”键，然后单击其他的工作表（多重选择其他工作表），在这里，我们选择“Sheet2”和“Sheet3”;4.执行“编辑/填充/至同组工作表…”命令，看到如图8的对话框；5.在该对话框中选择要填充的方式，这里我们选择“全部”，然后单击“确

WORD:

Index <> Table of contents
索引不等于目录
换页不要用回车聚集，用insert break

每章，节的标题用styles and formatting的heading1 heading2 heading3来标记，可以自动生成目录
每章之间用insert section break,这样便于插页眉（章节号和标题）

Word 2003 长篇文档排版技巧（二）

Word 2003 长篇文档排版技巧（一）

WORD常见问题汇总

other parts of the document, etc. suddenly appear in the Document Map and TOC.
So frustrating (after a persistent problem)

2) 域代码查看
　　Alt+F9 可以查看域代码。再按一次则返回。

　　5、总结
　　总而言之，word本身功能十分强大，Field和Macro更是其精华。善于运用域和宏，可以使很多工作简化。我相信我发掘出来的域的应用不过冰山一角，只是能满足现阶段使用而已。相信上面提到的一些方法并非唯一，希望朋友们自己发掘，找到最适合自己的方法。
　　最后，也是最简单的方法，就是下载附件中的例子，cut、copy、paste自己需要的域。

Monday, June 23, 2008

问挖掘客户的问题（from ttnn)

1.你们对这个细分的结果有什么预期没有？
2、先从经验上划分，觉得应该划分成那些群体？
3、你觉得哪些因素对分群结果最有影响的？
4、分群过后，比如出来了7个群体，你们准备如何使用它们？

告诉对方，我先作data exploration, data profiling,然后collect requirements and your concerns and business goals

Friday, June 20, 2008

非典型心情随笔

Dong, 钻移动的空子说：
地震没什么太大影响吧
John 说：
没啥就是被晃的头晕
John 说：
呵呵
钻移动的空子说：
那就好
钻移动的空子说：
是否确实觉得平时很多忽视了的东西，一下子重要起来
钻移动的空子说：
非典时我有这种感觉
说：
虽然站着说话不腰疼，不过我确实有点怀念非典时候的心情，算是经历了一场黑色幽默式的考验，也算远远地体验了一把死亡恐怖．
说：
如果没有人员伤亡，就真是一次可遇不可求(弥足珍贵）的经历了，对个人力量的渺小，失望时候保持乐观和斗志，和明知有障碍却无法冲破的心情，有了很深的感受．

Thursday, June 19, 2008

很好的挖掘讨论和资源站

clementine+svm on google.com.cn

KDkeys.net:讨论区

agree. I'm having problems in getting classification RESULT as $null instead of 0 or 1 for flag target variable, would anybody know what's the meanings of it? Does it mean SVM unable to classify so it says "null"?

Well, I am mostly an R and WEKA user, plus I write code for the tricky stuff.

But a few corporate types I have talked to have been muttering Clementine, and I'd like to get a handle on it

a) does it run on a normal PC?

b) can I get an eval?

c) is it GUI, or command driven?

d) if command/language driven then is the syntax like SPSS ?

e) is it aimed at non programmers?

f) is it aimed at non statisticians?

g) does it have any special algorithms in it that I am unlikely to find elsewhere? like ..

h) does it cope with sparse data? (and for instance read Weka's arff format)

i) come to that, does it have a good support vector machine in it?

j) is it really and truly scalable .. if I have 100 million records, and I want to do some bootstrapping or build decision forests, is it going to be up to the task?

Enquiring minds wish to know.

btw, has anyone tried YALE .. a gui front end to weka?

When I was at Bell Canada (just three weeks ago, but it already seems like ages) I had a demo of "Clementine for the Web" circa 2004. Maybe you know that that module was the old NetGenesis, which was all the hype 6 or 7 years ago. Unfortunalty for them, going with SPSS slowly pushed them into oblivion. I believe the main reason was price. If you wanted to do Web Analytics, it was WAY TOO expensive (we didn't know anything about Visual Sciences back then). But if you already were into BI and data mining, it WAS darn cool.

I could answer several of your questions, but I will try to convince SPSS to respond themselves, If they don't, I'll tell youwhat I know (which is what I saw 3 years ago though).

I’m very glad to hear that we are getting mentioned, even in a mutter! (-:
This is a personal reply, not an official reply from SPSS. I have not checked the technical accuracy of every statement (-:

> a) does it run on a normal PC?
Yes. Also there is an add-on server component which runs on various server platforms.
See http://www.spss.com/clementine/system_req.htm for platforms supported by the most recent release, and also the link on this page to previous releases supporting a wider range of server platforms.

> b) can I get an eval?
We don't do a downloadable eval, but if you're interested please contact your local SPSS office (see http://www.spss.com/worldwide/).

> c) is it GUI, or command driven?
It is GUI driven. The data miner creates an executable diagram of the data mining process they want to perform. These diagrams (we call them "streams") are used interactively in an interative fashion to explore the data and build the correct process.

> d) if command/language driven then is the syntax like SPSS ?
There is a scripting language for automating repetitive processes.
You can also execute SPSS syntax within a Clementine stream.

> e) is it aimed at non programmers?
It is aimed at non-programmers, but programmer/non-programmer is perhaps not the most useful distinction here. Clementine is designed for users who want to focus on solving a problem, and finding useful things in the data, rather than on the technical details of algorithms or data management. You can access advanced algorithm features, and you can do complex data management, but you are not forced to see these things all the time. I used to do data mining by cutting code. Now I do it with Clementine, many times faster.
Our customers also comment that they find this much faster to set up than other methods, and also faster to run. It also makes data mining analyses more re-usable – you can open a stream diagram and modify it to meet today’s requirements or to take into account what you have learned. Many of these comments come from people who would have no trouble cutting code – the way that Clementine organizes things is just a whole lot more convenient.

> f) is it aimed at non statisticians?
It is aimed at non-statisticians, but you can use Clementine in conjunction with SPSS statistical products if you need a rich set of statistical tools. Increasingly, Clementine is including techniques beloved of statisticians – logistic, factor/PCA, discriminant, GLM…

> g) does it have any special algorithms in it that I am unlikely to find elsewhere? like ..
Unique algorithms are not the main point of Clementine, but it does have a few less familiar ones - here's a selection:
TwoStep clustering (good for deciding the right number of clusters)
Anomaly detection (based on TwoStep)
GRI (association rules based on Jason Mallen's CUPID)
Sequence (sequential association)
Decision List (interactive rule-building)
Binary classifier (not really an algorithm, rather an automated way of trying many algorithms and parameter settings in one shot)
I understand that our GLM (generalized linear modeling) is also relatively uncommon in data mining tools.

One other notable point about algorithms: if you have access to the in-database algorithms of Microsoft, Oracle or IBM, Clementine can drive many or most of these algorithms as thought they were native to Clementine.

> h) does it cope with sparse data? (and for instance read Weka's arff format)
Interesting question. I don't believe we've ever used anything like a Sparse ARFF file specifically. When dealing with sparse data I tend to use ID,Attribue,Value triplets. Clementine has very rich data manipulation functions, so it's common to switch between different representations as the need arises. This flexibility is one of the things that attracts people to Clementine.

> i) come to that, does it have a good support vector machine in it?
Clementine does not have it own SVM at present, but some of SPSS's alliance partners provide SVMs that can be driven through Clementine (most notably Oracle's ODM).

> j) is it really and truly scalable .. if I have 100 million records, and I want to do some bootstrapping or build decision forests, is it going to be up to the task?
Yes. In particular Clementine Server allows you to leverage parallel hardware, and also pushes work back to (often highly scalable) database systems, making high-volume scoring very practical. We find that some large organizations are switching to Clementine (and away from other enterprise data mining offerings) because it is scalable in a way that others do not seem able to match. I can't speak for bootstrapping or decision tree forests specifically, but Clementine users find it relatively easy to set up complex analyses where each algorithm or model is just a small part of a larger process.

> Enquiring minds wish to know.
Please keep enquiring!

All the best,

Wednesday, June 18, 2008

关联规则有效应用于客户细分

倒数2，3两文值得回味

http://www.google.com/search?q=association+rules++download&hl=zh-CN&lr=&rls=com.microsoft%3Azh-cn&sa=2

[PS] Query Flocks: A Generalization of Association-Rule Mining 1 ...文件格式: Adobe PostScript - 纯文本
Association-rule mining has proved a highly successful technique for extracting useful ..... Figure 2: Market basket association rules as a query ock ...
infolab.stanford.edu/pub/papers/flocks.ps - 类似网页 - 加入笔记本

DM II - Data Mining II- [ 翻译此页 BETA ]You can also download these datasets from the CBA download section. 2. Mining association rules from relational data or transactional data ...
www.comp.nus.edu.sg/~dm2/ - 11k - 网页快照 - 类似网页 - 加入笔记本

[PDF] Privacy Preserving Mining of Association Rules文件格式: PDF/Adobe Acrobat - HTML 版
We present a framework for mining association rules from .... problem of mining association rules over data that is ver-. tically partitioned across two ...
www.almaden.ibm.com/cs/projects/iis/hdb/Publications/papers/kdd02.pdf - 类似网页 - 加入笔记本

[PDF] An Efficient Algorithm for Mining Association Rules in Large Databases文件格式: PDF/Adobe Acrobat - HTML 版
two times to ge,nerate all significant association rules. Contrast this with the previous ... The problem of mining association rules is to gener- ...
www.vldb.org/conf/1995/P432.PDF - 类似网页 - 加入笔记本

TheFA.com - Rules and Regulations- [ 翻译此页 BETA ]The Football Association's Rules and Regulations and Laws of the Game. ... The FA Handbook - Download · Fit and Proper Persons Regulations ...
www.thefa.com/TheFA/RulesAndRegulations/ - 类似网页 - 加入笔记本

[PDF] WORLD POOL ASSOCIATION BLACKBALL RULES 2005文件格式: PDF/Adobe Acrobat - HTML 版
WPA Blackball Rules 2005 Page No 1 of 12 pages. WORLD POOL. ASSOCIATION ... The Game shall be known as ‘Blackball’ and referred to in these rules as the ...
www.wpa-pool.com/download/WPABlackballfinalrules.pdf - 类似网页 - 加入笔记本

[PDF] Fast Algorithms for Mining Association Rules文件格式: PDF/Adobe Acrobat - HTML 版
We consider the problem of discovering association rules. between items in a large database ... ing association rules is to generate all association rules ...
www.sigmod.org/vldb/conf/1994/P487.PDF - 类似网页 - 加入笔记本

[PDF] Mining Customer Value: From Association Rules to Direct Marketing文件格式: PDF/Adobe Acrobat - HTML 版
ing association rules [1] and pessimistic estimation of er-. rors [5]. ... isolated association rules work as a team for maximizing. the profit generated. ...
www.cse.ust.hk/~qyang/Docs/2003/icde03b.pdf - 类似网页 - 加入笔记本

[PDF] Scoring the Data Using Association Rules文件格式: PDF/Adobe Acrobat - HTML 版
association rules. We call this technique Scoring Based on Associations (SBA) ..... Using association rules for scoring: The key feature of association rule ...
www.cs.uic.edu/~liub/publications/Scoring.pdf - 类似网页 - 加入笔记本

结合类频率的关联中文文本分类Integrating Class Frequency Into Association Rules Based Chinese Text Categorization ... [13]http://www. in2in. com/download. htm. ...
scholar.ilib.cn/Abstract.aspx?A=zwxxxb200406005 - 类似网页 - 加入笔记本

Monday, June 16, 2008

Clementine 11使用心得笔记

把所有资源用crisp-dm面板管理起来（包括拖入的外部doc文件等），当点击属性，即可生成CRISP-DM格式的report

超好教程（英文google搜 clementine 中文）200622215595514568 clementine中文教程.rar from pingu.net

一般教程 by xiaowenzi22

很好英文教程（搜clementine project node）http://www.dcs.bbk.ac.uk/~nigel/msc_ais/dwdm_resources/Market_Basket_Exercise.pdf

数据探索3板斧：3 steps in data exploration/understanding: clustering, GeneralRuleInduction, LinkAnalysis

外加Data audit(可生产supernode，用算法如c&rt handle missing value,其用fillernode替换值

关联规则
用完GRI（聚类）后，人工知道了几类客户，可以增加几个flag,然后建决策树来看其特征（一次看一个）
To profile these customer groups, connect the existing Type node to these three Derive nodes in series, and then attach another Type node. In the new Type node, set all fields to direction None, except for value, pmethod, sex, homeown, income, and age, which should be set to In, and the relevant customer group (for example, beer_beans_pizza), which should be set to Out. Attach a C5.0 node, set the Output type to Rule set, and execute it. The resultant model (for beer_beans_pizza) contains a clear demographic profile for this customer group。也可用GRI代替一次看多个（其输出个数不限）

web可以直接选择link后生成derive node

如何对普通数据使用关联规则：把普通数据（谁买了某种酒（红，白），用setflag改为flag类型，成为2个变量，即可用关联规则挖掘）

节点操作
Table节点可以highlight records where sex=male;Matrix节点可以加appearance中row pencentage和expected value（按概率应该有多少个；statistics节点；historygram直方图按颜色，按面板；年龄+收入plot+颜色性别；web节点有>>>文字信息

平衡node(改分布）可以从Distribution节点生出；reclassify将多类归为几大类；合并：原数据+表数据
SetFlag:把类别变量改为多个2元flag；histogram还可再导出图（derive节点）

决策树产生select node，即可部署.也可以用报告node,须定义template tab: ID projected_value换行#ALL换行['ID'] ['$C_pep']换行# 除了ALL还有where 条件 #where [sex='m']

神经网络：用矩阵来评估模型效果，用表直接看预测，用一个小箭头三线（derive?)加plot来评估

模型效果:lift, analysis,增意图super node

NN后面可跟决策树？？

apriori还可生产select, ruleset节点。confidence difference=后件的后验置信度-先验置信度。关联规则一定不要flag,而要set,否则无法解读(sex? sex=male只能从set推导出来

关联规则结果模型的setting tab可调；(ignore unmatched basket

GRI是unrefined model,不能直接预测，只能生产ruleset
可以交互式生成树 Interactive Tree

lift可以画多个模型

data mapping: select replacement node：用新数据替换老数据？

时序：可以建多个模型（用filler制定todate函数把string时间变量化为time lable先;先排除季节变量，看看是否仍有季节特性；在用time plot看看曲线（都参见tutorial)

用analysis节点来看预测模型的效果（除了用table)

C5.0
boost:提高精确度，多次建摩
group symbolic:合并相似的枝
cross-validation:样本少
winnow:去除过多的无用属性

规则： field='value1' and
结果表可以生成 select node

feature selection，Decision Tree都可以生成filter节点，只要接入原数据即可

对新数据的预测值是根据该节点中哪类为主而做出的
if a majority of respondents in a given node is yes, the prediction for all records assigned to that node is yes
分类树，回归树的评价方法不同
Scoring Tree Models

The new field names are derived from the model name （Generated Sequence Rule Models）

模型提升或精度太低：做点新的变量,(2)对变量做FINE-CLASS,COARSE CLASS,(3)修改样本中的TARGET VARIABLE RATIO(oversample),(4)拿走INTERMEDIATE CUSTOMER等方法,也许可以提高模型的POWER.如果上面的方法你都用过了,那么问题就复杂了,需要看具体数据的情况来看了

Connection line can be dragged

对连续型变量进行离散化 derive节点

绝大多少DM算法都不能很好的适应输入变量相关的问题，因此在做模型训练之前最好先把相关性比较大的变量去掉

SPSS提供自身的ODBC DRIVER，从而满足位数超过10的number型字段

先改storage type,否则data type可能把有缺失值？的连续变量读成字符型，然后判定为无类别（超出了set默认上限250种）

Binary classifer可以给模型排序

CLEM既处理数据的function

Project和class面板只起分类作用，可以把节点，模型等归入

Supernode就是复合节点（需zoom in 查看）

analysis node: how many are correct in 决策树模型

有效样本比例太小？？？抽样去掉非目标类，把目标达到20%，或者用损失函数

quality节点：评估数据质量

看了一下evaluation节点里lift的具体参数，居然有默认值（终于明白为什么lift图能自动识别target=1,然后我改target为set类型之后又自动识别为target=0了)：

Flag output fields are straightforward; hits correspond to true values.
For Set output fields, the first value in the set defines a hit.

你说的"部署可以在那个金色的结果上选择generate"，能够生成rule set(似乎和决策树没有不同）和filter
node（是否只用于减少数据变量加快速度用），具体怎么交付给用户呢？我记得clustering还是神经网络可以导出C代码，如决策树节点是否只能存在stream里，让user来运行clementine或者用runtime?
.nod节点文件或者supernode有用么？

我所学的专业是数据挖掘，很快要加入一个生产项目（搞不好只有我一个人），所以和你这样的讨论真是太必要了.觉得你对Clementine好熟啊！我也看过Apriori
expert选项卡里那些measure,但是从来没用过所以印象不深

那么里面的confidence差异，information difference和chi square这几种用的多吗？

还有一个问题，有点远了，前久正好看了一些论文，Bing Liu，和 Ke
Wang的,关于用关联规则（而非纯分类算法）挖掘客户价值之类，你觉得类似的东西有可能在Clementine里实现吗？现成node1似乎是没有的，Bing
Liu所说的"多个min supp,多个 min conf"似乎倒是可以把变量分几个区，或者只计算有关变量，

决策树节点都有cost配合Evaluation节点输出lift等好几个指标，部署可以在那个金色的结果上选择generate
1.1 有些modeling节点在建树过程中可交互式观察lift等输出，以决定裁减
1.2 C5不提供交互式裁减，cost可以决定按成本裁减

2 关联规则的各个指标都有其局限性，最好根据数据分布特征选择合适的
1.1 韩家炜的书上有一些极端的例子，你可以参考比对自家的数据分布
1.2 Apriori的expert有一些备选的evaluation measure，h

高度不均衡的数据，待预测的目标类所占比例很少（BingLiu, PhilipYu)：
Highly imbalanced class distribution of the data,it is often too hard to accurately predict the cases of minority classes, A commonly used approach is to increase the number of cases (or records) of the minority classes by over-sampling with replacement [e.g., 7, 23].但无法排序，imbalanced data is not a problem if the classification system is made to output a confidence factor (or probability estimate) rather than a definite class。还可用积分来比较lift段，防扭曲：lift指数=1xn1+0.9xn2+..../T,10个decile则=55%，收敛于0.5。如目标都落在第一个decile（最理想），则lift index=1

single minsup is inadequate for our application, a single minconf also causes
problems. For example, in a database, it is known that only 5% of the people are buyers
and 95% are non-buyers. If we set the minconf at 96%, we may not be able to find any rule
of the buyer class because it is unlikely that the database contains reliable rules of the
buyer class with such a high confidenc

You can split a processing sequence into several streams that feed one into the other. The first stream, for example, creates a data file that the second uses as input. The second creates a file that the third uses as input, and so on. You can manage these multiple streams by saving them in a project. A project provides organization for multiple streams and their output. However, a project file contains only a reference to the objects it contains, and you will still have multiple stream files to manage.
A more streamlined alternative when working with complex stream processes is to create a SuperNode

Feature selection: maximum number of categories As a percentage of records: 95%. This means don't have too many categories

Maximum percentage of records within a Single category

最小coefficient: 0.1,再小则屏蔽。 CE=standard deviation/mean
最小标准差：0
Use partitioned data. 如果选中，训练模型时只使用train partition。

太多不具重要性的小类别可以合并为一个“其他”

transpose:行列互换节点

SLRM可以继续训练现有模型

.STR文件就是zip文件，里面是xml

*****
3种客户细分：基于消费额度，基于年龄等指标，基于行为
可以用聚类，得到每个群的特征，并用文字描述
参见http://www.huaat.com/download/xiaobin/liu_diversity.pdf

觉得你可以把不能预测出来的确定流失的客户拿出来分析，看看有什么特征因素你没有发现出来，或表达方式有问题。这是一个很有效的手段。

另，挖掘预测准确率很依赖于数据准确性。

测试数据是中离网客户的比率只有1.78%。训练集中的将离网客户比率放大到20%。

**************

华院公司的一些pdf不错

**********

解决问题的方法是保留所有的这200个流失客户，再在其余那19800个忠实客户里随机抽取800个客户。这样一来就组成了一个有1000个客户的数据集，流失率是20%。（一般来说20%~30%能达到较好的效果）
DOC]抽样方法比较
分层是根据若干个变量若干个值在POPULATION里面的比例抽取，过度是保留某变量某值的所有记录其余随机抽取，两者类似却不同。

它可以将一个内部变异很大的总体分成一些内部变异较小的层（次总体）。

每一层内个体变异越小越好，层间变异则越大越好。

要解释MOSAIC UK要先介绍UK的邮政编码。UK的邮政编码分为两部分，比如说M28 1LR。第一部分是城市区域信息，例子中M代表Manchester。第二部分是具体的街道信息。UK的POSTCODE分得很细，一般地说每个POSTCODE里面只有15户人家/单位，所以有了POSTCODE就能基本确定客户所处的区域。

在同一/临近区域居住的人群一般都有相似的特征，如职业，财政情况等等，这些同一区域里居住的相似背景的人有着相似的消费的习惯。Experian 公司因此开发了MOSAIC码，把英国人口根据居住区域（POSTCODE）编入了 1X 大类 5X 小类的人群里面。这套编码是建立在Experian公司尽可能符合事实的数据收集和专业的分析（Data Mining）的基础上，且定期更新以求与客户消费心理趋势的变化保持一致。结果包括类内人群的收入水平、教育程度、职业、电视收看倾向、报纸阅读倾向，等等。B2C公司可以根据MOSAIC码的分类确定对特定的区域制定适合于当地的营销策略。现在MOSAIC 码已经成了英国各B2C公司的必备客户细分工具之一，它既可以作为区域划分的单一标准，也可以作为一个变量（predictor variable）成为模型的一部分。

MOSAIC码是建立在消费者个体的基础上，对B2C市场有比较明显的指导意义，不过它对B2B市场的划分则没什么POWER。不过Experian公司已经意识到了这一点，并因此开发出了Commercial MOSAIC UK（商业MOSAIC码）。http://www.uk.experian.com/business/products/data/248.html

Consumer MOSAIC 系统的输入变量只需要一个变量：POSTCODE。而Commercial MOSAIC UK则要用到六个输入变量，如公司雇员数量，公司类型和消费者MOSAIC码等等。同样，UK市场上的企业无论大小可以被归到Commercial MOSAIC码里那1X大类5X小类里面。

对于整个市场Commercial MOSAIC码能提供一般性的划分，但它不具有针对某一行业某一产品的划分功能，这与完全基于公司自身数据建立的模型的效果肯定是会差一点的。这时候就要比较购买系统和自己开发模型的投入产出了。值得一提的是，若把它作为自开发模型的其中一个输入变量，模型的效果一般都会有一定的提高。
、最常发现的知识

1、广义型知识(Generalization)

根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识

2、分类型知识(Classification &Clustering)

反映同类事物共同性质的特征型知识和不同事物之间差异型特征知识

3、关联型知识(Association)

反映一个事件和其它事件之间依赖或关联的知识

4、预测型知识(Prediction)

通过时间序列型数据，由历史和当前的情况去预测未来的情况

***********************

cart always split 2 branches
相关性和因果关系之间是否有着必然的联系呢？
比方说，两个变量之间（或者说两个指标之间）是不相关的，那么我们是否可以说这两个变量之间一定不存在因果关系呢？
比方说如果考虑一种“传染病 ”与 “人均收入” 这两个指标，如我们可以得到“传染病 ”与 “人均收入” 这两个指标不相关，那么我们是否可以说这种“传染病 ”与“人均收入” 没有关系，即人均收入高低并不能影响传染病的爆发。

--------------------------------------------------------------------------------

ququhk2004-03-17, 10:17
相关性与因果的关系要看分析的时点,相关性通常看的是同一时点/段的关系,因果则有前后关系.这与分析问题的目的有关.用你的例子,今天的“传染病 ”发病率与今天的“人均收入”无关,但可能和昨天的收入有关,而今天的收入的效果可能要体现在明天的“传染病 ”发病率上.同时,还有一种可能,就是“传染病 ”发病率与 “人均收入”无关,但“人均收入”在和其他因素共同作用后又能够解释“传染病 ”了.再或者做简单相关分析,“传染病 ”发病率与 “人均收入”无关,但它们之间的相关性可能是非线性的,简单相关分析做不出来,但是实际上还是有关系的.综上,不能简单地讲相关性和因果关系之间是否有着必然的联系,具体问题具体分析吧.

孤独一条狼加我的ghostgcg@hotmail.com
我看你分析问题头头是道

不过咱家是作东西条理分明我跟你多学两手不会把你卖了像我得手下一样
银行业CRM相关的数据挖掘和商业规则制定的吗？可以与我联系，我的Email：funnyfang@sina.com，MSN：funnyfang@hotmail.com

苦于如何进行数据准备,比如各种话费是采用占总体的比例值还是采用实际值,各种模型需要提供什么类型的输入

其中处理异常值和奇异点的方法是用分位数去截断分布两边的数据，在sas中可以写macro函数来实现

telco dm:除了经典的流失、细分、价值、信用、欺诈分析外交叉销售、上行销售

现有北美电力市场98年4月到2003年4，每天24小时的供电QUATITY和PRICE ，每个时段对应一对数据，就是价格和供给量各365*24*5个数据（有点怕怕：）

最终要做 CVar（credit value at disk）分析，椐导师说，要通过分析数据，分析出价格中人为的因素，比如人为炒作导致价格的变动啊，什么的。目前，只用SAS做了一些直方图，回归分析，就不知道再怎么进行下去了，哪位高手可以提供一些指点:可以用运平稳时间序列看看，这个数据不算大，有兴趣发给我看看

cjove@21cn.com,有空大家可以一起讨论讨论

caumint2004-08-27, 21:02
咨询了下SPSS公司，好家伙，publisher要60万，还不包括clementine
用不起啊
哪位好心的能提供下载阿，哪怕只能用几个月都行

--------------------------------------------------------------------------------

挖挖人2004-09-02, 15:11
我这里有的 qq：64049876
flash_sy@hotmail.com

么多的前端展示工具中，有哪些是可以免费下载

brio bo cognos sass
都可以我在地摊上看到过四者的盗版

家好,我从事电力数据挖掘已有2年时间,算法研究了不少,但苦于没有实用的数据,所以没有太大的成果出来。哪位仁兄有这方面兴趣，欢迎与我探讨，我的qq：58420473。邮箱：liuyuuu@sina.com

些变量的数值跨度较大，不利于进行快速聚类分析。但是我的样本数又太大，将近200个，不好用其他聚类方法。不知道有哪位高人能为在下指点一二！感激不尽！感激不尽！

--------------------------------------------------------------------------------

孤独一狼2004-05-27, 22:00
何为快速聚类？样本太大，200个是什么意思？

--------------------------------------------------------------------------------

qkaiwei2004-05-30, 11:30
在使用proc fastclus过程之前，先使用proc standard过程

SAS Enterprise Miner (详细目录还不清楚)
IBM Intelligent Miner For Data 8.1
(Included IM Visualization,IM Scoring PMML Conversion)
IBM Intelligent Miner Scoring 8.1
SPSS Clementine 8
Oracle Darwin(这个好像不要钱，但我还没在9i里找到)

性能比较资料我拿到了，但是不知道价格，请不吝赐教，a lot thx !

--------------------------------------------------------------------------------

Daniel-H2004-03-26, 11:55
楼上仁兄，另外还有两个DM工具不错，若你有兴趣，可来信，它们是：Unica Affinium Model和Insightful Miner（IMiner）。

若可以，可否将其它几个工具的性能比较资料给我看看？

dw_huang@yahoo.com.

或给我电话：021－64692081 黄典伟

--------------------------------------------------------------------------------

hardwood2004-03-27, 01:51
clementine单用户单CPU现在可能报四十多万吧，开始时7.0报60万

--------------------------------------------------------------------------------

repou2004-03-29, 23:14
一个OLAP工具，公开报价都是一百多万，你说的是公开报价吗？

clem8 new node:Neural Connection 2.1

传统的用户离网预测方法都是针对用户信息、消费行为等数据,通过数据挖掘的方法进行预测.为此,在分析移动用户离网原因的基础上提出了一种基于营销策略的用户离网预测模型(CPMP:Churn Prediction based on Market Plan).该模型针对用户主动离网的主要原因是其他运营商推出新的营销策略这一事实,通过比较用户在不同营销策略下可能发生的行为,进而预测用户离网的可能性.实验结果表明,基于CPMP模型对不同营销方案比较所得出差异,直接影响用户离网率.通过对营销策略的对比分析,可有效控制

我们津津乐道于这个显著的lift，大家齐称赞模型多牛比。不过大家忘了一点，业务人员从来不会傻逼到随机地抽取一批号码，去赌其中有多少离网的。多少，他们会动动脑子，从感觉出发。比如，有可能消费太低的容易离网，那好，将月消费小于30块的挑出来。也可能是连续三个月消费消费突降的容易离网，那好，将前两个月平均消费在80以上，最近一个月跌破20的挑出来。这样的猜测大多比随机要准一些，按照这些条件，假设挑选出有1万个用户，其中真的有 800个离网，那么命中率也就是8％了。

如果用模型的命中率跟这个业务猜测的命中率相比，lift确实还多了一点点，2％。只多了一点点？也许说这是微不足道的有点不厚道，因为大家知道有时候即便是提高一点点也得费老鼻子力气。不过不要忘了业务上还有其他关注点。一方面是希望你能够准一点，这通过lift能够证明。另一方面，假如总共 1000个目标，你能够找出多少出来？全找出来就算你狠，这一般用查全率来表示。

从查全这个角度，按照前面的数据，业务猜测找到800个，预测模型找到100个，显然是前者狠一点。也许，你会说，我可以将预测模型的打分放宽一点，也能找到800个目标，但那样，命中率恐怕就不及10％，甚至不及8％。命中率跟查全率俩兄弟常常是一个吃饱了，另一个就得饿肚子。

当然，上面的数字是我随口诌出来的，没有什么根据，只是为了说明方便。如果那个业务猜测真的能够达到那样的效果，所谓模型到真的不必，虽然有时候所谓的"猜测"是知道了模型的结论之后作出的。挖掘模型号称是从海量数据里面发掘知识，所谓知识，也就是规则。因此，掌握了这个知识的人，当然可以"猜测 "。这里涉及到一个将模型转换为知识的过程，且不说。

如果我们将模型当作一个大学生，将知识当作一个有业务经验的人，将什么都没有，没知识，没文化，没道德的人当作白痴。

可以这么说，现在的lift计算方法，大学生的预测能力除以白痴的预测能力。

又看到Qing的旧作，读起来比以前有了更多的体会。

http://groups.google.com/group/ttnn/b ... d/thread/93803de41a525bdb）

"
于是，lift等于10％除以3％，提升了 3倍。

我们津津乐道于这个显著的lift，大家齐称赞模型多牛比。不过大家忘了一点，业务人员从来不会傻逼到随机地抽取一批号码，去赌其中有多少离网的。多少，他们会动动脑子，从感觉出发。比如，有可能消费太低的容易离网，那好，将月消费小于30块的
如果我们将模型当作一个大学生，将知识当作一个有业务经验的人，将什么都没有，没知识，没文化，没道德的人当作白痴。

可以这么说，现在的lift计算方法，大学生的预测能力除以白痴的预测能力。

惭不惭愧呢？惭愧。有本事去跟业务经验比嘛，干吗欺负白痴。整天叫嚣者我比白痴提升3倍，真的有点惭愧。
"

HCI新境界：文化适应软件

语言本地化的问题解决以后，软件的国际化还有一个文化差异的问题。人工解决是很贵而且难以全面有效覆盖的。这位高产研究者的下文值得一看：
http://www.ifi.uzh.ch/ddis/publications/

Culturally Adaptive Software: Moving Beyond
Internationalization

Katharina Reinecke and Abraham Bernstein
Department of Informatics, University of Zurich,
Binzmühlestrasse 14, CH-8050 Zurich, Switzerland
{reinecke, bernstein}@ifi.unizh.ch

Abstract.
So far, culture has played a minor role in the design of software. Our
experience with imbuto, a program designed for Rwandan agricultural advisors,
has shown that cultural adaptation increased efficiency, but was extremely
time-consuming and, thus, prohibitively expensive. In order to bridge the gap
between cost-savings on one hand, and international usability on the other, this
paper promotes the idea of culturally adaptive software. In contrast to manual
localization, adaptive software is able to acquire details about an individual's
cultural identity during use. Combining insights from the related fields
international usability, user modeling and user interface adaptation, we show
how research findings can be exploited for an integrated approach to
automatically adapt software to the user's cultural frame.

Saturday, June 14, 2008

应该做的几件事：

开发一个强大的英译中软件/系统，单向免费使用，中译英收费

或者组织翻译所有论文，新闻，免费供公民阅读

或者赶快把外汇储备投资于国内教育，法制，农业等领域。

Thursday, June 12, 2008

why automate trade?

mt4 programming

electric a.

financial marking cost

bo william trading cost

3:1 gain/risk control(3$ on buying 50:50, 1$ on lose, gain/risk 3:1)

Only two shapes that compose the actual curve, upward and downward fraction
特别是交易所里，抛洒纸片为了什么呢？？？
提问者：温富龙Darren - 助理三级
最佳答案
早期的交易所，包括证券交易所和期货交易所，都采用喊价交易的方式进行交易。因为喊价交易的气氛非常活跃，容易激发交易员的情绪，所以目前很多国外的交易所仍然采取这种质朴的交易形式。

在场内（交易池）喊价的都是交易员，他们接受客户（投资者）的交易指令或自己下单交易，而投资者是不能直接进场的。所以场外的投资者只有用电话或指令单的方式和场内的交易员联系，大一些的客户有直播电话和自己的交易员联系，一般的客户就只有手写指令单了。

在场内外传送指令单的称为“跑单员”，他们将场外客户的指令单传递到交易员手中，成交后再将记录成交结果的回单传回场外客户手中。场内交易员手中的纸片就是场外传进来的指令单和电话接单的记录单，当一个交易指令被执行后（或撤单），手中的单子就没用了，因此就扔掉，因为手里不可能攥着一大把单子的。

当交易员为自己的交易结果感到兴奋时（比如盈利很多），往往用抛纸条来表达心情，就像人们欢呼时向空中抛帽子一样，而且这也是允许的。
参考资料：http://zhidao.baidu.com/question/50584030.html
回答者：小小老渔夫 - 大魔导师十二级 5-22 18:31
提问者对于答案的评价：
谢谢你的答案！！！
我很满意！！！

红马甲是券商,黄马甲是交易所的工作人员
回答者：supersunb5 - 秀才三级 12-28 17:37
在证券交易所里，一线柜台员工穿的是黑色马甲，交易所交易员穿的是红色马甲，交易所管理人员穿的是黄色马甲。

红马甲是券商的交易员，黄马甲是交易所的工作人员，当年这么设计并不符合国际惯例，是具有中国特色的红黄马甲制度。其实，红黄马甲的产生是一种误会和巧合，从他们产生的巧合能看出当年筹备交易所时中国金融发展的稚嫩。

当时因为上海证券交易所大厅的色彩为冷色调，如果交易人员穿红色，那么整个市场的色彩比较鲜艳，气氛就显得比较有活力。结果负责服装的同志去买布做马甲的时候，看黄颜色比红颜色好，就自己擅自决定买了黄布。

但是黄布并不符合要求，只好重新买红布去做。到交易所开业的时候，因为已经做了几件黄马甲，因此临时决定交易所人员穿黄马甲。一次错误的购买后为了节省原料，才产生了后来的红黄马甲。所以全世界的证券交易所里，只有中国有红黄马甲之分。

股票市场里穿着马褂坐得整整齐齐的人是做什么的？
提问者： niniao - 试用期一级
最佳答案
那个不是马褂，是马甲。马褂是说相声的穿的那种。

一般机构投资者会在股票交易大厅中租用自己的专用席位，以前互联网不够发达的时候，这些人通过接听电话和现场撮合交易，通报信息。现在网络发达了，大多数场内红马甲已经成为了有些象征意义的角色，也远比以前清闲了。

证券交易所有席位的操盘手~~~`一般为有资金的机构

附加告诉点: 买了席位后不能退, 只能转让~~~~
回答者：martin4528 - 经理四级 7-6 04:45
1。交易员。非操盘手。
回答者：兽护者 - 同进士出身七级 7-6 08:50
听唱戏的 .
回答者：zhongwei030 - 经理五级 7-6 13:25
交易员。
你买卖的股票不能在证券交易所直接交易，必须委托证券公司买卖。证券交易所指定证券公司的交易席位，证券公司派出交易员在证券交易所指定的证券公司交易席位上进行交易

Wednesday, June 11, 2008

Myra Hindley:我愿意被催眠

狱方的态度：可以出钱，但无法承担可能带来的injury。。最后由于各种原因（Hindley催眠前从楼梯上摔下来）而没有实行

11000

电影《双雄》里，有这样一个镜头，小偷对警察说几句话，结果警察受催眠变成大盗。类似这种被神化的演绎，总让人对催眠术产生又好奇又害怕的心理。其实，真正的催眠远不及传说轻松，催眠师也并非无所不能。本期，周刊记者特请本市三位催眠大师：复旦大学心理研究中心主任孙时进教授，市心理咨询中心陶明毅和薛伟医师，揭开催眠的真相。

　　A亲历催眠术　过程令人不可思议

　　在复旦校园，流传着种种关于孙时进教授的传说，例如，他在课堂上当众对一学生催眠，整个人踩在他身上，学生却丝毫不感觉疼。

　　抱着这种将信将疑、内心又隐约怀着一丝恐惧的态度，周一上午，记者一行三人敲开了孙时进家的门。聊过半小时后，我们提出能否让我们当场试验被催眠的效果。他看了看，觉得很难判断我们中到底谁更容易被催眠，于是，两个男孩子被挑出做试验品。

　　首先，要做一个往后倒的测试。被测者背对孙，他一拍手，就往后倒。第一次，同伴A脚往后退了一步，数次以后，他可以放心直往后倒了，于是，测验过关。据了解，这是用来测验信任度的，所有成功的催眠，被施者首先要对催眠师有足够的信任。

　　两人坐回沙发，孙掏出一只手机，要他们放松地看着它，什么都不想，听他说，如果看不清，就让它逐渐模糊；从1数到10，眼睛越来越模糊，等他一数10，就眼皮粘在一起，往后倒。自始至终，孙一直在旁喃喃地说着类似的话，一直暗示他们杂念要越来越少。一数到10时，两人刷刷地往后倒了。

　　孙继续暗示他们，身体越来越舒服了，周围空气非常清新，想象一片平静的湖水，碧绿的草坪，静静的月光。同时，不时在他们头上以及两眉间的几个穴位按一按。

　　随后，孙挑选同伴A，要求他身体硬得像木板一样，腿也硬得像块板。果然，同伴A像根直木头，被孙推倒在地上了。孙分别在头、腰、脚处往上提了提同伴A，他还是全身僵硬得像块木头。

　　接着，孙拉起同伴A胳膊，要他绻起来，小臂贴紧大臂，同时暗示他：“力气很大，一点都不吃力，收紧，收紧！”等他两只手臂绻好，孙就拎着他两只手臂，往上提，放下，再往上提，而同伴A如健身器一样，被他拎来拎去，浑身毫无变化，旁观者觉得不可思议，忍不住偷笑。

　　这个实验还没完，但到这里差不多可以算有结果了。记者看了下表，整个过程历时10分钟左右，期间孙一直絮絮不断要他们放松身心。事后同伴A认为，他没有被催眠，但有一两分钟，他真的头脑中一片空白，什么也没想。

　　次日，遇到陶明毅医生，他认为这个催眠太简短了，又是在陌生人身上试验，效果通常不太会理想。

　　B见证催眠术　两三个月治好心病

　　在陶明毅的催眠治疗室里，记者见证了另一场催眠。患者的头只能左转，而且始终觉得疼，但医生分析，她所患的也许是种“癔症性斜颈”，因为一些心理障碍，才转换为躯体的疼痛。

　　陶取出口袋里的钢笔，让患者注视它，同时暗示她放松，渐渐地，她眼皮沉重起来，合上了。十多分钟后，他开始从患者的左前方移到右前方，并要求患者捕捉着他的声音转头，患者的头逐渐移到了右边，而且也没有叫疼。一小时后，患者可以下床走动，头保持直立。

　　陶明毅表示，这样的催眠通常需要做一整天，而且一个病人通常要做2至3个月，才会有效果。否则，短时间内效果挺理想，但时间一长，患者又会回复原状。

　　就在上个星期，他刚治好了一位气功妄想症患者，两三个月治疗下来，他再也没有出现幻想镜头。

　　C盘点催眠术　方法多种因人而异

　　催眠有许多种方法，常见的是用一些物体让对方注视，但是声音、图片、气味等各种手段其实都能加入进来。有时候，催眠甚至可以把多媒体技术用上，丰富的形象、画面一起活动起来，效果常常更理想。

　　薛伟指出，其实哪种催眠手段更有效是因人而异的，一些人对文字更敏感，一些人也许嗅觉更灵敏，在正式的催眠前，双方常常要经过详细的沟通，了解被施者的心理、喜好等。

　　催眠可治失眠等病

　　在催眠学界，有个普遍的共识：催眠作为治疗手段之一，在短期内可能非常有效，但如果做心理治疗，要实现人格成长，则不是最好的方法。

　　比方说，孩子咬手指甲，用催眠手段告诉她这是不对的，帮她改掉这一毛病，也许她一生都不会再犯；对一些顽劣的孩子催眠帮助他学习，他的成绩可能会好到让人惊讶。另外，催眠还可帮助解决一些生理疾病，例如治哮喘或镇痛，这样的病人，孙时进曾成功地做过许多起。

　　在临床心理治疗中，催眠还可治疗如焦虑症、轻中度抑郁症、行为偏差、失眠症等疾病，比较直接有效，但不是所有人都适合，一个前提是，病人的认知必须是可以改变的，这样才能用催眠暗示。一些因为文化或社会伦理而导致的心理障碍，常常让催眠师头痛不已。

　　而且催眠有些禁忌症，如对严重心脏病、严重肺病等危险性疾病患者不建议做催眠，一旦出现意外，会因很难追究责任而产生纠纷。

　　各大心理学流派，从弗洛伊德开始，对催眠很感兴趣，或者说，心理分析就是从催眠开始的，但是无一例外的是，大师最后都对此持怀疑、失望的态度。现在，业内普遍认为，催眠只能作为一个技巧性很强的技术，如果涉及到治疗，一定要掌握心理分析、治疗的基本知识，换句话说，只能把它作为手段之一，而非心理治疗的“万金油”。

　　心无戒备易被催眠

　　虽然催眠用了许多年，但对它的研究还未成为系统的科学，许多问题至今还是个谜团，例如：哪些人更容易被催眠？催眠的机理是什么？催眠后的感觉有什么规律？

　　孙时进研究发现，约有10％的人能进入很深的催眠状态，有10％左右的人很难进入催眠状态。总体来说，孩子更易被催眠。但问题是，许多人产生了催眠的效果，但并未意识到自己已经被催眠，相反，他常坚信自己是清醒的，他所看到的一切幻想都是真实的。

　　孙时进描述他自己被催眠的体验是，开始很难被催眠，因为在别人暗示的时候，他会忍不住想，这个手法不规范，那个细节好象不对。后来他领悟了，一直批判、审视，头脑就难免保持清醒和独立。把自己当作一张白纸，完全交给对方，任他作为，这样就可以渐渐进入催眠状态。

　　薛伟认为，催眠成功与否，取决两个因素，一是被施者敏感性的强与弱，再则就是双方信任关系的建立，被施者必须持完全配合的态度，如果心存防备，就很容易失败，除非催眠师技巧特别高超。

　　催眠术有神奇作用

　　因为有个“眠”字，很多人以为，催眠就是让自己睡觉。事实上，在实际催眠中，进入睡眠状态的极少，这只是催眠时出现的一种特殊的意识状态。很多人被催眠后，他甚至可以和你睁着眼说话，但你能让他产生幻觉。

　　孙时进曾经做过这样一个实验，对一位博士催眠，告诉他没有“3”这个概念，结果在催眠状态下，问他“1＋2等于多少”，他一片茫然。有时，被施者可能头脑很清楚，但他会丧失部分意识，例如痛感，问题是，催眠师在施法前，常常自己也无法预见对方到底会丧失哪部分感觉。

　　甚至有时会出现这样的情况，他对你进行深度催眠，让你明天下午3点一定要来他家。清醒后，你会忘记此事，但明天下午3点，你会准时来敲他家门，当然你有着各种各样看似合理的借口。事实是，他的催眠指令已进入了你的下意识，让你觉得只有这样做了才会心理舒坦。只是作为当事人，你一定不愿承认自己是被催眠的结果。

　　更有趣的是，在催眠师仅对心理进行暗示的情况下，被施者的生理也会出现一些相应的改变。催眠一个人，给他喝杯白水，告诉他这是甜的，结果在他醒后，测他体内血糖，发现真升高了。而他也许会坚信自己喝的就是糖水。

　　催眠＝对人的控制？

　　催眠是一种被控制、类似梦游的状态。真正要达到控制状态，要借助药物催眠。但这在业界，被认为是一种邪恶的行为。

　　一般来说，催眠分两种，父式催眠和母式催眠。前者用命令的方式，催眠师本人常常是严厉的，具有高度的权威性。这种方法争议最大，因为他会涉及对另一个人的控制，但从另一个角度看，他的效果却是最有效的，因为人性中的软弱，使人往往倾向于寻找救世主，而父式催眠师无疑正扮演着这一角色。

　　母式催眠相对民主、温和许多，在催眠时，以一种劝慰方式让对方慢慢接受。让被施者认识到人自身的力量，对人格的成长是有益的。然而，也正因为它的温和，效果常比前者差一些。

　　孰是孰非单从技术角度，还很难有定论。但鉴于催眠能改变人的观念，产生重大影响，三位专家一致认为，催眠不能有控制人的嫌疑，在催眠过程中，催眠师要保持中立，不能灌输是非对错观念，应该让他自己选择，认清事实。　　

行业规范亟待加强

　　像陶明毅这种催眠师，已在临床中操作十多年，但目前本地尚未有详细的资格认定，他戏称自己“号称是催眠师”。除了一些从海外学成回国的专业博士外，许多人是由本土催眠师培训班教授出来的。业内人士透露，本地的催眠师屈指可数。既然不成气候，专门的规范也就没有。目前，只能把催眠作为心理治疗手段之一，用心理治疗行业的规则来规范它，具体如何操作很难界定。

　　据了解，国外常常通过一些催眠行业协会，来规范催眠师的操作过程。为了确保安全，催眠师甚至不能和被施者共处一室，只能通过话筒来遥控。

Sunday, June 08, 2008

思维导图，鱼骨图，莲花图

发现思维导图用于组织思路，还是很不错哦

顺便回忆起我的考研经历

EU法律:不能marry ex-mother in law,故：可asylum based on 表亲

MP Wooles
M Public affair
ASgher Bukhari
奇怪无关
ignoring links pullution and birth defect

http://www.exploratree.org.uk/app/?document_id=976&permission_id=template （莲花图，问题解决）

鱼骨图（很好），六顶思考帽

mind genius software brain teaser.

what canyou do with paperclip? draw a circle.

de Bono (master of creativity thinking): how to shorten people's park time? 奇/偶车牌？日内瓦人人有两个车
答案1：停车必须打大灯。。。

THINK OUT SIDEｏｆ　ＢＯＸ

三排九个点，如何４笔不抬出纸都连起来？

必须连出点外

一个人走进酒吧要水，酒保拿出枪，指着他。此人说"谢谢"，然后走了。。。

什么噪音要用水来解决？？

咳嗽？还是？？

It doesn't seem to be too copyright

Sunday, June 01, 2008

最有见地的党史分析辩论温相

实在是博古通今，很多分析十分有价值。

太长了，这里无法转载，请诸君移步飞扬军事 -> 温相专栏之党史风云 -> 【原创】毛泽东晚年的宠臣们－－肃反专家康生（上）

还是忍不住贴一段（和该论题关系不大）八卦,看完他们讨论的正题后，对于这个温相不屑讨论的花边，我确认！以前其他渠道虽然说过华的身世，但都没有这么深入，翔实地讨论过毛泽东有关的政治细节问题。

“至于说到毛泽东晚年为啥最后没有把权交给四人帮而交给华国锋，个中理由不说也罢，再说这层窗户纸桶破了对他老人家的千秋名节也实在没啥好处"

毛泽东晚年错误掩盖的论调中最为常见的就是提出所谓的毛泽东时代的基本建设问题，实际上呢？ a1Iqq6?
T00Q4 -b
我们不妨来看看，我先给一组数字，新中国成立到十一届三中全会召开之前，我国全部基本建设总投资是6500亿元，而大跃进直接损失是1200亿元，文革十年直接损失是5000亿元。大跃进和文革加在一起的损失一共高达6200亿元，和总投资基本相当，崇毛者经常念兹在兹的毛泽东时代的基本建设还有啥值得吹嘘的？

温相 2005-12-31 06:00
说的再彻底一点，中国共产党和中国人民没有任何地方对不起毛泽东及其后人的，试想一下，世界上有哪一个国家对一个给国家民族造成6200亿元直接经济损失、导致将近4000万人非正常死亡的领袖还能如此的长久的怀念呢？ wlQ?f^)6{%
fz+NE*S
不要跟我说毛泽东发动这两场运动的初衷如何如何的善意，请问再善意的初衷导致这样的结果，谁能理解？怎么理解？用一句初衷是好的就能解释这6200亿的损失？

首先感谢温相找了那么多资料，也解了我一些惑，李讷晚年就这么过也不错。 Np3'<zr
关于李讷文革初的表现看过些资料，不过刘家和毛家都和解了，http://news.sohu.com/20041010/n222410538.shtml，我想我们应该学习王光美、刘源同志才对，没必要对她穷追猛打。文革后连小谢、迟群都被保护过关，没有深究，那根据小谢一句话就判定她对那篇文章做了如何认真的修改，用心何其不良则证明力不足。所谓李讷同志正在修改文章一话解释成对江清的教条式回答也无不妥。据我了解李讷有奉子成婚之嫌，为此和江清关系也变坏了。那么她不见江清，而小谢用李讷正在修改文件之类说法回答江清很合理，小谢应该知道疏不间亲的道理。而李讷在修改中到底表现如何小谢如何清楚？ %#abtX:d
而王江二人送文章一事《建国后毛泽东文稿》一书就有记载，如温相兄所列的资料就说明了江清对此事才负有第一位责任，周恩来年谱中也是说明这个问题，可没说李讷起了多大作用。 8A*IHpY
关于破坏，我可以举出一大堆例子说明这二十多年的失误，比如1985年我国进行过第二次工业普查，普查的数字显示在整个工业里面，中国自己提供的机器装备占全部工业设备比例的82.1％。这样的数字说明，中国基本上掌握了第二次工业革命的核心技术，主要依据和体现就是中国初步实现了装备技术的国产化，新工厂建设所需资本货物不再依赖进口，由此可以认定中国走完了西方第二次工业革命和第一次工业革命的全部里程。这个进程和贡献是毛时代打下来的，而不是邓小平复出后八年的结果，可以后呢？一九九五年第三次工业普查的时候，中国工业装备的47.1％是进口的，换言之，十年投产的新工厂主要是依靠买洋设备。从前中国人民勒紧裤带建设起来的装备工业，不仅在第三次工业革命中间得不到新的扶持和投资，而且由于政策主导方向的错误，装备工业在国内的市场份额都丧失了，不仅没有向前发展的空间，而且丧失了生存能力。 zn7]-.J5
我还可以举出例子说明中国的血汗工厂有多少，资本外流有多少，环境破坏有多厉害。列宁说“你有一千条理由支持一件事，我就可以找出一千零一个例子来反驳”，但历史进步与否关键在于抓主流，抓主要矛盾。 c"?)HQ R
能简单用以上我举的例子就把改革给一举否定吗？显然不合适，所以批毛也不要停留在罗列事实的层面上。毛泽东上台后主要精力放在解决中国国家安全问题上，包括他经济发展上的很多失误都和这有关。搞三线似乎是瞎折腾，可那是为了备战。某些事看来效益差，可是有深层原因。他虽然好大喜功，可在三峡问题上也没冒进，可见他也是得遵循客观性的。而他主观主义过头的地方可以做为反面教训来指导未来工作

要奢谈什么“从前中国人民勒紧裤带建设起来的装备工业”吗？我国人民建国三十年的埋头苦干辛辛苦苦的建设的结果被一场文革都给败光了，李先念的讲话中关于文革直接经济损失5000亿元比较全部固定资产投资还要大一块的结果，不知道你看后做何感想？ 4mb}B5i
zdej0Ghh/
真所谓“辛辛苦苦三十年，一夜回到解放前”。 ^D 0jW"
Y |pq]3
改革开放尽管出现一些曲折和不足，但是，它一举扭转了中国人的肚子问题，扭转了中国人2.258亿文盲半文盲的问题，一句扭转了世界对中国“贫穷、落后”的错误认识的问题，就这三点就足以光照史册、留芳千古！ LRw{RX&3o
q^=OOQ{N
至于你所说的那些问题哪一点可以和毛泽东晚年犯下的巨大错误相比的？

陈伯达说：“江青是文革小组的第一首长，她的女儿（指李讷）······事实上是第二首长。”【注24】 NV|-eW g}
"\lZT!
堂堂中央文革第二首长在文革初期仅仅是活跃吗？ H7vmmren
TuD eJ
【注24】：陈伯达著：《陈伯达遗稿》，天地图书出版公司1998年香港版，109页

京津独骑行10周年（1）

今天和家人聊天，说到英国小孩的gap year，类似游学.虽然中国不流行这个概念，条件也不是很具备，但很多学生也还是会做一些类似的旅游，打工，旅游+打工等事情，也许是青春的一种萌动吧，旅行是成长的方式之一。

想起98年的寒假，故意没有回家过春节（节约回家旅费，想顺便体验一下在外过节，也有要认真学习为开学打好基础的动机，不过那个假期，事后回想过的很充实，和同学相约去打工，走街串楼发商品样品，钻研计算机，随便看看书，去语言学院东门的国营快餐吃非常好吃的牛杂面和卤煮火烧，放上点油炸辣椒，居然吃出了家乡的感觉），然后决定骑车去看海。去哪里呢？天寒地冻的，考虑一下交通，那就是天津了。说好了和隔壁宿舍的小四川一起去。

有一天我们准备好就上路了，大约20分钟以后，同学说他不是很舒服，但是还是坚持骑，说看看再说，大约从北四环骑到通州桥或建国门桥的时候，同学有点不行了，肯定是去不了天津，只好他一个人先回去（依稀记得他也劝我回去，但是我“骑车去看海”的念头，肯定是自小学看“儿童文学”里一篇真事改编而成的两个老师带领中学生骑了几十天的车在暑假去看海起，就生根发芽了），我继续前行。这时有了点悲壮的感觉。

骑到大约通县，大兴的时候，记得路两旁都是绿树，很开阔，有在修路的痕迹，两边工厂和果园不少。之后一路也都很好走，中午可能在路边店停下来吃了半斤饺子，极可能和老板聊了聊，补充了点水。下午的时候感觉有一点累，因为同一个姿势运动了6个小时。。这时候走到了京津交接处的一个古村，照了几张牌坊照片，给我的车拍照留念，然后继续走。快黄昏的时候到了武清，骑乏了，于是站起来蹬，告诉自己说，还有2个小时，加油咯！

天快黑的时候，到了海河大桥也就是天津郊区了。找了个庭院旅社住下，第二天打听着朝城里走，然后去大沽口，看到了胶泥滩，很宽阔的野外，肃杀的场景不提。赫赫，下回分解吧。最后辗转到了天津新港，看到了很多海鸥，舰船，海水不提，但是似乎总是没看到想象中一望无际的大海。那时候是冬天也没有客船出海去山东大连

为福建鼓掌！福建超生、黑户等落户不再跟罚款挂钩

海网5月30日讯（海峡导报驻福州记者杨文）今后，福建省非婚生或超生人口难落户口问题，将可全面获得解决。昨日上午，省公安厅召开新闻发布会对外通报，我省多个部门联合出台重大户籍管理便民利民新政策——— 《关于解决我省历年出生人口未落户问题的意见》，从即日起至10月底专项解决全省历年出生人口未落户问题。　　该政策明确规定，我省今后在对外办理户口登记时，公安机关将不得把交纳社会抚养费作为前置条件，同时严禁对违反计划生育政策的公民进行违规罚款和其他“搭车”收费。 10种情况可办落户手续　　按照此次便民户籍新政策，凡是具备我省户籍的公民，其非婚生或超生人口，以下10种情况可办理落户手续。　

　1、凡提供本人《出生医学证明》和父母《结婚证》的，派出所户籍窗口应当场予以办理落户手续，不得增设任何条件和程序。　

　2、提供本人《出生医学证明》或父母《结婚证》之一，同时提供亲子关系（亲子鉴定书、法院裁决书、司法公证书等）证明材料的，派出所户籍窗口应当场予以办理落户手续；仅提供本人《出生医学证明》或父母《结婚证》之一的，经户籍所在地派出所民警调查核实，报县（市、区）公安机关户政部门核准后，派出所户籍窗口给予办理随父或随母落户手续。

　　3、无法提供本人《出生医学证明》和父母《结婚证》，属于下列情况的，提供相关证明并经民警调查核实，报县（市、区）公安机关户政部门核准后，派出所户籍窗口给予办理落户手续。　　（1）在农村地区（指乡、镇、村辖区）居民户籍所在地所生子女，能够提供村（居）委会出具的情况证明的，给予办理随父或随母户口落户手续。（2）对离开户籍所在地，在外出期间所生子女，回父或母户籍地申报出生户口，能够提供亲子关系证明材料的，给予办理随父或随母户口落户；否则，按非亲属关系办理落户手续。　　（3）父母失踪、死亡、出国，能够提供亲子关系证明材料（父母死亡的可出具村、居委会证明），给予办理随祖父母或外祖父母落户手续；否则，按非亲属关系给予办理随抚养人或监护人落户手续。　　（4）女子携带未成年人与男子以夫妻名义共同生活，该未成年人和女子的户籍身份均无法查明，能够提供现住地村（居）委会出具的情况证明的，对该未成年人按非亲属关系给予办理随该男子落户手续。　

　4、公民在父母离开户籍所在地后出生，因父母没有办理《结婚证》且长期离开户籍所在地，能够提供《出生医学证明》，并经父母补办结婚登记手续后，派出所户籍窗口应当场给予办理落户手续。　

　5、公民在国外境外出生不满5年，父母仍非法滞留在国外境外，本人持我驻外使领馆签发的中华人民共和国有效证件，并从我国开放口岸入境，由国内亲属抚养的，经抚养人或监护人户籍所在地派出所民警调查核实，报县（市、区）公安机关户政部门核准后，派出所户籍窗口给予办理随抚养人或监护人落户手续，并登记为非亲属关系。父母回国后，能够提供亲子关系证明材料的，可办理随父母落户手续。

　　6、公民出生后尚未申报出生户口登记，因父母户口从原户籍地迁往现住地，能够提供父母《结婚证》、本人《出生医学证明》和父母原户籍地派出所出具的未落户证明，父母现户籍地派出所户籍窗口应当场给予办理落户手续；因证件不齐全，现住地派出所又无法调查核实的，应提供亲子关系证明材料，否则，父母现户籍地派出所户籍窗口以非亲属关系给予办理落户手续。　

　7、被抚养弃婴与抚养人共同生活满3年，并已超过5周岁尚未办理收养法律手续的，由村（居）委会出具证明，经派出所民警调查核实，报县（市、区）公安机关户政部门核准，派出所户籍窗口以非亲属关系给予办理落户手续。　

　8、公民申请补办出生户口登记，父母户口在本省但不在同一户内，县（市、区）公安机关户政管理部门通过省级人口信息库核查无重人，给予核准办理落户手续；父母户口一方在本省、一方在省外的，提供省外户口一方户籍地派出所出具的未落户证明，给予核准办理落户手续。

　　9、对寺庙道观、教堂等宗教场所抚养的弃婴，由民政、公安、民族宗教等有关部门抓紧制定办理出生户口登记手续具体规定。　

　10、其他依法应予办理出生户口登记的，要按程序予以办理落户手续。咨询落户问题请拨这些电话　　日前，省公安厅治安总队正式向社会公布了全省市、县、区级公安机关户政咨询服务电话。广大市民在办理户口、居民身份证方面需要咨询有关政策规定以及对基层派出所户籍窗口服务态度的意见和建议，均可通过这些电话向县级公安机关户政部门反映或者咨询。

　　这些咨询服务电话为：

福州市局 0591－87842979

Crypto, data analysis and BI商业智能，数据挖掘和比特币

Sunday, June 29, 2008

挖掘实战经验

Saturday, June 28, 2008

Excel/word基本格式和自动换行

Monday, June 23, 2008

问挖掘客户的问题（from ttnn)

Friday, June 20, 2008

非典型心情随笔

Thursday, June 19, 2008

很好的挖掘讨论和资源站

Wednesday, June 18, 2008

关联规则有效应用于客户细分

Monday, June 16, 2008

Clementine 11使用心得笔记

HCI新境界：文化适应软件

Saturday, June 14, 2008

应该做的几件事：

Thursday, June 12, 2008

why automate trade?

Wednesday, June 11, 2008

Myra Hindley:我愿意被催眠

Sunday, June 08, 2008

思维导图，鱼骨图，莲花图

Sunday, June 01, 2008

最有见地的党史分析辩论温相

京津独骑行10周年（1）

为福建鼓掌！福建超生、黑户等落户不再跟罚款挂钩

About Me

Previous Posts

Archives

Crypto, data analysis and BI商业智能，数据挖掘和比特币

Sunday, June 29, 2008

挖掘实战经验

Saturday, June 28, 2008

Excel/word基本格式和自动换行

Monday, June 23, 2008

问挖掘客户的问题（from ttnn)

Friday, June 20, 2008

非典型心情随笔

Thursday, June 19, 2008

很好的挖掘讨论和资源站

Wednesday, June 18, 2008

关联规则有效应用于客户细分

Monday, June 16, 2008

Clementine 11使用心得笔记

HCI新境界：文化适应软件

Saturday, June 14, 2008

应该做的几件事：

Thursday, June 12, 2008

why automate trade?

Wednesday, June 11, 2008

Myra Hindley:我愿意被催眠

Sunday, June 08, 2008

思维导图，鱼骨图，莲花图

Sunday, June 01, 2008

最有见地的党史分析辩论 温相

京津独骑行10周年（1）

为福建鼓掌！福建超生、黑户等落户不再跟罚款挂钩

About Me

Previous Posts

Archives

最有见地的党史分析辩论温相