我是做JAVA的,最近遇到这样的事情,搞不清楚。有搞过的同学麻烦给解答下。我想问的是实际在企业中做的时候要做的事情,而不是理论。理论看了一大堆,但是不知道如果在企业中要做什么,做出来是什么。
比如,我现在有个数据库,是数据源,里面各种信息。现在确定了需要解决的问题,那么我如何开始做数据挖掘?
比如建立模型,是干嘛的,要做什么工作,用什么工具建,要写代码吗?
整个流程不懂,具体细节,哪些用工具,哪些写代码用工具执行。。
最好是做过这方面的,详细具体的说说 每个环节到底做什么,用什么做,做出什么结果
数据挖掘的主要任务有:
关联分析
两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
聚类分析
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
分类
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
预测
预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。
时序模式
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
偏差分析
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
对用户的年龄和消费水平进行收集
对用户的行为特性进行了解
对用户搜索行为习惯进行观察
对用户信息反馈进行整理
对用户需求和自身优势进行相结合