数据挖掘具体要做什么?

我是做JAVA的,最近遇到这样的事情,搞不清楚。有搞过的同学麻烦给解答下。我想问的是实际在企业中做的时候要做的事情,而不是理论。理论看了一大堆,但是不知道如果在企业中要做什么,做出来是什么。

比如,我现在有个数据库,是数据源,里面各种信息。现在确定了需要解决的问题,那么我如何开始做数据挖掘?

比如建立模型,是干嘛的,要做什么工作,用什么工具建,要写代码吗?

整个流程不懂,具体细节,哪些用工具,哪些写代码用工具执行。。

最好是做过这方面的,详细具体的说说 每个环节到底做什么,用什么做,做出什么结果

数据挖掘是一个很大的方面。你会java,这个很好。可以从weka 这个工具学起来,他是一个java写的工具包。对于一个具体问题,比如,怎么获取测试数据,对于数据怎么预处理,这些weka都有直接的接口。
至于你说的建模,不是一句话可以说清楚,首先你肯定要调查这个领域做得比较好的有哪些方法,然后从中至少选取几种方法,都要实现,做统计,归纳结果,选择符合你数据集的。当然你的数据集合一定要有代表性,就是国际认可的,至于怎么找到这些数据,一般都是比较出名的论文引用的,这些就很可以。用的工具当然有很多,你不能局限于一种方式或者一种工具,不同情况下用不同的工具,根据实际需要选择。比如你要做聚类,你选择一个weka,做神经元,你可能会倾向于matlab,实际情况决定你选择的工具。
流程方面:数据获取------数据预处理-----完成预定的任务 这是一个大概的流程。这一套都可以用weka实现。对于数据挖掘而言,都是80%数据+20%算法,数据很重要,算法其实只是一个测试数据集的作用,这是一点看法,希望对你有帮助。
温馨提示:内容为网友见解,仅供参考
第1个回答  2021-09-17
数据挖掘的用处有很多,在这里我只想从技术和应用两个层面来简单谈谈。

1、从技术层面来说,按照数据挖掘产出的知识可以粗分为两大类:描述型挖掘和预测型挖掘。

描述型挖掘是对现有数据的进一步精炼和归纳,从中抽取中更宏观的反映数 据特征的概念描述。举个例子来说,某家银行有几百万客户,数据仓库中存储了每个客户的人口统计信息、账户信息、交易信息、客服联络信息等详细数据。但是银 行不可能清楚地了解每位客户是什么样的客户,客户的消费模式到底是怎样的?这时一般需要把全体客户进行细分,划分为几个客户群,而且这种划分可以保证具有 相似行为、相似价值的客户会被放入同一个群组中。有了这些客户群,银行就能更容易地发现营销机会并制定营销战略。这个例子中所用的挖掘技术是聚类模型,它 就是一种典型的描述型挖掘。

预测型挖掘,顾名思义,就是建立的挖掘模型具备预测能力。这种预测能力可能包括预测哪些客户下个月会流失,哪些客户对促销活动会积极响应,哪些客户的未来价值会成长以及成长多少等等。预测型挖掘常常对企业运营具有更强的指导作用,从而更快地见效。

2、从应用层面来说,数据挖掘可以应用到很多行业中,包括电信、银行、证券、保险、制造、因特网等等。

抛开具体行业的特定应用不谈,在各个行业中一般都会把数据挖掘应用在客户关系管理(CRM)之中。在CRM中的数据挖掘应用,包括客户细分、客户价值分析、客户获取、客户保持、交叉销售和提升销售等等。此外,信用评分、欺诈侦测和文本挖掘等也是常见的应用。
第2个回答  2020-12-03

数据挖掘的主要任务有:

    关联分析

    两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

    聚类分析

    聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。

    分类

    分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

    预测

    预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。

    时序模式

    时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

    偏差分析

    在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

第3个回答  推荐于2017-09-27

    对用户的年龄和消费水平进行收集

    对用户的行为特性进行了解

    对用户搜索行为习惯进行观察

    对用户信息反馈进行整理

    对用户需求和自身优势进行相结合

第4个回答  2013-07-18
就是将数据经过抽取、转换、加载到数据仓库 然后根据一定的指标分析、挖掘出可用的、有价值东西;
相似回答