数据挖掘的基本流程是什么

如题所述

数据挖掘有很多不同的实施方法,如果只是把数据拉到Excel表格中计算一下,那只是数据分析,不是数据挖掘。本节主要讲解数据挖掘的基本规范流程。CRISP-DM和SEMMA是两种常用的数据挖掘流程。
从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。
步骤(1)信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。
步骤(2)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
步骤(3)数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运营数据挖掘时数据量往往非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。
步骤(4)数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会差强人意。
步骤(5)数据变换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。
步骤(6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。
步骤(7)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。
步骤(8)知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。
数据挖掘过程是一个反复循环的过程,每一个步骤如果没有达到预期目标,都需要回到前面的步骤,重新调整并执行。不是每件数据挖掘的工作都需要这里列出的每一步,例如在某个工作中不存在多个数据源的时候,步骤(2)便可以省略。
步骤(3)数据规约、步骤(4)数据清理、步骤(5)数据变换又合称数据预处理。在数据挖掘中,至少60%的费用可能要花在步骤(1)信息收集阶段,而其中至少60%以上的精力和时间花在了数据预处理过程中。
温馨提示:内容为网友见解,仅供参考
第1个回答  2020-04-30

数据挖掘的主要逻辑流程
数据挖掘的过程可以分成以下 6 个步骤。1. 商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们 要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。2. 数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证 等。这有助于你对...

数据挖掘技术的技术流程
从数据本身来考虑,通常数据挖掘需要有数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示等8个步骤。(1) 信息收集:根据确定的数据分析对象抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至...

数据挖掘标准作业流程,主要分为哪几个步骤
数据挖掘建模的标准流程,同时亦称为跨产业数据挖掘标准作业程序,数据挖掘主要分为商业定义、数据理解、数据预处理、建立模型、实施六步,各步骤的叙述说明如下:1.定义商业问题,数据挖掘的中心价值主要在于商业问题上,所以初步阶段必须对组织的问题与需求深入了解,经过不断与组织讨论与确认之后,拟订一个...

数据挖掘技术数据挖掘流程
综上所述,数据挖掘流程主要包括定义问题、数据准备、数据挖掘、结果分析和知识运用等关键步骤。通过这一完整流程,可以从大量数据中提取出有价值的知识,为业务决策提供支持,并最终实现知识的实际应用和价值创造。

一分钟了解互联网数据挖掘流程
一分钟了解互联网数据挖掘流程 1、爬虫抓取网络数据 真实的数据挖掘项目,一定是从获取数据开始的,除了通过一些渠道购买或者下载专业数据外,常常需要大家自己动手爬互联网数据,这个时候,爬虫就显得格外重要了。Nutch爬虫的主要作用是从网络上抓取网页数据并建立索引。我们只需指定网站的顶级网址,如taobao....

数据挖掘中常用的方法有哪些?基本流程是什么?
数据挖掘的基本流程包括:选择数据集、数据预处理、特征选择、模型选择、模型评估和模型应用。其中,数据预处理是数据挖掘过程中最重要的一步,包括数据清洗、数据转换、数据归一化等。在实现数据挖掘的过程中,常用的工具有R语言、Python、SQL Server Analysis Services等等,能够提供数据挖掘的可视化展示和多...

在数据挖掘的过程中,什么环节最重要?
1、鉴别商业问题;2、使用数据挖掘技术将数据转换成可以采取行动的信息;3、根据信息采取行动;4、衡量结果。在现代社会中,公司大多数商务流程的核心部分是数据。而数据挖掘的任务就是在如此海量的数据中发现有用的数据。但是仅仅发现数据那是不够的。我们必须对这种模型做出一定的反应,并采取行动,最后将...

什么是数据挖掘?
数据挖掘流程:定义问题:清晰地定义出业务问题,确定数据挖掘的目的。数据准备:数据准备包括:选择数据–在大型数据库和数据仓库目标中 提取数据挖掘的目标数据集;数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。数据挖掘:根据数据功能的类型和和...

数据挖掘需要学什么内容
数据挖掘流程包括:定义问题,建立数据挖掘库,分析数据,准备数据,建立模型,评价模型,实施。在定义问题阶段,清晰明确目标至关重要,决定目标是否影响模型构建。建立数据挖掘库涉及数据收集、描述、选择、质量评估、清理、合并整合、元数据构建、加载、维护。分析数据时,应聚焦对预测输出影响最大的字段,...

GEO数据库mRNA篇:一文搞懂GEO数据挖掘标准流程
使用limma包进行统计检验,生成差异表达基因列表。第九步:富集分析,如KEGG、GO数据库注释,理解基因功能变化。第十步:可视化结果,如热图和火山图,直观展示差异表达和通路富集情况。以上步骤是GEO数据挖掘的基本框架,但需根据具体数据格式和需求进行调整。务必注意下载数据的完整性和预处理过程的合理性。

相似回答