数据挖掘方向,Python中还需要学习哪些内容

如题所述

就题论题,还包括:
1. Python 数据库连接库,例如MySQL 连接库的应用,这决定你的数据从哪里来。这里面涉及到sql语法和数据库基本知识,是你在学习的时候必须一起学会的。
2. Python 做基本数据计算和预处理的库,包括numpy ,scipy,pandas 这三个用得最多。
3. 数据分析和挖掘库,主要是sklearn,Statsmodels。前者是最广泛的机器学习库,后者是侧重于统计分析的库。(要知道统计分析大多时候和数据挖掘都错不能分开使用)
4. 图形展示库。matpotlib,这是用的最多的了。
说完题主本身 要求,楼上几位说的对,你还需要一些关于数据挖掘算法的基本知识和认知,否则即使你调用相关库得到结果,很可能你都不知道怎么解读,如何优化,甚至在什么场景下还如何选择算法等。因此基本知识你得了解。主要包括:
1.统计学相关,看看深入浅出数据分析和漫画统计学吧,虽然是入门的书籍,但很容易懂。
2.数据挖掘相关,看看数据挖掘导论吧,这是讲算法本身得书。
剩下的就是去实践了。有项目就多参与下项目,看看真正的数据挖掘项目是怎么开展的,流程怎样等。没有项目可以去参加一些数据挖掘或机器学习方面的大赛,也是增加经验得好方法。
温馨提示:内容为网友见解,仅供参考
第1个回答  2019-01-23
python是编程语言,数据挖掘是一种数据处理技术,数据挖掘方向还是建议多学学数学和算法。老男孩的python视频可以看一下,讲的还是不错的。
第2个回答  2017-12-21
个人觉得数据挖掘,还是要看理论吧。
重点是算法原理,python只是实现工具而已。
第3个回答  2017-10-30
Python数据分析和数据挖掘学习路线图
假如你想成为一个数据科学家,或者已经是数据科学家的你想扩展你的技能,那么你已经来对地方了。本文的目的就是给数据分析方面的Python新手提供一个完整的学习路径。该路径提供了你需要学习的利用Python进行数据分析的所有步骤的完整概述。如果你已经有一些相关的背景知识,或者你不需要路径中的所有内容,你可以随意调整你自己的学习路径,并且让大家知道你是如何调整的。
步骤0:热身
开始学习旅程之前,先回答第一个问题:为什么使用Python?或者,Python如何发挥作用?
观看DataRobot创始人Jeremy在PyCon Ukraine 2014上的30分钟演讲,来了解Python是多么的有用。
步骤1:设置你的机器环境
现在你已经决心要好好学习了,也是时候设置你的机器环境了。最简单的方法就是从Continuum.io上下载分发包Anaconda。Anaconda将你以后可能会用到的大部分的东西进行了打包。采用这个方法的主要缺点是,即使可能已经有了可用的底层库的更新,你仍然需要等待Continuum去更新Anaconda包。当然如果你是一个初学者,这应该没什么问题。
如果你在安装过程中遇到任何问题,你可以在这里找到不同操作系统下更详细的安装说明。
步骤2:学习Python语言的基础知识
你应该先去了解Python语言的基础知识、库和数据结构。Codecademy上的Python课程是你最好的选择之一。完成这个课程后,你就能轻松的利用Python写一些小脚本,同时也能理解Python中的类和对象。
具体学习内容:列表Lists,元组Tuples,字典Dictionaries,列表推导式,字典推导式。
任务:解决HackerRank上的一些Python教程题,这些题能让你更好的用Python脚本的方式去思考问题。
替代资源:如果你不喜欢交互编码这种学习方式,你也可以学习PPV课训练营课程 python入门。这课程系列不但包含前边提到的Python知识,还包含了一些后边将要讨论的东西。
步骤3:学习Python语言中的正则表达式
你会经常用到正则表达式来进行数据清理,尤其是当你处理文本数据的时候。学习正则表达式的最好方法是参加谷歌的Python课程,它会让你能更容易的使用正则表达式。
任务:做关于小孩名字的正则表达式练习。
如果你还需要更多的练习,你可以参与这个文本清理的教程。数据预处理中涉及到的各个处理步骤对你来说都会是不小的挑战。
步骤4:学习Python中的科学库—NumPy, SciPy, Matplotlib以及Pandas
从这步开始,学习旅程将要变得有趣了。下边是对各个库的简介,你可以进行一些常用的操作:
•根据NumPy教程进行完整的练习,特别要练习数组arrays。这将会为下边的学习旅程打好基础。
•接下来学习Scipy教程。看完Scipy介绍和基础知识后,你可以根据自己的需要学习剩余的内容。
•这里并不需要学习Matplotlib教程。对于我们这里的需求来说,Matplotlib的内容过于广泛。取而代之的是你可以学习这个笔记中前68行的内容。
•最后学习Pandas。Pandas为Python提供DataFrame功能(类似于R)。这也是你应该花更多的时间练习的地方。Pandas会成为所有中等规模数据分析的最有效的工具。作为开始,你可以先看一个关于Pandas的10分钟简短介绍,然后学习一个更详细的Pandas教程。
您还可以学习两篇博客Exploratory Data Analysis with Pandas和Data munging with Pandas中的内容。
额外资源:
•如果你需要一本关于Pandas和Numpy的书,建议Wes McKinney写的“Python for Data Analysis”。
•在Pandas的文档中,也有很多Pandas教程,你可以在这里查看。
任务:尝试解决哈CS109课程的这个任务。
步骤5:有用的数据可视化
参加CS109的这个课程。你可以跳过前边的2分钟,但之后的内容都是干货。你可以根据这个任务来完成课程的学习。
步骤6:学习Scikit-learn库和机器学习的内容
现在,我们要开始学习整个过程的实质部分了。Scikit-learn是机器学习领域最有用的Python库。这里是该库的简要概述。完成哈CS109课程的课程10到课程18,这些课程包含了机器学习的概述,同时介绍了像回归、决策树、整体模型等监督算法以及聚类等非监督算法。你可以根据各个课程的任务来完成相应的课程。
额外资源:
•如果说有那么一本书是你必读的,推荐Programming Collective Intelligence。这本书虽然有点老,但依然是该领域最好的书之一。
•此外,你还可以参加来自Yaser Abu-Mostafa的机器学习课程,这是最好的机器学习课程之一。如果你需要更易懂的机器学习技术的解释,你可以选择来自Andrew Ng的机器学习课程,并且利用Python做相关的课程练习。
•Scikit-learn的教程
任务:尝试Kaggle上的这个挑战
步骤7:练习,练习,再练习
恭喜你,你已经完成了整个学习旅程。
你现在已经学会了你需要的所有技能。现在就是如何练习的问题了,还有比通过在Kaggle上和数据科学家们进行竞赛来练习更好的方式吗?深入一个当前Kaggle上正在进行的比赛,尝试使用你已经学过的所有知识来完成这个比赛。
步骤8:深度学习
现在你已经学习了大部分的机器学习技术,是时候关注一下深度学习了。很可能你已经知道什么是深度学习,但是如果你仍然需要一个简短的介绍,可以看这里。
我自己也是深度学习的新手,所以请有选择性的采纳下边的一些建议。deeplearning.net上有深度学习方面最全面的资源,在这里你会发现所有你想要的东西—讲座、数据集、挑战、教程等。你也可以尝试参加Geoff Hinton的课程,来了解神经网络的基本知识。
附言:如果你需要大数据方面的库,可以试试Pydoop和PyMongo。大数据学习路线不是本文的范畴,是因为它自身就是一个完整的主题。
------------------------
(1)最低保障书籍
无论将来做什么,熟练掌握一门编程语言,一个数据库,数据结构,算法都是必备的。
《高性能MySQL》
《数据结构与算法分析:Java语言描述》
《算法》
(2)Python与机器学习
《集体智慧编程》
《社交网站的数据挖掘与分析》
《数据挖掘:概念与技术》
Python官方文档
Scikit-Learn官方文档
(3)Java相关书籍
《Java开发实战经典》
《Java Web开发实战经典》
《Java虚拟机规范》
Java SE
Java EE
(4)Hadoop与Spark书籍
《大数据日知录:架构与算法》
《Hadoop权威指南》
《大数据Spark企业级实战》
《Scala编程》
Hadoop官方网站
Spark官方网站
Scala官方网站
说明:认准目标,耐住性子,一步一步往前走。要把上面推荐的书籍硬着头皮读完,数
二. 数据挖掘进阶
数据挖掘涉及多个方向,但是通常从数学统计,数据库和数据仓库,机器学习三个方向来进行研究。当我想学习一个方向的时候,最希望做的事情就是让别人给我列出一个书单。因为我也会给你们列出一个书单,让你们慢慢研究吧。
1. 数学统计
(1)理论数学:复变函数,实变函数,泛函分析,拓扑学,积分变换,微分流形,常微分方程,偏微分方程等。
(2)应用数学:离散数学(集合,逻辑,组合,代数,图论,数论),具体数学,张量分析,数值计算,矩阵论,逼近论,运筹学,凸优化,小波变换,时间序列分析等。
(3)概率:概率论,测度论,随机过程等。
(4)统计:统计学,多元统计,贝叶斯统计,统计模拟,非参数统计,参数统计等。

2. 数据库和数据仓库
《数据库系统概念》
《数据库系统实现》

《数据仓库》
《分布式系统:概念与设计》
3. 机器学习
通信原理;数据挖掘;机器学习;统计学习;自然语言处理;信息检索;模式识别;人工智能;图形图像;机器视觉;语音识别;机器人学等。(这方面的经典书籍都可以看看,后面慢慢补充)

4. 其它书籍
(1)Linux
(2)网络原理,编译原理,组成原理,
(3)JVM
(4)UML
(5)软件工程
(6)设计模式
(7)云计算与Docker
(8)并行计算
(9)需求分析

数据挖掘方向,Python中还需要学习哪些内容
1. Python 数据库连接库,例如MySQL 连接库的应用,这决定你的数据从哪里来。这里面涉及到sql语法和数据库基本知识,是你在学习的时候必须一起学会的。2. Python 做基本数据计算和预处理的库,包括numpy ,scipy,pandas 这三个用得最多。3. 数据分析和挖掘库,主要是sklearn,Statsmodels。前者是最...

数据挖掘需要学习哪些知识?
1.统计知识 在做数据分析,统计的知识肯定是需要的,Excel、SPSS、R等是需要掌握的基本技能。如果我们做数据挖掘的话,就要重视数学知识,数据挖掘要从海量数据中发现规律,这就需要一定的数学知识,最基本的比如线性代数、高等代数、凸优化、概率论等。2.概率知识 而朴素贝叶斯算法需要概率方面的知识,SKM...

数据挖掘需要学哪些
1、数据分析基础:了解统计学和概率论,熟悉不同的数据类型和数据分析方法,包括描述性统计、推断统计等。2、数据库知识:理解数据库的基本概念和组成结构,熟悉SQL语言,能够有效地管理和查询数据。3、编程技能:具备编程技能是进行数据挖掘的重要基础。常用的编程语言包括Python和R,掌握它们的基本语法和相...

python基础学完了学什么
python基础学完之后要学习的内容还有很多:● 阶段一:Python语言阶段目标:熟练掌握Python多线程并发编程技术,可以编写爬虫程序和语音识别软件● 阶段二:Linux初级阶段目标:熟练掌握Linux操作系统管理技术,可以搭建几乎所有Linux环境服务器● 阶段三:Web开发之Django阶段目标:掌握三大Python后端框架,解决一切...

数据挖掘主要涉及到哪些方面的知识?
( 1 )编程基础:需要掌握一大一小两门语言,大的指 C++ 或者 Java ,小的指Python 或者 shell 脚本;需要掌握基本的数据库语言;建议:MySQL + python + C++ ;语言只是一种工具,看看语法就好;推荐书籍:《C++ primer plus 》( 2 )开发平台: Linux ;建议:掌握常见的命令,掌握 Linux 下...

python要学哪些东西?
学习python的话大概要学习哪些内容?1、第一步:Python开发基础Python全栈开发与人工智能之Python开发基础知识学习内容包括:Python基础语法、数据类型、字符编码、文件操作、函数、装饰器、迭代器、内置方法、常用模块等。2、学习如何访问网络数据、获取与解析网络数据、爬虫的基本原理解释。并用最基础语法不使用...

python作为职业技能,都想学习哪一块的内容呢?
阶段一:Python开发基础 Python全栈开发与人工智能之Python开发基础知识学习内容包括:Python基础语法、数据类型、字符编码、文件操作、函数、装饰器、迭代器、内置方法、常用模块等。阶段二:Python高级编程和数据库开发 Python全栈开发与人工智能之Python高级编程和数据库开发知识学习内容包括:面向对象开发、Socket...

Python主要学习什么内容?
Python的应用,主要有三个方面 一个是web开发,这里可以用flask框架,或者django框架 第二个是数据采集和预处理,主要是做爬虫,还有清洗,数据处理主流是pandas,爬虫scrapy框架 第三个就是人工智能数据挖掘,主要就是Sklearn框架,但是人工智能比较难,需要学算法,所以在Python里面不一定会交的太多 ...

大数据需要学哪些
大数据需要学习的内容主要包括:数学基础、编程语言、数据处理工具、数据仓库与数据挖掘。1. 数学基础:大数据处理和分析中经常涉及到复杂的数学运算和统计分析,因此数学基础是必须要学习的。这包括概率论、数理统计、线性代数等基础知识。这些数学知识能够帮助理解数据的分布、变化和关联性。2. 编程语言:处理...

python学什么方面
学习python主要有自学和报班学习两种方式。Python目前是比较火,学习之后可以从事软件开发、数据挖掘等工作,发展前景非常好,普通人也可以学习。下面简单列举一些学完Python之后可以从事的工作:软件开发,用python做软件是很多人正在从事的工作,不管是B\/S软件,还是C\/S软件,都能做。并且需求量还是挺大的;...

相似回答