说到数据分析,人们往往会下意识地联想到另一个耳熟能详的名词:数据挖掘。那么,到底什么是数据挖掘呢?顾名思义,数据挖掘就是对数据进行处理,并从中提取可用信息的过程。如果你刚好正在寻找这方面的入门书籍,那么韩家炜老师写的《数据挖掘:概念与技术》绝对是一个不错的选择。
该书针对传统的数据分析方法,常见的如聚类、分类、去噪等,都做了非常细致的说明,并附带详实的算法、实例。相信你在看完该书的相关章节后,一定会对上述方法有较为深刻的认知。值得一提的是,该书还被许多学校引作本科教材,因此读者自学时还可以较为容易地获取各种参考学习资料,让学习模式直接从hard降为easy。
但是,由于该书成书较早,且近年来机器学习发展迅速,其中所涉及的诸多内容在今天看来已显得略微朴实,无法很好地反映数据分析领域当下最前沿的技术。但瑕不掩瑜,总体而言,这依然是一本初学者理想的入门书籍。
在学习完上一本《数据挖掘》后,此时的你将会拥有一些简单的数据分析基础。如果还想更上一层楼,那么周志华老师的这本《机器学习》绝对是不能错过的进阶读本。
用一句话来概括周志华老师的这本《机器学习》的话,大概就是“周老师用一万种方法教你挑个好西瓜”。由于“怎样挑个好瓜”的怨念贯穿了全书的始终,且连封面也印上了西瓜,人们也常常亲切地将其称为西瓜书。
相比于上一本教材,本书对读者明显提出了更高的要求。一方面,该书成书更晚,涵盖的机器学习方法也更广泛,决策树、神经网络、支持向量机、增强学习等大家常常听到的热点方法,书中都分章做了细致的介绍。另一方面,西瓜书涉及了不少数学公式,需要读者有一定的统计、代数数学基础。看一个公式花上半个小时,那真是家常便饭。不过大家也不用太紧张,本书的附录部分专门为许多公式提供了详尽的推导过程。即便看完附录后还是一头雾水,你也至少知道用搜索引擎时该填哪些关键词了( ̄ ▽  ̄)…总的来说,该书是进一步全面了解当下主流数据分析方法,俯瞰机器学习全貌的不二选择,大家可以按自身兴趣选读相关章节。
讲到这里,我似乎听到有读者在犯嘀咕了:“说了这么多,什么时候传我造AI的神功啊?就是那个叫什么深度学习的。”确实,这年头讲到数据分析如果不谈谈网络,都不好意思和别人说自己涉猎过这块领域。那么,笔者在此就再推荐一本神经网络的入门书籍。
其实,神经网络是机器学习方法的一条分支,而且上个世纪50年代就已经有了“感知机”的概念,将感知机推叠在一起就是“多层感知机”。只是限于当时的计算机算力,人们只能用多层感知机处理一些简单的问题,也无法构建深层网络,因此相关研究也很快冷下来。从某种程度上说,感知机和多层感知机就是当下神经元和神经网络的雏形。
2016年,Google的AlphaGo击败了李世石。人们突然惊奇地发现,当下的算力已经可以支撑神经网络胜任如此复杂的工作了。于是相关领域的研究热度被再次点燃,并一直延续至今。其实,神经网络的基础理论并不复杂,可概括为“只要神经元足够多,一层前馈网络足以拟合任何函数。”这个理论有什么用呢?举个例子,如果把你比作一个函数的话,那么你从外界感知到的信息就是函数的输入,而你的反应就是函数的输出。所以从理论上讲,只要你能拟合出一个足够准确的函数,就可以造出一个自己了!怎么样,是不是感觉可以去造AI了。
好了,现在让我们从梦中醒来,先挑一本学习教材。看完书,你就知道拟合出一个“准确”的函数,是一件需要那么多理论和技巧的事。就入门而言,我强烈推荐Michael Nielsen写的这本在线书籍《Neural Networks and Deep Learning》(http://neuralnetworksanddeeplearning.com/),主要有以下几个方面的理由:
· 该书篇幅适中,是极佳的快速入门读物。送你个哈工大的中文翻译链接(https://legacy.gitbook.com/book/hit-scir/neural-networks-and-deep-learning-zh_cn/details), 试试2个星期把它读完吧;
· 关键公式的推导过程非常详细,便于读者理解性地记忆反向传播、dropout等原理的内涵;
· 充分发挥了网页版书籍的优势,在页面中插入了一些运行小界面,生动地向读者诠释了神经网络底层运行的各种机理;
· 更难能可贵的是,随书还附带了一批可运行的神经网络实例。试试亲自上手改改代码吧,相信你会有意外的收获。
数据挖掘从入门到进阶,要看什么书
数据挖掘入门的书籍,中文的大体有这些:Jiawei Han的《数据挖掘概念与技术》Ian H. Witten \/ Eibe Frank的《数据挖掘 实用机器学习技术》Tom Mitchell的《机器学习》TOBY SEGARAN的《集体智慧编程》Anand Rajaraman的《大数据》Pang-Ning Tan的《数据挖掘导论》Matthew A. Russell的《社交网站的数据挖掘与...
【附PDF】学人工智能必看的10本经典书籍!!
5. 《数据挖掘概念与技术》(Han, Jiawei和Kamber, Micheline著):涵盖了数据挖掘的基础概念和技术,如聚类和关联规则挖掘。6. 《机器学习实战》(Peter Harrington著):通过Python实践,体验常见算法的实战案例。7. 《深度学习实战》(Aurélien Géron著):专注于TensorFlow的深度学习应用,如卷积神经网络等。
数据挖掘从入门到进阶 要看什么书?
推荐:Jiawei Han的《数据挖掘概念与技术》、Ian H. Witten 的《数据挖掘实用机器学习技术》、Pang-Ning Tan的《数据挖掘导论》、Matthew A. Russell的《社交网站的数据挖掘与分析》、Anand Rajaraman的《大数据》。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(...
有哪些数据分析、数据挖掘的书推荐下
3. 数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。4. 集体智慧编程 (豆瓣) 学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂...
数据挖掘需要学什么内容
数据挖掘涉及内容广泛,包括机器学习、数据挖掘、人工智能。《机器学习实战》是一本很好的入门书籍,涵盖了理论与实践,为了解各种知识提供了基础。然而,为了在该领域发展,还需深入学习。例如,在了解回归模型时,需考虑数据清洗、数据规范、数据量、归约与降维、回归模型类型、精确度、过拟合与欠拟合、...
在数据分析,挖掘方面,有哪些好书值得推荐
本书从机器学习角度看待数据挖掘,强调有效(Effectiveness)。按照这本书的观点,数据挖掘是从数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。(3) D. Hand, H.Mannila and P. Smith, Principle of Data Mining.本书从统计学的角度看待数据挖掘,因为统计学是一门数学...
数据挖掘工程师需要懂哪些知识?
1、需要理解主流机器学习算法的原理和应用。2、需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。3、需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。4、经典图书推荐:《数据挖掘概念与技术》、《...
数据挖掘实用机器学习技术的目录
出版者的话专家指导委员会译者序中文版前言序前言第一部分 机器学习工具与技术第1章 绪论1.l 数据挖掘和机器学习l.2 简单的例子:天气问题和其他l.3 应用领域-1.4 机器学习和统计学1.5 用于搜索的概括l.6 数据挖掘和道德1.7 补允读物第2章 输入概念、实例和属性2.1 概念2.2 样本2.3 属性...
机器学习,数据挖掘的书有哪些
但瑕不掩瑜,总体而言,这依然是一本初学者理想的入门书籍。在学习完上一本《数据挖掘》后,此时的你将会拥有一些简单的数据分析基础。如果还想更上一层楼,那么周志华老师的这本《机器学习》绝对是不能错过的进阶读本。用一句话来概括周志华老师的这本《机器学习》的话,大概就是“周老师用一万种方法...
机器学习,数据挖掘在研究生阶段大概要学些什么?
推荐教材《机器学习实战》,作者是 Peter Harrington。阅读这本书需要读者掌握 Python 语言,加上 Numpy,Scipy,matplotlib 函数库的一些基础内容。3、数理统计 数理统计方面还是有一些东西是蛮常用的。例如时间序列模型 ARMA 模型等。一些数据的指标,例如均值,方差,标准差,变异系数,相关系数,ROC曲线和...