电子书:《图解spark核心技术与案例实战》《图解spark核心技术与案例实战》

电子书:《图解spark核心技术与案例实战》《图解spark核心技术与案例实战》

资源下载
仅限VIP下载,请先
犹豫不决让我们错失一次又一次机会!!!

电子书:《图解spark核心技术与案例实战》《图解spark核心技术与案例实战》

111

内容简介:

图解 spark核心技术与案例实战郭编著電子工掌出版社publishing house of electronics industry北京· beiing内容简介本书以 spark2.0版本为基础进行编写.全面介绍了 spark核心及其生态圈组件技术。主要内容包括 spark生态圈、实战环境搭建、编程模型和内部重要模块的分析.重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架.同时还介绍了spak生态圈相关组件.包括 spark sql的即席查询、 spark streaming的实时流处理应用、 mlbase/mllib的机器学习、 graphx的图处理、 spark的数学计算和 alluxio的分布式_内.存_文件系统等了我数部过签会数其机水不还应用了大量的图表进行说明.让读者能够更加直观地理解 spark相关原理本书不仅适合大数据、 spark从业人员阅读.同时也适合大数据爱好者、架构师和软件开发人员阅读。通过本书.读者将能够很快地熟悉和掌握spak大数据分析计算的利器.在生产中解决实际问题未经许可.不得以任何方式复制或抄袭本书之部分或全部内容版权所有.侵权必究图书在版编目(cip)数据图解 spark:核心技术与案例实战/郭景瞻编著.一北京:电子工业出版社.2017.1isbn978-7-121-302367①图…?.①郭….①数据处理软件一图解iv.①tp274-64中guo版本图书馆cip数据核字(2016)第262015号责任编辑:安娜印刷:北京京科印刷有限公司装订:北京京科印剧有限公司出版发行:电子工业出版社北京市海淀区万寿路173信箱邮编:100036开本:787×98016印张:3025字数:570千字版次年1月第1版印次:2017年1月第1次印刷印数:3000册定价:99.00元凡所购买电子工业出版社图书有缺损请向购买书店调换。若书店售缺.请与本社发行部联系.联系及邮购电话010)8825488.882588投诉请发邮件至[email protected].流版侵权举报请发邮件至dbqqaphei.com.cmn。本书咨询联系方式:010-5126088-819. faq(a phei. com. cn推荐序移动互联网的兴起把我们带入了真正的大数据时代.各大互联网公可司由于服务于海量用户因此一般都储存了eb级的数据.而在一个典型的业务场景中.每次处理tb级的数据也是很常见的。同时由于竟争的加剧.互联网公司对业务的要求需要不断提高质量和降低响应速度.这就给大数据处理工具带来了非常大的挑战。目前的大数据生态圈以 hadoop为主.在数据存储sol查询引、分布式计算、实时处理引和机器学习等方向先后诞生了一系列的开源项目由于这些开源项目面向各自的领域.因而在设计的开发部署中.开发和运维的工程师就不得不同时面对不同的工具和环境.无形中大大增加了公司的成本和工程师的学习门spark就是在这样的背景下发展起来的.是目前为止唯一能够把交互式查询、实时处理、离线处理和机器学习无缝结合在一起的大数据产品。 spark是基于_内.存_的计算框架.其设计非常精巧.对于多次迭代的数据处理.例如机器学习和sql查询.可以比 hadoop快很多倍.所以诞生不久即成为 apache的顶级项目.之后更是得到众多企业和开发者的拥护。一些大的互联网司在过去几年虽然开发了自己的大数据处理框架.但最近几年也逐渐转向了spak。而对于那些对外提供云服务的厂商. spark更是成为一个标准配置环境.由此可见 spark的火热程度早期版本的spak实现相当精简.然而随着版本的快速送代和功能的不断增加.其实现已经变得相当复杂。由于分布式计算的复杂性.开发者和运维人员在实际使用过程中.经常会遇到集群甚至 spark本身相关的问题.在不了解工作原理的情况下很难快速定位和解决问题。本书作者在大数据領域深研究数年.自 spark诞生之ri起就一直密切关注其发展.对其设计框架运行机制和对外api都有较为深入的了解。作为京东大数据平台部门.我们需要解决业务部门在使用spak过程中所遇到的各种复杂问题.在此过程中本书作者给予了我们莫大的帮助《图解 spark:核心技术与案例实战》从生态系统讲起.先让读者对 spark生态圈有一个大概的了解。之后通过配置 spark开发环境.以及一个实际的例子告诉读者如何在spak上快速开发。接下来作者详细介绍了 spark的编程模型和核心架构.这是本书的精华所在.也是真正了解 spark的必读内容.作者以平实的语言透彻地讲解了rdd含义、内部处理逻辑、任务执行的调度过程以及集群中 driver节点和 worker节点之间的交互等.至此读者可以清楚了解到 sparknv1图解 spark:核心技术与案例实战应用执行的完整过程。第5章详细介绍了存储原理及 shuffle i过程.对于这些内容开发者往往不太在意.但对应用的整体性能有非常大的影响。第6章则以实际案例介绍了spa水k的多种运行方式.读者从中可以了解到spak是如何与自身资源管理框架、yam集群或者 mesos集群进行交互的在对 spark应用有了整体的认识之后.作者又分别对sql查询、流处理、机器学习、图计算和 spark等核心子系统进行了深入解读.既介绍了各自的开发接口.又清楚地介绍了各个模块之间的关系。最后特别介绍了 alluxio.其源于 spark.可以为各种分布式系统提供抽象的文件存储服务大规模机器学习专家京东大数据架构师何云龙前言为什么要写这本书在过去的十几年里.随着计算机的普遍应用和互联网的普及.使得数据呈现爆发式增长在这个背景下. doug cutting在谷歌的两篇论文(gfs和 mapreduce)的启发下开发了 nutch项目.2006年 hadoop脱离了 nutch.成为 apache的顶级项目.带动了大数据发展的新十年。在此期间.大数据开源产品如雨后春算般层出不穷.特别是2009年由加州大学伯克利分校a实验室开发的 spark.它以_内.存_送代计算的高效和各组件所形成一站式解决平台成为这些产品的spark在2013年6月成为 apache孵化项ri.8个月后成为其顶级项目.并于2014年5月发布了1.0版本.在2016年7月正式发布了2.0版本。在这个过程中. spark社区不断壮大.成为了最为活跃的大数据社区之一。作为大数据处理的“利器”. spark在发展过程中不断地演进因此各个版本存在较大的差异。市面上关于 spark的书已经不少.但是这些书所基于的 spark版本稍显陈旧.另外在介绍 spark的时候.未能把原理、代码和实例相结合.于是使有了本书本书能够在剖析 spark原理的同时结合实际案例.从而让读者能够更加深入理解和掌握 spark在本书中.首先对 spark的生态圈进行了介绍.讲述了 spark的发展历程.同时也介绍 spark实战环境的搭建:接下来从 spark的编程模型、作业执行、存储原理和运行架构等方面讲解了spark内部核心原理:最后对 spark的各组件进行详细介绍.这些组件包括 spark sql的即席查询、 spark streaming的实时流处理应用、 mlbase/mllib的机器学习、 graphx的图处理、 spark的数学计算和 alluxio的分布式_内.存_文件系统等读者对象(1)大数据爱好者随着大数据时代的来临.无论是传统行业、it行业还是互联网等行业.都将涉及大数据技术.本书能够帮助这些行业的大数据爱好者了解 spark生态圈和发展演进趋势。通过本书.读

资源下载
下载价格VIP专享
仅限VIP下载升级VIP
犹豫不决让我们错失一次又一次机会!!!
原文链接:https://1111down.com/222885.html,转载请注明出处

本站开启缓存功能

登入后回任何页面即可登入成功,当前页不显示

没有账号?注册  忘记密码?

社交账号快速登录