电子书:《spark大数据处理:原理《spark大数据处理:原理算法与实例》

电子书:《spark大数据处理:原理《spark大数据处理:原理算法与实例》

资源下载
仅限VIP下载,请先
犹豫不决让我们错失一次又一次机会!!!

电子书:《spark大数据处理:原理《spark大数据处理:原理算法与实例》

111

内容简介:

①分男.1976年生人.博士.副教授.硕士生导师.北京邮电大学数据科学中心主任2003年至2007年任职于|bm中guo研究院.担任高级研究员及部门经理.建立旧bm中guo研究院电信融合网络管理研究方向.主持研发 websphere及tvo电信产品线中多项关键技术.期间发表多篇guo际会议及刊物论文.并申请获得多项美guo专利2007年至2012年创办力欢城(北京)科技有眼公司.开创中guo无端网络游戏产业.并担任中guo软件协会网 页游戏专业委员会委员。公司产品多次荣获guo内互联网业界奖项.2008年获中guo互联网协会“最具运营价值 webgame奖项2012年至今在北京邮电大学信息与通信工程学院任教.研究方向为电信及互联网大数据分析、高速数据流挖掘算法.并牵头组建北京量数据处理中的云计算”.发表大数据分析相关sce检索论文十余篇.并独著《 hadoop南大学等多所高校的相关课程作为教材使用林文辉男.博士.高级工程师.航天信息股份有自2009年至今在航天信息研究院担任云平台事业部经理。承担过多个guo家重大课题项guo有资本金项目、科技部粮食信息化.安.全.项目、guo资委信息化建设等。主要研究方向:税务和公安行业大数据应用、云计算

big data processingwith sparkspark大数据处理原理、算法与实例刘军林文辉方澄◎编著请筹大学出版社北京

内容简介本书以时下最为流行的 hadoop所存在的缺陷为出发点.深入浅出地介绍了下一代大数据处理核心技术 spark的优势和必要性.并以最简洁的指引步骤展示了如何在10分钟内建立一个spuk大数据处理环境。在此基础上.以图文并茂和丰富的示例代码讲解的形式系统性地揭示了 spark的运行原理、算子使用、算法设计和优化手段.为读者提供了一本快速由浅人深掌握spak基础能力和高级技巧的参考书籍本书共6章.涉及的主题主要包括大数据处理技术从hadp发展到 spark的必然性快速体验spark的指引、 spark架构和原理、rdd算子使用方法和示例、 spark算法设计实例、spak程序优化本书适合需要使用spak进行大数据处理的程序员、架构师和产品经理作为技术参考和培训资料.亦可作为高校研究生和本科生教材本书封面贴有清华大学出版社防伪标签.无标签者不得销售版权所有.侵权必究。侵权举报电话:010-6278298913701121933图书在版编目(cip)数据四ak大数据处理:原理、算法与实例/刘军.林文辉.方澄编著.北京:清华大学出版社.2016lsbn978-7-3024499591.①s…ⅱ.①刘…②林…③方…ⅲ.①数据处理软件ⅳ.①tp274中guo版本图书馆cp数据核字(2016)第208312号责任编辑:刘洋封面设计:陈guo风责任校对:王荣静责任印制:沈露出版发行:清华大学出版社网址:htp://ww.tup.com.en.hp://www. abook地址:北京清华大学学研大厦a座邮编:100084社总机:0106277017邮购:01062786544投稿与读者服务:01062776969.c- ervice(@ tup. tsinghua.edu.cn质量反馈:[email protected]者:北京嘉实印刷有限公司经销:全guo新华书店开本:185mm×260mm印张:13字数:228千字版次:2016年9月第1版印次:2016年9月第1次印刷印数:1-3000定价:49.00元产品编号:0715700

前言自2012年回归校园开始电信与互联网大数据分析科研生涯.我与 hadoop那头黄色小象就结下了不解之缘。感谢 google的论文、 yahoo的资助、 doug cutting无与伦比的聪明才智.以及 hadoop开源社区无私奉献的参与者.让成千上万跟我们一样的中小开发者团队拥有了低成本处理大规模数据的能力。hdfs、 mapreduce. pig、hive、 hbase这些技术组件.帮助我们完成了一个又一个tb甚至pb级数据集的分析任务。那头可爱的黄色小象.陪伴我度过了一个又一个美好的ri子。多么希望这种只用一个技术族就能解决各种大数据处理问题的美好ri子能一直持续下去.相信这也是很多开发者梦寐以求的理想guo度。然而.梦想终归是梦想。在两年前的某一天.无意中从网络上的篇技术文章中看到了 spark这一新兴技术.文中宣称 spark性能和功能均优于hadoop。将信将疑的我按照文章中的线索找到了spak官网.下载解压后经过短暂试用.我就被 spark的简洁、高效、灵活的特性彻底迷住了。从那时起我就知道. hadoop我心目中大数据处理王者技术上的真正挑战者到来了。 spark以分布式_内.存_对象架构为基础.以rdd转换模式为核心.并辅以丰富的rdd算子.不仅解决了大数据处理迭代任务的性能问题.还将开发者从简陋的map/ reduce编程模式中解放出来.以更加灵活的方式控制数据的计算过程.并激发无穷的创意。因此.我们的团队逐渐将数据处理技术栈由 hadoop转向 spark。在这个过程中.我们发现目前已有的 spark相关书籍大多集中在介绍 spark技术的基础原理以及 spark相关工具(例如 sparksql、 spark等)的基本使用方法上。而要学习如何使用 spark中提供的丰富算子进行算法设计时.只能以大浪淘沙的方式从网络中零散的资料中寻找参考。因此.我们觉得如果有本能以丰富示例介绍 spark程序和数据挖掘算法设计的书籍.应当能更好地帮助ark开发者提高学习效率.这也就是我们撰写本书的原动力基于这一原动力.本书突出以实例的方式介绍和展示 spark程序和算法设计的方法。第1章以科技史上最为著名的6个失败预言引出了大数据时代以及 hadoop技术出现的必然性.然后通过 hadoop与 spark的对比揭示了 hadoop的局限性和 spark的优势。第2章以简洁明了的方式说明了如何以最快的方式搭建一个spak运行环境并通过 shell环境体验 spark的强大功能。第3章以图文并茂的形式讲解了 spark的工作原理、架构与运行机制.并着重介绍了 spark的核心rdd的变换过程。第4章以大量示例代码的形式详细说明了 spark丰富的算子.包括创建算子、变换算子、行动算子

‖l前言和缓存算子。为了帮助读者掌握使用 spark设计和实现复杂算法的方法.第5章以10个常见算法实例展示了 spark处理复杂数据处理工作的能力。第6章从合理分配资源、控制并行度等9个方面介绍了优化 spark性能、拓展 spark功能的方法与市面上大部分 spark书籍不同.除原理性文字外.本书还提供了大量的 spark代码实例.完成这些代码是一项艰巨的工作。因此.除本书的作者外.我们必须要感谢为文中代码编写和测试作出了巨大贡献的参与者.他们是来自北京邮电大学数据科学中心的研究生梁阳、林澍荣、王蒙、秦超、邱德扬等同学.以及北京浩瀚深度信息技术股份有限公司大数据专家张硕、宋若宁。由于作者水平有限.加之开源社区的高度活跃性. spark技术仍在快速发展中此.书中难免会存在不足之处.还请读者见谅并批评指正。意见、建议或交流请发电子邮件至[email protected]北京邮电大学数据科学中心刘军016年8月

#############################################

资源下载
下载价格VIP专享
仅限VIP下载升级VIP
犹豫不决让我们错失一次又一次机会!!!
原文链接:https://1111down.com/223089.html,转载请注明出处

本站开启缓存功能

登入后回任何页面即可登入成功,当前页不显示

没有账号?注册  忘记密码?

社交账号快速登录