电子书:《spark大数据商业实战三部曲:内核解密商业案例性能调优》《spark大数据商业实战三部曲:内核解密商业案例性能调优》

电子书:《spark大数据商业实战三部曲:内核解密商业案例性能调优》《spark大数据商业实战三部曲:内核解密商业案例性能调优》

资源下载
仅限VIP下载,请先
犹豫不决让我们错失一次又一次机会!!!

电子书:《spark大数据商业实战三部曲:内核解密商业案例性能调优》《spark大数据商业实战三部曲:内核解密商业案例性能调优》

111

内容简介:

大数据商业实战三部曲核解密1商业案例1性能调优王家林段智华夏阳◎编著请苯大学出版社北京

内容简介本书基于 spark22x最新版本.以 spark商业案例实战和 spark在生产环境下几乎所有类型的性能调优为核心.以 spark内核解密为基石.分为上篇、中篇、下篇.对企业生产环境下的 spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于spak源码.从一个动手实战案例入手.循序渐进地全面解析了 spark22x新特性及 spark内核源码;中篇选取 spark开发中最具有代表的经典学习案例.深入浅出地介绍.在案例中综合应用 spark的大数据技术:下篇性能调优内容基本完全覆盖了 spark在生产环境下的所有调优技术本书适合所有 spark学习者和从业人员使用。对于有分布式计算框架应用经验的人员.本书也可以作为spark高手修炼的参考书籍。同时.本书也特别适合作为高等院校的大数据教材使用本书封面贴有清华大学出版社防伪标签.无标签者不得销售版权所有.侵权必究。侵权举报电话:010-6278298913701121933图书在版编目(c|p)数据spark大数据商业实战三部曲:内核解密例性能调优/王家林.段智华.夏阳编著.一北京:清华大学出版社.2018isbn978-7302-48962-71.①…ⅱ.①王…②段…③夏…ⅲ①数据处理ⅳ.①tp274中guo版本图书馆cip数据核字(2017)第287681号责任编辑:袁金敏常建丽封面设计:刘新新责任校对:徐俊伟责任印制:沈露出版发行:清华大学出版社网址:htp/www.tup.com.cn.htp/www.wqbook.con比京清华大学学研大厦a座邮编:100084社总机:010-62770175邮购:010-62786544投稿与读者服务:[email protected]质量反馈:0106272015河市金元印装有限公司经销:全guo新华书店开本:185mm×260mm印张:72.75字数:1815千字版次:2018年2月第1版次:2018年2月第1次印刷定价:29900元产品编号:075671-01

前言大数据像当年的石油、人工智能( artificial intelligence)像当年的电力一样.正以前所未有的广度和深度影响所有的行业.现在及未来公司的核心壁垒是数据.核心竞争力来自基于大数据的人工智能的竞争。 spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台.2009年诞生于美guo加州大学伯克利分校amp实验室.2010年正式开源.2013年成为 apache基金项目.2014年成为 apache基金的顶级项目。基于rdd. spark成功构建起了一体化、多元化的大数据处理体系在任何规模的数据计算中. spark在性能和扩展性上都更具优势(1) hadoop之父 doug cutting指出: use of mapreduce engine for big data projects willdecline. replaced by apache spark(大数据项目的 mapreduce引擎的使用将下降.由 apachespark取代。)(2) hadoop商业发行版本的市场领导者 cloudera、 horton works、mapr纷纷转投 spark.并把 spark作为大数据解决方案的首选和核心计算引擎014年的 sort benchmark测试中.spak秒杀 hadoop.在使用十分之一计算资源的情况下.相同数据的排序上. spark比 mapreduce快3倍!在没有官方pb排序对比的情况下.首次将 spark推到了pb数据(十万亿条记录)的排序.在使用190个节点的情况下.工作负载在4小时内完成.同样远超雅虎之前使用3800台主机耗时16个小时的记录。2015年6月.spak最大的集群来自腾 讯—8000个节点.单个job最大分别是_阿.里_巴巴和 databricks1pb.震撼人心!同时. spark的 contributor比2014年涨了3倍.达到730人:总代码行数也比2014年涨了2倍多.达到40万行。ibm于2015年6月承诺大力推进 apache spark项目.并称该项目为:以数据为主导的.未来十年最重要的新的开源项目这一承诺的核心是将 spark嵌入ibm业内领先的分析和商务平台.并将 spark作为一项服务.在 bmbluemix平台上提供给客户。ibm还将投入超过3500名研究和开发人员在全球10余个实验室开展与 spark相关的项目.并将为 spark开源生态系统无偿提供突破性的机器学习技术一1 bm systemml.同时.ibm还将培养超过100万名 spark数据科学家和数据工程师。2016年.在有“计算界奥运会”之称的guo际著名 sort benchmark全球数据排序大赛中.由南京大学计算机科学与技术系pasa大数据实验室、_阿.里_巴巴和 databricks公司组成的参赛团队 nadsort.以144美元的成本完成100tb标准数据集的排序处理.创下了每tb数据排序144元成本的最新世界纪录.比2014年夺得冠军的加州大学圣地亚哥分校 triton sort团队每tb数据4.51美元的成本降低了近70р?这次比赛依旧使用 apache spark大数据计算平台.在大规模并行排序算法以及 spark系统底层进行了大量的优化.以尽可能提高排序计算性能并降低存储资源开销.确保最终贏得比赛在 full stack理想的指引下. spark中的 spark sql、 spark streaming、 mllib、 graphxr五大子框架和库之间可以无缝地共享数据和操作.这不仅打造了 spark在当今大数据计算领域其他计算框架都无可匹敌的优势.而且使得 spark正在加速成为大数据处理中心首选通

spark大数据商业实战三部曲:内核解密商业案例性能调优用计算平台.而 spark商业案例和性能优化必将成为接下来的重中之重本书根据王家林老师亲授课程及结合众多大数据项目经验编写而成.其中王家林、段华编写了本书近90c?内容.具体编写章节如下第3章 spark的灵魂:rdd和 dataset第4章 spark driver启动内幕剖析第5章 spark集群启动原理和源码详解第6章 spark^ pplication提交给集群的原理和源码详解第7章 shuffle原理和源码详解第8章job工作原理和源码详解第9章 spark中 cache和 checkpoint原理和源码详解第10章 spark中 broadcast和 accumulator原理和源码详解第11章 spark与大数据其他经典组件整合原理与实战第12章 spark商业案例之大数据电影点评系统应用案例第13章 spark2.2实战之 dataset开发实战企业人员管理系统应用案例第14章 spark商业案例之电商交互式分析系统应用案例第15章 spark商业案例之nba篮球运动员大数据分析系统应用案例第16章电商广告点击大数据实时流处理系统案例第17章 spark在通信运营商生产环境中的应用案例第18章使用 spark graphx实现婚恋社交网络多维度分析案例:第23章 spark集群中 mapper端、 reducer端_内.存_调优第24章使用 broadcast实现 mapper端 shuffle聚合功能的原理和调优实战第25章使用 accumulator高效地实现分布式集群全局计数器的原理和调优案例第27章 spark五大子框架调优最佳实践第28章 spark2.2.0新一代钨丝计划优化引擎第30章 spark性能调优之数据倾斜调优一站式解决方案原理与实战:第31章 spark大数据性能调优实战专业之路其中.段智华根据自身多年的大数据工作经验对本书的案例等部分进行了扩展除上述章节外.剩余内容由夏阳、郑采翎、闫恒伟三位作者根据王家林老师的大数据授课内容而完成在阅读本书的过程中.如发现任何问题或有任何疑问.可以加入本书的阅读群(qq418110145)讨论.会有专人答疑。同时.该群也会提供本书所用案例源码及本书的配套学习视频如果读者想要了解或者学习更多大数据相关技术.可以关注dt大数据梦工厂微 信公众号 dt spark.也可以通过yy客.户.端登.录68917580永久频道直接体验。王家林老师的新 浪微博是htp/ weibo. com/ilovepains欢迎大家在微博上与作者进行由于时间仓促.书中难免存在不妥之处.请读者谅解.并提出宝贵意见。王家林2017年中秋之夜于美guo硅谷

目录上篇内核解密第1章电光石火间体验 spark22开发实战……1.1通过rdd实战电影点评系统入门及源码阅读11.1 spark核心概念图解1.1.2通过rdd实战电影点评系统案例…12通过 data frame和 dataset实战电影点评系统2.1通过 data frame实战电影点评系统案例122通过 data set实战电影点评系统案例1.3 spark22源码阅读环境搭建及源码阅读体验第2章 spark22技术及原理21 spark22综述2.1.1连续应用程序2.1.2新的api………152.2 spark 2.2 core2.1第二代 tungsten引擎2.2.2 spark session2.2.3累加器api2.3 spark 2.2 sql2.3. 1 spark sql\.2.3.2 dataframe h dataset api..2.3.3 timed window.2.4 spark 2.2 streaming24.2增量输出模式2.5 spark22mlib…25.基于 dataframe的 machine learning apl2.52r的分布式算法2.6 spark 2.2 graph第3章 spark的灵魂:rdd和 dataset.3.1为什么说rdd和 dataset是 spark的灵魂3.1.1rdd的定义及五大特性剖析……………………………………

#############################################

资源下载
下载价格VIP专享
仅限VIP下载升级VIP
犹豫不决让我们错失一次又一次机会!!!
原文链接:https://1111down.com/223086.html,转载请注明出处

本站开启缓存功能

登入后回任何页面即可登入成功,当前页不显示

没有账号?注册  忘记密码?

社交账号快速登录