电子书:《sparksql内核剖析》_朱锋等《sparksql内核剖析》_朱锋等

电子书:《sparksql内核剖析》_朱锋等《sparksql内核剖析》_朱锋等

资源下载
仅限VIP下载,请先
犹豫不决让我们错失一次又一次机会!!!

电子书:《sparksql内核剖析》_朱锋等《sparksql内核剖析》_朱锋等

111

内容简介:

朱锋.博士毕业于中科院软件所.研究方向为分布式计算与软件工程。长期关注数据分析、数据库技木和大数据相关系统.并积极参与开源社区贡献2017年加入腾 讯.负责 spark sql相关平台的开发、优化和维护工作.在sql-on- hadoop方面积累了丰富的经验。韶全.香港中文大学博士.博士期间的研究方为系统最优分布式算法。曾任香港应用研究院研究员、联想香港研发中心高级研究员。现任腾 讯大数据平台高级研发工程师.负责腾 讯大数据sql平台的建设与研发.平台规模达到上万台服.务.器.百万级别业务量.pb級ri数据计算量.支撑着腾 讯全公司的数据分析业务。拥有多年互联网公司一线数据平台设计与研发经验.冒在传播大数据技术和实践经验.使其在不同行业落地生根黄明.腾 讯t4专家. spark中guo区早期研究者和布道者之

spork sql内核剖析锋张韶全黄明著電子工業出版publishing house of electronics industry北京· beljing

内容简介spark sql是 spark技术体系中较有影响力的应用( killer application).也是 sql-on-hadoop解决方案中举足轻重的产品。本书由11章构成.从源码层面深入介绍 spark sql内部实现机制.以及在实际业务场景中的开发实践.其中包括sql编译实现、逻辑计划的生成与优化、物理计划的生成与优化、 aggregation优化技术、生产环境中的一些改造优化经验等本书不属于入门级教程.需要读者对基本概念有一定的了解。在企业中任职的系统架构师和软件开发人员.以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员.均适合阅读本书未经许可.不得以任何方式复制或抄袭本书之部分或全部内容版权所有.侵权必究图书在版编目(cp)数据spark sql内核剖析/朱锋张韶全.黄明著.一北京:电子工业出版社.20187sbn978-7-121-34314-8l.①s…ⅱ.①朱…②张…③黄…ⅲ.①数据处理软件iv①tp27中guo版本图书馆cp数据核字(2018)第1110号策划编辑:张春雨责任编辑:牛勇印刷:三河市君旺印务有限公司装订:三河市君旺印务有限公司出版发行:电子工业出版社北京市海淀区万寿路173信箱邮编:100036开本:787×9801/16印张:18字数:390千字版次:2018年7月第1版印次:2018年7月第1次印刷凡所购买电子工业出版社图书有缺损问题.请向购买书店调換。若书店售缺.请与本社发行部联系联系及邮购电话010)882548.8825888质量投诉请发邮件至[email protected].盗版侵权举报请发邮件至[email protected]本书咨询联系方式010)[email protected]

推荐序互联网技术经过几十年的发展已经_渗.透_到人们生活的方方面面.从云计算、大数据到如今如火如茶的人工智能和区块链.相信无论是圈内人还是圈外人.对这些名词都耳熟能详了。仔细一算.“大数据”这个概念的出现已经有十多年了.背后催生的技术可以说是百花齐放、百家2009年年初.腾 讯从传统的数据仓库转向基于 hadoop架构的大数据平台.至今将近10年历经了3代跨越式的发展:2092011年是以 hadoop为基础的离线计算时代.2012-2014年k和 storm为引擎的实时计算时代.2015年至今是以腾 讯自研的高性能机器学习平台为核心的智能学习时代。从最简单的统计报表的计算.到万亿特征维度的算法训练.从结据到图片、语音、文本等非结构化数据.腾 讯一直用前沿技术来挖掘大数据背后的价值计今.腾 讯大数据集群规模达到几万台服.务.器.存储数据量有几百pb.每天有几十pb的撑着腾 讯包括微 信、qq、游戏、广告、支付、视频、音乐等关键业务.助力腾 讯业务发展.服务着十亿级别的用户。正是历经了腾 讯数以亿计的海量数据的锤炼.让腾 讯大数据平台得到快速的发展.其技术在业内处于领先水平。腾 讯大数据起源于网络社区.并一直积极参与网络社区的建设。2014年.腾 讯大数据平台(tdw)的核心组件进行开源.我们在 hadoop、 spark、 docker.、ceph、 hbase、 kuberneteskaka、 storm、fink、 postgresql等众多社区项目上积极“反哺”社区。2017年6月.我们在git hub上把腾 讯大数据第三代的高性能分布式机器学习平台angl进行了开源.吸引了海内外众多知名企业用户.并于2018年3月贡献给 linux深度学习基金会( lf deep learning)除代码层而的开源外.近年来.腾 讯也把大数据能力开放给传统企业.我们服务了政务民生、金融、交通、零售、教育、工业等各行各业的用户.旨在让没有大数据人才的企业也能具备使用大数据的能力。我们乐于把腾 讯积累了十年的大数据技术和运维经验对外分享、对外输出.本书也可以看作是腾 讯大数据技术开放的一部分本书的内容最初是腾 讯内部为进行 spark sql开发而整理的技术文档.最后剥离出通用的部分集结成册。从数据的维度来看.无论是单机还是分布式环境.sol对用户来说都是非常重要的。 spark sql作为腾 讯大数据平台中最基础的部分.支撑全公司的数据分析业务。因此.书

spark sql内核剖析中的内容并非是针对 spark sql技术的空谈.而是立足于腾 讯大数据平台的大量实践经验本书的几位作者正是工作在腾 讯大数据一线的工程师和技术专家.在ri均百万级别的sql业务处理和优化中积累了丰富的经验。综观全书.条理非常清晰.读者既能在高度上知晓来龙去脉和他山之石.又能在深度上体会源码级别的技术点剖析。同时.书中结合实践展示了一些于我个人而言.大学毕业后在传统的银行工作。后来.在数据爆发的时代.我有幸在guo内数据最多的两家公司工作.我在_阿.里_巴巴负责支付宝bi数据平台基础架构和应用架构.来到腾讯后一直负责腾 讯的大数据业务。十多年的职业生涯.转换了公司.也转换了工作和生活的城市.但一直不变的是我的工作始终围绕着“数据”展开.无论是在传统tt行业.还是在互联网行业.“数据”始终是我工作的核心内容.而我自己最大的职业追求也离不开“数据未来.在人们的生活中.数据将无时无刻无处不在.数据与商业的真正结合将爆发出强大的生命力和价值。作为服务于上层业务的基础支撑平台.最重要的地方在于技术的沉淀和积累不断打磨优化。从技术研发人员的角度来讲.最重要的是修炼好自己的“内功”.不忘初心。最后.希望每一位读者都能够从本书中有所收获.练好数据的“内功”.与数据结缘。蒋杰博腾 讯首席数据官、腾 讯数据平台部总经理ccf大数据专家委员会委员2018年7月

#############################################

资源下载
下载价格VIP专享
仅限VIP下载升级VIP
犹豫不决让我们错失一次又一次机会!!!
原文链接:https://1111down.com/224306.html,转载请注明出处

本站开启缓存功能

登入后回任何页面即可登入成功,当前页不显示

没有账号?注册  忘记密码?

社交账号快速登录