电子书:《企业大数据处理:spark_druid_flume与kafka应用实践》《企业大数据处理:spark_druid_flume与kafka应用实践》

电子书:《企业大数据处理:spark_druid_flume与kafka应用实践》《企业大数据处理:spark_druid_flume与kafka应用实践》

资源下载
仅限VIP下载,请先
犹豫不决让我们错失一次又一次机会!!!

电子书:《企业大数据处理:spark_druid_flume与kafka应用实践》《企业大数据处理:spark_druid_flume与kafka应用实践》

111

内容简介:

8技术丛书bigdata processing with spark. druid. flume and kafka企业大数据处理spark、 druid、 flume与 kafka应用实践肖冠宇⊙著图书在版编目(cip)数据企业大数据处理: spark、 druid、 flume与 kafka应用实践/肖冠宇薯.一北京:机械工业出版社.2017.9数据技术丛书isbn978-7-111-57922-91.企…i.肖…i企业管理一数据处理iv中guo版本图书馆cip数据核字(2017)第212182号企业大数据处理spark、 druid、 flume与 kafka应用实践出版发行:机械工业出版社(《北京市西区百万ま大22号部政码:10003责任校对:李秋荣版次:2017年9月第1版第1次印开本:186mmx240mm1/16印张:13.75书号:isbn978-7-111-57922-9定价:59.00元凡购本书.如有缺页、倒页、脱页.由本社发行部调换客热线投稿热线010)88379604购书热线010)6832629468995259读者信箱:[email protected]封底无伪标均为本书法律问:北京大成律师事务所光/晓东前言我写本书的初衷是将自己在企业工作中应用的技术归纳总结.系统地将大数据处理相关技术融合在一起.给已经从事大数据相关技术研发工作的朋友.或是准备从其他行业转行进入大数据领域学习相关技术的朋友提供一份参考资料。希望本书能够帮助更多从事大数据相关工作的人.也希望通过本书结识更多热爱大数据的朋友目前.大数据已不只停留在概念阶段.而是在各领域成功落地.并取得了丰硕的成果大数据已经滲透到生活中的各个方面.距离我们最近且与我们生活息息相关的大数据项目有交通大数据、医疗大数据、金融大数据、社交媒体大数据、互联网大数据等。如此多的大数据项目能够成功落地.关键原因在于数据来源的多样化.数据量的爆发式增长.新兴技术的快速发展.以及市场创新需求的不断增多.这为各种大数据项目提供了庞大的数据源.通过多种技术的综合应用.可不断挖掘出大数据背后的社会价值和商业价值。随着开源社区的不断发展.越来越多的优秀项目被开源.以处理各种大数据场景下的问题和挑战。作为目前大数据生态系统内的早期开源项目. hadoop在廉价机器上实现了分布式数据存储和高性能分布式计算.大大降低了数据存储和计算成本。 hadoop提供的分布式存储系统hdfs、大数据集并行计算编程模型 mapreduce、资源调度框架yarn已经被广泛应用为大数据生态系统的发展奠定了坚实的基础。如今. hadoop大数据生态圈发展已经非常全面涉及领域众多.在大数据处理系统中常用的技术框架包括数据采集、数据存储、数据分析数据挖掘、批处理、实时流计算、数据可视化、监控预jing、信息.安.全.等。下图展示了大数据生态系统内比较流行并且已经在生产环境验证过的开源技术(1) sparkspak是由加州大学伯克利分校amp实验室开源的分布式大规模数据处理通用引.具有高吞吐、低延时、通用易扩展、高容错等特点。spnk内部提供了丰富的开发库.集成了数据分析引$psol、图计算框架cx、机器学习库mlib、流计算引 spark streamingspark在函数式编程语言 scala中实现.提供了丰富的开发api.支持 scala、java、 python、r等多种开发语言。同时.它提供了多种运行模式.既可以采用独立部署的方式运行.也可以依托 hadoop yarn、 apache mesos等资源管理器调度任务运行。目前.spak已经在金融交通、医疗、气象等多种领域中广泛使用mongodbkafkal swm mau][ tie roke same大数据生态系统中的开源技术dud是由美guo metamarkets公司创建并开源的分布式提供海量时序数据存储、支持实时多维数据分析的olap系统.主要应用于广告数据分析、网络系统监控等场景。duid具有高吞吐、易扩展、高容错、低延迟、按时间序列存储等特点flume是由 cloudera公司开发的分布式、高可用的ri志收集系统.是 hadoop生态圈内的关键组件之前已开源给 apache。 flume的原始版本为 flume-og.经过对整体架构的重新设计.现已改名为 flume-ng。fume发展到现在已经不局限于ri志收集.还可以通过简单的配置收集不同数据源的海量数据并将数据准确高效地传输到不同的中心存储。目前 flume可对接的主流大数据框架有 hadoop、kaka、 elasticsearch、hive、 hibase等。在使用fume的过程中.通过配置文件就可以实现整个数据收集过程的负载均衡和故障转移.而不需要修改fume的任何代码。得益于优秀的框架设计.fume通过可扩展、插件化、组合式、高可用、高容错的设计模式.为用户提供了简单、高效、准确的轻量化大数据采集kafka是由 linkedin开源的分布式消息队列.能够轻松实现高吞吐、可扩展、高可用并且部署简单快速、开发接口丰富。目前.各大互联网公司已经在生产环境中广泛使用.而且已经有很多分布式处理系统支持使用kaka.比如 spark、srom、duid、 flume t等5)influxdbiniluxdb是一款开源分布式时序数据库.非常适合存储监控系统收集的指标数据。时序数据库顾名思义就是按照时间顺序存储指标数据.即監控系统的场景大部分是按照时间存储各项指标数据.过期时间太长的指标可能将不会再关注.所以为了提高数据库的存储率提高查询性能.需要定期刑除过期指标。 infuxdb的诸多特性非常适合监控系统的使用场景本书将详细介绍上述技术的原理.通过实践演示每种技术的实际应用场景。希望通过理论与实践相结合的方式使内容更通俗易懂.帮助读者根据实际的业务场景选择合适的技术方案.相信大数据在未来的发展中还会创造更多的价值内容概述本书分三部分展开介绍:第一部分(第1章)主要介绍了企业大数据系统的前期准备工作.包括如何构建企业大数据处理系统的软件环境和集群环境第二部分(第2~7章)首先介绍了 spark的基本原理. spark2.0版本的 spark sqlured streaming i原理和使用方法.以及 spark的多种优化方式;然后.介绍了 druid i的基集群的搭建过程、数据摄入过程.以及在查询过程中如何实现 druid查询api;接着介绍了ri志收集系统 flume的基本架构和关键组件.以及分层ri志收集架构的设计与实践;最后介绍了分布式消息队列 kafka的基本架构和集群搭建过程.以及使用java语言实现客户端api的详细过程第三部分(第8~9章)主要介绍了企业大数据处理的两个实际应用案例.分别是基于druid构建多维数据分析平台和基于jmx指标的监控系统目标读者本书适合从事大数据及相关工作的工程师阅读.也适合准备进入大数据领域的大数据爱好者学习、参考读者反馈本书是在业余时间完成的.由于水平有限.编写时间仓促.书中可能会出现介绍不够详细或者有错误的地方.敬请读者谅解。如果遇到任何问题或者寻求技术交流都可以通过如下联系方式与笔者进行沟通大数据爱好者交流.q.q.群.:124154694

资源下载
下载价格VIP专享
仅限VIP下载升级VIP
犹豫不决让我们错失一次又一次机会!!!
原文链接:https://1111down.com/224426.html,转载请注明出处

本站开启缓存功能

登入后回任何页面即可登入成功,当前页不显示

没有账号?注册  忘记密码?

社交账号快速登录