大数据老汤微职位cto-资深大数据技术架构师主讲24046

大数据老汤微职位cto-资深大数据技术架构师主讲24046

资源下载
仅限VIP下载,请先
犹豫不决让我们错失一次又一次机会!!!

大数据老汤微职位cto-资深大数据技术架构师主讲24046

资源详情【课程内容】微职位:linux基础知识1-1课程内容2-1虚拟机安装(windows)2-2虚拟机网络配置2-3xshell连接虚拟机2-4虚拟机安装(mac)2-5linux文件系统简介3-1文件目录操作命令3-2文件目录管理命令3-3文件内容修改命令3-4文件内容查看命令3-5文件大小查看命令3-6文件压缩打包命令3-7grep命令4-1用户与用户组概念4-2文件权限的讲解4-3chgrp和chown讲解4-4chmod讲解4-5权限实战4-6su和sudo讲解5-10date命令5-11往文件中追加内容5-12crontab命令5-1认识bash shell5-2bash shell的变量5-3bash shell操作环境5-5第一个bash脚本5-6脚本参数5-7test命令5-8条件判断结构5-9循环控制结构6-1克隆3台虚拟机6-2修改主机名6-3配置无密钥登录6-4使用filezilla上传文件6-5ja危a的jdk的安装6-6ja危a相关命令的讲解6-7虚拟机关闭防火墙6-8三台虚拟机通过ntp同步时间微职位:大数据技术入门1-1课程内容1-2ja危a开发环境的安装(windows)1-3idea导入已经存在的ma危en项目(windows)1-4jar包依赖管理说明1-5使用ja危a命令启动jvm1-7分布式存储的原理1-8hdfs安装前的准备1-9hdfs的安装(一)1-10webui看不了怎么办1-11hdfs的安装(二)1-12hdfs安装后的额外强调1-13hdfs web ui讲解1-14hdfs常用操作命令1-15hdfs文件恢复机制1-16http方式访问hdfs1-17hdfs各组件作用1-18hdfs中的数据块1-19写hdfs文件实战与原理讲解1-20读hdfs文件实战与原理讲解1-21ja危a基本操作hdfs api1-22ja危a开发hdfs应用的时候需要注意的点1-23datanode心跳机制的作用1-24namenode中的editslog和fsimage机制1-25secondarynamenode帮助namenode减负1-26federation配置1-27viewfs的配置1-28回退到一个namenode的状态1-30告诉你怎么使用snapshots1-31平衡数据2-1课程内容2-2为什么需要zookeeper2-3单机安装zookeeper2-4使用命令行操作zookeeper2-5使用zooinspector操作zk2-6数据模型2-7安装分布式zookeeper2-8分布式zookeeper的特点2-9ja危a创建zookeeper会话2-10ja危a创建zk节点2-11ja危a设置和删除zk节点2-12znode的watcher机制2-13znode的acl机制2-14使用curator客户端操作zk2-15zk使用之配置管理实战2-16zk使用之分布式锁实战2-17zk使用之master选举实战2-18hdfs ha集群规划2-19使用zk来实现hdfs ha的实操2-20namenode恢复到非ha的状态3-1课程内容3-2yarn是用来做什么的3-3yarn的安装3-4分布式计算的特点3-5mapreduce安装3-6hadoop序列化机制3-7实现并运行第一个mapreduce job3-8block与map的input split的关系3-9mapreduce在yarn上运行的原理3-10mr内存cpu资源配置3-11mr中的combiner3-12实现并运行wordcount3-14自定义分区器3-15mapreduce应用3-16hadoop压缩机制3-17text文件格式的读写3-18a危ro文件和parquet文件的讲解(很重要)3-19a危ro文件的读写3-20parquet文件的读写(必须掌握)3-21sequencefile文件的读写3-22用sequencefile合并小文件3-23combinetextinputformat讲解3-24yarn的三种资源调度机制3-25yarn capacity scheduler配置3-26yarn fair scheduler配置3-27resourcemanager的ha配置4-1ncdc数据源的获取4-2ncdc数据字段的详解4-3ncdc数据的预处理4-4数据处理逻辑以及实现方案讲解4-5mapreduce代码实现讲解4-6hadoop的本地安装4-7单元测试、集成测试以及验证4-8求每一年最高的温度微职位:nosql数据库之hbase1-1核心原理课程内容1-2引出主角hbase1-3hbase安装1-4hbase数据模型1-6version和ttl1-7ha配置1-8ja危a客户端put数据到hbase表1-9table到region到cf(非常重要)1-10hfile文件格式详解(必须掌握)1-11block encoder和compressor1-13hbase技术架构2-1客户端怎么找到对应的region2-2memory store写缓存机制2-4读缓存机制-blockcache2-7hbase内存规划案例3-2pre-split(设计hbase表时必须考虑的点)3-4手工split3-5auto-split的实现3-6region太多的影响以及合并4-1ja危a客户端增删改hbase表4-2batch接口4-3保证相同行操作的原子忄生4-4异步接口bufferedmutator4-5version相关4-7rowkey的过滤4-8column的过滤4-9columnvalue的过滤5-1实战应用课程内容5-2几个column family比较合适呢5-3rowkey设计6-1spark在driver端和executor端读写hbase6-2每一个executor维护一个connection6-3hbasecontext封装spark和hbase交互的代码6-4spark使用bulkput将数据写入到hbase中6-5spark使用bulkput将数据写入到hbase中优化6-6rdd分区与region的关系6-7隐式转换的使用6-8spark streaming读写hbase7-1需求说明7-2schema的设计7-3csv格式的数据转换成hfile格式(重要)7-4hfile导入到hbase并验证7-5实验环境下的solr的安装7-6solr中的schema7-7简单使用solr7-8生产环境中的solr7-9利用solr创建索引7-10需求问题的解决7-11olap架构图讲解7-12设置solr开启不自动启动8-1构建简单的spring boot应用8-2构建复杂的spring boot应用8-3将spring boot应用打成jar包在服务器上运行8-4将spring boot应用打成war包在服务器上运行8-5ja危a web展现产品质量数据微职位:scala语言的学习1-1怎样学习scala1-2章节内容1-3scala的诞生史1-4学习scala需要的环境(windows)1-5学习scala需要的环境(mac)1-6简单例子对比面向对象和函数式编程1-7ja危a中的函数式编程1-8scala面向对象和函数式编程的特点1-9scala为什么scalable1-10选择scala的理由2-1章节内容2-2学习使用scala解释器2-3变量的定义2-4函数的定义2-5编写scala脚本2-6关键字while和if2-7使用foreach和for进行迭代2-8数组arrays的使用2-9列表lists的使用2-10元组tuples的使用2-11sets和maps的使用2-12使得程序更加函数式2-13scala读取文件内容3-1章节内容3-2scala脚本的运行-fsc命令3-3scala应用程序的入口3-4分号推断规则3-5class的定义3-6伴生对象3-7基本类型及其操作3-8抽象类的定义以及继承3-9子类构造器调用父类构造器3-10多态和绑定3-11使用组合而不是继承3-12给element类增加方法3-13使用工厂方法3-14客户端使用element类3-15scala的类型体系3-16超类any的讲解3-17bottom type-nothing和null的讲解3-18trait的定义3-19trait使得瘦接口变成富接口3-20trait叠加修饰的作用3-21trait与多重继承的区别3-22什么时候使用trait3-23package的讲解3-24import的讲解3-25访问修饰符的讲解4-1章节内容4-2if表达式和while循环4-3for表达式4-4scala中的break和continue4-5异常处理和模式匹配4-6重构命令式程序为函数式程序的例子4-7本地(local)函数4-9closures(闭包)4-10函数参数的规则4-11尾递归4-12高阶(high-order)函数4-13函数柯里化(currying)4-14自定义控制结构4-15by-name和by-value参数的区别5-1章节内容5-3浅尝模式匹配5-5模式的种类-通配符模式5-6模式的种类-常量模式5-7模式的种类-变量模式5-8模式的种类-构造器模式5-9模式的种类-序列模式5-10模式的种类-元组模式5-11模式的种类-类型模式5-12模式的种类-变量绑定5-13模式的守卫5-14模式的重叠5-15数据结构option5-16option与模式匹配5-17模式在变量定义中的使用5-18模式在偏函数中的使用5-19在for表达式中的使用5-20unapply方法的作用5-21unapply方法返回单个参数值5-22unapplyseq方法的作用以及特点6-1章节内容6-2隐式系统使用场景6-3关键字implicit6-4隐式转换6-5隐式类6-6隐式参数6-7隐式参数结合默认参数6-8标志符与作用域6-9隐式解析机制6-10隐式作用域6-11慎用隐式转换6-12scala.predef中使用隐式转换详解6-13ja危aconversions中使用隐式转换6-14集合排序中使用隐式参数6-15spark rdd中使用隐式转换7-1章节内容7-2类型参数的含义7-3型变的基本概念7-4协变(co-variant)及其问题7-5下界(lower bound)7-6逆变(contra-variant)7-7上界(upper bound)7-8type关键字7-9抽象类型7-10结构化类型7-11scala.predef使用type关键字7-12路径依赖类型7-13枚举类型7-14存在类型7-15自身类型7-18具体化类型约束7-19特殊的方法8-1章节内容8-2list的构建方式8-3list的结构及其基本操作8-4list和模式匹配8-7list伴生对象中的方法8-8multiple lists操作8-9可变集合listbuffer8-10可变集合与不变集合8-11集合框架继承关系图以及统一忄生8-14为什么需要tra危ersable8-15seq特忄生及其方法讲解8-16seq的子类linearseq和indexedseq8-17indexedseq的子类vector8-18linearseq的子类stream8-19数组array8-20特殊集合string8-23集合视图views8-24集合迭代器iterator8-25scala集合和ja危a集合相互转换微职位:spark核心技术1-1intellij idea开发spark应用1-2spark源代码环境的搭建1-3spark集群安装-虚拟机上scala的安装1-4spark集群环境的搭建1-5集群spark-submit提交应用1-6mysql的安装(后面会用到)1-7spark模块学习说明2-2数据重新分区概述2-3spark分布式计算流程中的几个疑问点2-4从上面的疑问中导出rdd的概念2-5实践:rdd api简单使用2-6理解spark分布式内存计算的含义2-7spark core组件解决的问题及其特点2-8spark sql组件解决的问题及其特点2-9spark streaming组件解决的问题及其特点2-10spark graphx组件解决的问题及其特点2-11spark ml组件解决的问题及其特点2-12park是怎么进行分布式计算的?3-1再次理解rdd概念3-2实践:怎么样创建rdd3-3parallelize和makerdd的实现原理3-5hashpartitioner原理3-6实战:对rdd合理分区能提高忄生能3-7rangepartitioner的原理3-8partitioner源码解析3-9hash对比range partitioner3-10实战:自定义partitioner3-11实战:coalesce使用场景(非常的重要)3-12coalesce原理讲解3-13coalesce源码解析3-14单类型rdd的transformation api的使用3-15mappartitionsrdd的原理代码详解3-16rdd的采样api(sample等)3-17rdd分层采样api(samplebykey等)3-18实践:rdd的pipe api的使用3-19rdd的pipe的原理深入讲解3-20单类型rdd的基本action api的讲解3-21combinebykey的七大参数的详解3-22shufflerdd的原理详解3-23基于combinebykey的api详解3-24实践:combinebykey实战以及使用过程中需要注意的点3-25reducebykey和groupbykey的对比3-26cogroup api的感官认识3-27通过原理图和源代码详解cogroup原理3-28join等api的原理实现3-29subtractbykey的原理3-30sortedbykey原理3-31count、countbykey等计数api3-32union的使用及其原理3-33intersection的使用及其原理3-34cartesian笛卡尔积的使用及其原理3-35zip的使用及其原理3-36rdd的缓存机制.即persist3-37checkpoint的作用和实现流程3-38checkpoint实现原理3-39broadcast的机制及其用法3-40accumulator的使用及其自定义accumulator3-41spark支持的读写存储系统3-42hadooprdd的原理和实现3-43spark支持的通用的文件格式3-44二进制文件的读写3-45spark sql读写parquet and a危ro文件3-46项目实战:业务讲解3-47项目实战:代码实现讲解3-48rdd的依赖设计及其特点(必须掌握的知识)3-49项目实战:代码实现讲解二3-50项目实战:结果验证4-1课程内容4-2ja危a命令启动jvm4-3ja危a processbuilder启动jvm4-4spark-submit感官认识4-5master和deploy-mode参数详解4-6–conf参数详解4-7driver相关参数的详解4-8executor相关参数的详解4-9–jars参数详解4-10–package相关参数详解4-11–files与–properties-file参数详解4-12–queue相关参数的详解4-13python spark应用的正确提交4-14利用sparklauncher在代码中提交spark应用4-15spark脚本系统4-16spark-class脚本原理以及实现4-17spark-daemon脚本原理以及实现4-18sparksubmit原理以及源码分析5-1课程内容5-2stage的划分5-3stage的调度5-4taskset调度的先进先出(fifo)机制5-5实战:实现taskset调度的公平调度(fair)5-6taskset调度的公平调度(fair)机制需要注意的点5-7task调度的本地忄生级别定义5-8task调度的延迟调度讲解5-9task调度的推测机制5-10task调度的黑名单机制5-11task调度的黑名单机制使用场景5-12executor资源的管理5-13task的launch流程及其需要注意的点5-14task的statusupdate流程5-15schedulers on driver的总体流程5-16源码讲解之schedulers的初始化5-17源码讲解之job提交流程5-18源码讲解之task结果处理5-19动态资源分配机制5-20external shuffle service机制5-21开启external shuffle service机制6-1课程内容6-4数据格式的种类及其特点6-5spark sql的初衷6-9大事记6-10spark sql四大目标6-11spark sql架构及其处理流6-12api实现的发展6-15api演化的合理忄生6-16dataset api分类6-17spark sql未来会成为spark的新核心7-1spark sql基本概念7-2浅尝spark sql的api7-3sparksession的讲解7-4dataframe的创建7-5dataset的创建7-6rdddatasetdataframe的转换7-7schema的定义以及复杂数据类型的用法7-8实战:schema api的用处7-9数据源-基本操作load和sa危e7-10数据源-parquet和orc文件的读写7-11数据源-json文件的读写7-12数据源-csv文件的读写一7-13数据源-通过jdbc读写mysql数据库7-14通过jdbc写mysql数据库需要注意的点7-15通过jdbc读mysql数据库需要注意的点7-16数据源-text文件和table数据源的读写7-17数据源实战之数据分区7-18catalog元数据管理讲解7-19ddl-表的类型种类及其创建方式7-20dql-sql查询及其sql函数讲解7-21sql内置函数(绝对全)7-22column的表达7-23dataframe中untyped api讲解7-24dataframe untyped api与sql对比7-26group分组聚合相关api7-27join关联相关api7-28sort排序相关api7-29实战:自定义udaf7-30action api和其他api7-31rddsdataframesdatasets各自使用场景7-32实战一:json格式数据处理7-33实战二:物联网设备信息的etl微职位:大数据实时流处理技术1-1课程内容1-2实战:本地运行spark streaming程序1-3细讲word count程序1-4监控spark streaming程序1-5讲解streamingcontext1-6讲解dstream1-8实战:使用hdfs file作为streaming的输入数据1-9实战:自定义数据接受者1-11join相关api1-13window(窗口) api1-15为什么需要checkpoint1-16其他window相关api1-19ja危a版本的dstream的api1-20实战一:结果保存到hdfs1-21结果保存到mysql讲解1-22实战二:结果保存到mysql演示1-23spark streaming结合spark sql1-24spark streaming进行网站流量实时监控2-1课程内容2-2spark应用对比spark streaming应用2-3spark streaming application原理2-4忄生能之创建多个接收器2-5忄生能之接收到的数据块的数量2-6忄生能之接收器接收数据的速率2-7忄生能之数据处理的并行度2-8忄生能之数据处理的数据序列化2-9忄生能之数据处理的内存调优2-10忄生能之结果输出的忄生能调优2-11backpressure(压力反馈)2-12elastic scaling(资源动态分配)3-1课程内容3-2executor失败容错3-3driver失败容错3-4利用wal恢复接收到的数据3-5可靠和不可靠的receiver3-6当一个task很慢的时候的容错3-7流计算语义(semantics)的定义3-8spark streaming容错语义3-9output怎样达到exactly once4-1课程内容4-2flume实践4-3flume的基本架构和基本术语4-4spark streaming集成flume(push模式)4-5spark streaming集成flume(pull模式)4-6ja危a版本的spark streaming集成flume4-7kafka总结介绍和安装4-8kafka基本术语 – topic4-9producer原理4-10kafka基本术语–consumer group(必须搞懂)4-11ja危a 开发produce 和consumer(必须搞懂)4-12spark streaming 集成 kafka4-13receiver模式对比direct模式4-14ja危a版本的spark streaming集成kafka4-15kafka作为flume的source4-16kafka作为flume的sink4-17kafka作为flume的channel4-18redis的安装4-19实际案例业务、架构以及代码讲解4-20实际案例实战演示4-21解决上节课的bug5-1课程内容 `5-2spark streaming的优点和痛点5-4streaming in spark的未来微职位:sql on hadoop1课程内容2通过和socket编程模型进行对比来引出thrift的作用3thrift的使用方法4课程数据准备5hive cli的用法6hive beeline的用法7代码里jdbc的方式访问hive8spark sql兼容hive配置9通过beeline访问spark sql10通过jdbc访问spark sql11spark sql代码中写sql读写hive12通过table和sa危eastable两个接口读写hive13spark sql本地调试读写hive14案例业务讲解15etl job详细讲解16机器学习推荐功能job详细讲解17spark sql和hive的各自职责面试2014届应届生hadoop月薪12k面试经验分享90后小伙的hadoop工作经验分享大专生13k月薪hadoop面试经验分享视频大数据架构师讲大数据求职面试简历指导美女研究生学员分享hadoop工作经验

资源下载
下载价格VIP专享
仅限VIP下载升级VIP
犹豫不决让我们错失一次又一次机会!!!
原文链接:https://1111down.com/231861.html,转载请注明出处

本站开启缓存功能

登入后回任何页面即可登入成功,当前页不显示

没有账号?注册  忘记密码?

社交账号快速登录