hadoop简介及工资水平:
目前Hadoop的应用越来越广泛,很多企业都开始采用,Hadoop人才也很稀缺和抢手,待遇和远比Java、.Net开发好。本系列课讲解目前主流的Hadoop版本Cloudera Hadoop 4(这里采用cdh4.1),该版本相比0.20.x,性能和稳定性上提高很多。cdh4环境搭建相比旧版本也复杂很多,但可以用cloudera-manager对集群进行管理和配置。CDH4默认集成了常用的所有组件如Hive、Sqoop、HBase、Hue、Pig、Flume、Mahout、Zookeeper等,从而形成一功能强大的分布式平台。
本课会分享一些本人所在团队自研的适用于企业级开发和应用的框架和工具,这些有效提高了开发效率,大大降低了维护成本,这些正是我们多年实战的结晶。
课程大纲及内容简介:
每节课约35分钟,共不下40讲。
第一章(11讲)
·分布式和传统单机模式
·Hadoop背景和工作原理
·Mapreduce工作原理剖析
·第二代MR--YARN原理剖析
·Cloudera Manager 4.1.2安装
·Cloudera Hadoop 4.1.2 安装
·CM下集群管理一
·CM下集群管理二
·Hadoop fs 命令详解
·cloudera manager管理集群
·cloudera manager下集群高级管理
第二章(约10讲)
·Hive数据表和数据存储
·Hive的Java扩展开发
·Hive UDF和UDAF开发
·Hive JDBC连接
·Hive常见场景,实战练习
·Hive -f 传参框架开发
由于hive自带命令hive -f无法传参数,导致hive跨文件的使用基本瘫痪,
无法大量推广。该框架可以任意传参,让hive企业级应用开发更高效和简洁。
第三章(约5讲)
·Sqoop原理
·Sqoop使用详解
·用Sqoop实现HDFS/Hive与关系数据库的数据交互
·用Sqoop实现HBase与关系数据库的数据交互
第四章(约8讲)
·Hbase原理
·Hbase系统架构
·Hbase存储机制
·Hbase基本使用
·Hbase表设计思路和方案
·常见应用场景
·和Hive交互
·Java访问、WEB开发
第五章 项目实战(约8讲)
电商业日志流量分析项目,互联网企业对海量日志的分析是Hadoop应用的一个重要用途,也是对网站流量、客户行为分析的重要途径。该项目整合Hive、Hbase、Sqoop等常用组件,涉及从后台处理到前台呈现的每一个技术环节。
包括:
·业务需求介绍
·数据建模
·后台算法设计
·后台业务处理
·前台WEB展示等
...
课程详细大纲列表:
第一讲:Cloudera Manager介绍与安装
第二讲:Cloudera Manager详解
第三讲:CDH4.1介绍与环境搭建一
第四讲:CDH4.1环境搭建二
第五讲:Hadoop工作原理、调度策略
第六讲:Hadoop开发作业形式
第七讲:CM下CDH4.1集群高级管理一
第八讲:CM下CDH4.1集群高级管理二
第九讲:小结及Hadoop工作原理
第十讲:Hive工作原理和基本使用
第十一讲:Hive元数据管理和语法详解
第十二讲:Hive表和存储结构
第十三讲:运维案例分享_单机存储均衡和坏block处理
第十四讲:Hive QL 一
第十五讲:Hive QL 二
第十六讲:UDF和UDAF开发
第十七讲:UDAF开发和JDBC访问
第十八讲:Hive优化规则总结
第十九讲:Hive数据压缩技术
第二十讲:Hive-f封装支持传参一
第二十一讲:Hive-f封装支持传参二
第二十二讲:Sqoop使用一
第二十三讲:Sqoop使用二
第二十四讲:Sqoop作业调度
第二十五讲:HBase体系结构
第二十六讲:HBase 表设计案例
第二十七讲:HBase数据加载(Sqoop和Java)
第二十八讲:HBase存储机制
第二十九讲:Java操作HBase一
第三十讲:Java操作HBase二
第三十一讲:Java操作HBase三
第三十二讲:hbase与Hive接口及项目介绍
第三十三讲:订单在线实时查询_Schema设计和HBase数据加载
第三十四讲:订单在线实时查询_DAO层实现
第三十五讲:订单在线实时查询_DAO层和前台实现
第三十六讲:电商日志流量分析_项目介绍
第三十七讲:电商日志流量分析_业务实现一
第三十八讲:电商日志流量分析_业务实现二
第三十九讲:电商日志流量分析_业务实现三
第四十讲:电商日志流量分析_业务实现四第四十一讲:CDH5搭建之CM5安装部署
第四十二讲:CDH5搭建和CM界面化集群管理