课程学习地址:http://www.xuetuwuyou.com/course/312
课程出自学途无忧网:http://www.xuetuwuyou.com


本课程为就业课程,以完整的实战项目为主线,项目各个环节既深入讲解理论知识,又结合项目业务进行实操,从而达到一站式学习,让你快速达到就业水平。

大数据常见热门技术,一课搞定: linux、Shell编程、虚拟机、Hadoop(HDFS、MapReduce、Yarn、分布式集群)、Zookeeper、CDH5、Eclipseg与MapReduce集成开发、Eclipse配置Maven管理多个MapReduce、HBase分布式实时数据库、Kafaka 消息集群、Flume日志采集、Flume与Kafaka集成、Flume与HBse集成、Flume HBaseSlink 二次开发源码部署、Flume+HBase+Kafaka集成开发、Hive大数据仓库、Hive与HBase集成、Hue大数据项目可视化分析,Spark2.x 离线数据计算、Spark2.x 实时数据分析(Spark SQL、Spark Stream)、可视化数据展示(Eclipse+JDBC+Hive+Spark+MySQL+Echarts)

全真企业项目全流程演示: 大数据生产->采集->存储->处理->计算->分析(离线+实时)->抽取(离线+实时)->Java接口->可视化Web展示。

开发环境:
CDH5、Spark2.3.x


课程目录:

第一章:项目需求分析前瞻 
课时1: 课程介绍
课时2: 项目需求与分析
课时3: 系统架构设计
课时4: 数据流程设计
课时5: 大数据集群平台角色规划

第二章:大数据平台集群节点准备
课时6: 虚拟机介绍
课时7: VMware虚拟机安装
课时8: Linux操作系统介绍
课时9: 虚拟机安装1
课时10: 虚拟机安装2
课时11: Linux网络配置
课时12: Linux静态IP配置
课时13: Linux虚拟机克隆
课时14: X-Shell集群连接工具使用
课时15: Linux创建用户和用户组
课时16: Linux主机名配置
课时17: Linux防火墙关闭
课时18: openssh-clients服务安装
课时19: 配置主机名与IP地址映射
课时20: SSH免密码登录
课时21: FileZilla集群上传与下载工具的安装与使用
课时22: 集群节点2完整配置
课时23: 集群节点3完整配置

第三章:Zookeeper服务及分布式集群安装部署
课时24: Zookeeper生态圈
课时25: Zookeeper系统架构原理
课时26: Zookeeper如何提供服务
课时27: Zookeeper集群规划
课时28: Zookeeper集群时钟同步
课时29: Zookeeper集群Hosts文件配置
课时30: Zookeeper集群SSH免密码登录
课时31: Zookeeper 集群配置文件编写
课时32: 集群分发脚本deploy.sh编写
课时33: 集群分发脚本deploy.sh调试
课时34: 集群远程命令执行脚本runRemoteCmd.sh编写
课时35: Zookeeper集群JDK安装
课时36: Zookeeper集群安装部署
课时37: Zookeeper Shell测试运行

第四章:HDFS分布式文件系统
课时38: HDFS概述
课时39: HDFS体系结构
课时40: HDFS高可用原理

第五章: YARN资源管理系统
课时41: YARN概述
课时42: YARN系统架构
课时43: MapReduce ON YARN
课时44: YARN高可用

第六章:Hadoop(CDH5)分布式集群安装部署
课时45: HDFS安装配置
课时46: HDFS服务启动
课时47: HDFS测试运行
课时48: YARN安装配置
课时49: YARN服务启动bug调试
课时50: YARN测试运行
课时51: Hadoop官网文档使用详解

第七章: MapReduce分布式计算框架
课时52: MapReduce概述
课时53: MapReduce编程模型
课时54: Wordcount完整流程分析

第八章:Eclipse与MapReduce集成开发
课时55: 本地JDK安装配置
课时56: Eclipse下载安装1
课时57: Eclipse下载安装2
课时58: 本地maven安装配置
课时59: Eclipse配置maven
课时60: Eclipse构建maven项目
课时61: Eclipse开发MapReduce程序1
课时62: Eclipse开发MapReduce程序2
课时63: Eclipse本地调试运行MapReduce1
课时64: Eclipse本地调试运行MapReduce2
课时65: Eclipse项目打包的两种方式
课时66: MapReduce提交YARN集群运行
课时67: maven管理多个MapReduce程序1
课时68: maven管理多个MapReduce程序2
课时69: MapReduce调试、打包及部署运行

第九章:HBase分布式实时数据库
课时70: HBase数据模型
课时71: HBase物理模型
课时72: HBase系统架构组成
课时73: HBase实际应用案例

第十章:HBase分布式集群部署与设计
课时74: HBase安装前须知
课时75: HBase集群规划
课时76: HBase版本选择与下载解压
课时77: HBase配置文件修改
课时78: HBase启动运行
课时79: HBase master切换访问
课时80: HBase 数据库shell测试运行
课时81: HBase业务建模

第十一章: Kafka消息系统
课时82: Kafka定义及应用场景
课时83: Kafka设计目标与特点
课时84: Kafka系统架构组成
课时85: Kafka拓扑结构

第十二章:Kafka1.x分布式集群安装部署
课时86: Kafka版本兼容性与选择
课时87: Kafka集群安装配置
课时88: Kafka在Zookeeper元数据解读
课时89: Kafka 新api测试运行
课时90: Kafka旧api测试运行
课时91: Kafka集群监控与kafkamonitor.sh脚本编写
课时92: Kafka 监控可视化指标分析
课时93: Kafka监控注意事项

第十三章:Flume日志采集系统
课时94: Flume概述
课时95: Flume系统架构
课时96: Flume安装部署1
课时97: Flume安装部署2
课时98: Flume集群构建-编写集群配置文件
课时99: Flume集群构建-数据聚合测试运行

第十四章:Flume与Kafka集成开发
课时100: 大数据项目数据格式分析
课时101: 项目数据预处理
课时102: KafkaSink配置详解
课时103: 编写Flume与Kafka集成配置文件
课时104: Flume单节点与Kafka集成测试运行
课时105: Flume集群与Kafka集成测试运行

第十五章:Flume与HBase集成开发
课时106: HBaseSink配置详解
课时107: Flume与HBase最简集成1
课时108: Flume与HBase最简集成2
课时109: HBase模型建立及与Flume集成配置文件编写
课时110: Eclipse导入Flume源码
课时111: Eclipse导入Flume源码错误调试
课时112: Flume HBaseSink源码分析
课时113: Flume HBaseSink源码修改
课时114: Flume HBaseSink增加调试代码
课时115: Flume HBaseSink源码打包及配置文件修改
课时116: Flume HBaseSink二次开发源码部署
课时117: Flume与HBase集成项目测试运行

第十六章:Flume+HBase+Kafka集成开发
课时118: 大数据项目离线和实时数据流程详解
课时119: Flume Channel选择器原理
课时120: Flume Channel选择器配置详解
课时121: Flume单节点集成Kafka与HBase配置编写
课时122: Flume单节点集成Kafka与HBase测试运行
课时123: Flume集群集成Kafka与HBase配置文件编写
课时124: Flume集群集成Kafka与HBase测试运行

第十七章:日志应用程序+Flume+Kafka+HBase集成开发
课时125: 应用服务器模拟程序开发
课时126: 模拟程序两种打包方式及脚本相关目录创建
课时127: 模拟程序服务器测试运行
课时128: 模拟程序shell脚本开发
课时129: Flume聚合启动脚本开发
课时130: Flume采集脚本开发
课时131: Flume关闭脚本开发
课时132: Kafka消费者shell脚本开发
课时133: 大数据集群服务启动1
课时134: 大数据集群启动2及测试准备工作
课时135: 数据产生、采集、存储联调1
课时136: 数据产生、采集、存储联调2
课时137: 数据产生、采集、存储联调3

第十八章:Hive大数据仓库
课时138: Hive概述
课时139: Hive体系结构及原理
课时140: Hive Metastore安装方式及部署架构
课时141: Mysql元数据库在线安装
课时142: Hive安装配置
课时143: Hive服务启动与测试
课时144: Hive图像界面安装配置
课时145: Hive Web服务启动运行
课时146: HiveServer与Hive Server2区别与联系
课时147: JDBC连接HiveServer2测试1
课时148: JDBC连接HiveServer2测试2
课时149: beeline连接HiveServer2测试运行

第十九章:Hive+HBase项目集成大数据分析
课时150: 编写Hive与HBase集成配置文件
课时151: Hive创建外部业务表1
课时152: Hive创建外部业务表2
课时153: 大数据项目数据分析测试
课时154: Flume与HBase、Hive集成大数据项目离线分析1
课时155: Flume与HBase、Hive集成大数据项目离线分析2

第二十章:Hue大数据项目可视化分析
课时156: Hue安装配置1
课时157: Hue安装配置2
课时158: Hue安装配置3
课时159: Hue与HDFS集成开发
课时160: Hue与YARN集成开发
课时161: Hue与Hive集成开发
课时162: Hue与HBase集成开发
课时163: Hue与MySQL集成开发
课时164: Hue大数据项目可视化分析1
课时165: Hue大数据项目可视化分析2

第二十一章:Spark2.3.x快速入门
课时166: Spark概述
课时167: Spark版本选择与Scala安装
课时168: Spark Shell测试运行Wordcount
课时169:Eclipse开发并测试Java版本的Spark Wordcount
课时170:Spark Submit提交运行Java版本的Wordcount
课时171: Eclipse安装Scala插件
课时172: Eclipse构建Scala maven项目
课时173:Spark Submit提交运行Java版本的Wordcount
课时174: Scala Wordcount本地和线上分别测试运行

第二十二章:Spark2.3.x编程模型
课时175: spark Application编程模型
课时176: Spark RDD宽依赖与窄依赖
课时177: Spark 创建RDD
课时178: Spark Transfamation与Action算子
课时179:Spark Submit提交运行Java版本的Wordcount
课时180: Spark Topn实现

第二十三章:Spark2.3.x分布式集群安装部署
课时181: Spark Standalone 架构
课时182: Spark Standalone 集群配置
课时183: Spark Standalone集群启动运行
课时184:Spark Standalone Client和Cluster模式详解
课时185: Spark Standalone Client和Cluster模式详解
课时186: Spark Standalone Client和Cluster模式提交作业
课时187: Spark ON YARN Client和Cluster模式详解
课时188: Spark ON YARN集群部署与测试运行

第二十四章:Spark2.3.x Streaming实时计算
课时189: Spark Streaming第一个案例实现
课时190: Spark Streaming 运行原理
课时191: Spark Streaming 开发流程及测试运行
课时192: Spark Streaming 无状态转换与有状态转换
课时193: Spark Streaming窗口函数普通规约与增量规约

第二十五章:Spark2.3.x Streaming大数据项目实时分析
课时194: 大数据项目业务建模
课时195: Spark Streaming项目业务代码编写与测试
课时196: Spark Streaming与Mysql集成开发
课时197: MySQL 中文乱码解决
课时198: nc+Spark Streaming+MySQL集成开发
课时199:Spark Streaming与Kafka集成项目业务代码编写
课时200: Flume单节点+Kafka+SparkStreaming+MySQL集成开发
课时201:应用程序+Flume集群+Kafka+SparkStreaming+MySQL集成开发

第二十六章:Spark2.3.x SQL 离线计算
课时202: SparkSQL运行架构原理
课时203: SparkSQL服务架构
课时204: RDD与DataFrame、DataSet区别与联系
课时205: RDD转DataFrame
课时206: RDD转DataSet
课时207: DataSet转DataFrame
课时208: DataSet转RDD
课时209: DataFrame转RDD
课时210: Spark SQL与Hive集成开发
课时211: Spark SQL与MySQL集成开发
课时212: Spark SQL与HBase集成开发

第二十七章:Spark2.3.x SQL大数据项目离线分析
课时213: 大数据项目业务建模
课时214: Spark SQL大数据项目离线分析业务代码实现
课时215: Spark SQL集成MySQL离线分析结果入库
课时216: Spark SQL项目离线分析总结

第二十八章:Spark2.3.x Structured Streaming 实时计算
课时217: Spark Structured Streaming第一个案例
课时218: Spark Structured Streaming编程模型
课时219: Spark Structured Streaming官网文档详解

第二十九章:Spark2.3.x StructuredStreaming项目实时分析
课时220: 大数据项目业务建模
课时221: Structured Streaming项目业务代码实现
课时222: Structured Streaming与MySQL集成业务开发
课时223: flume+kafka+StructuredStreaming+mysql集成开发业务开发
课时224: 完善项目其他业务代码开发
课时225: 项目优化及联调

第三十章:web可视化系统开发
课时226: Eclipse与tomcat集成
课时227: Eclipse构建Web项目
课时228: 数据库访问接口开发
课时229: 业务查询逻辑开发
课时230: 基于Echart组件的页面展示开发
课时231: web项目整体联调
课时232: 启动集群各个服务对数据实时可视化