首页
选课中心
资源下载
免费领优惠码
架构师套餐
App下载
讲师合作
首页
选课中心
资源下载
免费领优惠码
架构师套餐
App下载
讲师合作
登录
注册
切换触屏版
登录
注册
Spark 2.x企业级大数据项目实战(实时统计、离线分析和实时ETL)
简介
分类
大数据
课程标签:
大数据
Kafka
Spark2.0
查看课程
任务列表
第1任务: 流式实时数据分析项目实战内容提纲(企业级开发、仿双十一订单实时统计及性能优化)
第2任务: SparkStreaming实时状态统计应用引出容灾恢复(高可用)和更新状态性能问题
第3任务: SparkStreaming应用代码初步重构及引出实时累加应用高可用性(设置检查点及恢复)
第4任务: StreamingContext创建优化(非第一次启动应用从检查点目录构建)及代码演示(高可用性)
第5任务: SparkStreaming中mapWithState实时状态更新函数使用说明
第6任务: 模拟电商购物节订单分析:订单分析需求说明及准备(创建Topic及开发环境)
第7任务: 调用Kafka Producer API模拟产生JSON格式订单数据发送Topic中(一)
第8任务: 调用Kafka Producer API模拟产生JSON格式订单数据发送Topic中(二)
第9任务: 针对SparkStreaming实时流式应用数据分析利用Scala贷出模式编写应用开发模块
第10任务: 模拟电商购物节订单分析:采用Direct方式获取KAFKA数据并解析JSON格式
第11任务: 模拟电商购物节订单分析:updateStateByKey实时累加统计各省份销售额(重载函数使用)
第12任务: 模拟电商购物节订单分析:Redis内存数据库介绍、下载和配置、启动服务及CLI基本使用
第13任务: 模拟电商购物节订单分析:实时累加统计各省份销售额保存Redis 数据库哈希Hash
第14任务: 最近窗口数据Top5省份订单量(集成SparkSQL,注册临时视图,SQL分析)
第15任务: 实时应用性能优化(设置分区最大数目、数据本地性等待时间、反压机制、内存GC等)
第16任务: 某旅游电商用户行为分析系统数据、业务调研深入剖析
第17任务: 某旅游电商用户行为分析系统项目架构设计(技术架构)-架构三原则
第18任务: 基于SparkCore实现用户行为分析环境准备
第19任务: 数据ETL:SparkCore读取数据及解析日志数据
第20任务: 数据ETL:过滤不合格的数据(解析异常或事件类型不对)和引出广播变量
第21任务: 数据ETL:使用广播变量优化程序过滤数据
第22任务: 数据ETL:如何设计HBase表及RowKey组成设计
第23任务: 数据ETL:实现RowKey拼接及构建Put对象
第24任务: 数据ETL:定义函数依据传递处理日期参数来创建HBase表(先判断,再删除)
第25任务: 数据ETL:指定预分区、设置压缩等创建表及测试保存数据至HBase表
第26任务: ETL操作时程序代码优化点详细剖析(预分区、广播变量及批量加载数据:跳过WAL和转换HFile)
第27任务: 新增用户分析:需求调研的说明(不同维度分析)及读取HBase表的不同字段值
第28任务: 新增用户分析:从HBase表中读取数据,设置Scan过滤条件(一)
第29任务: 新增用户分析:从HBase表中读取数据,设置Scan过滤条件(二)
第30任务: 新增用户分析:转换读取HBase表数据并进行维度数据组合
第31任务: 新增用户分析:基本维度分析和浏览器维度分析
第32任务: 读写HBase表数据引出优化:针对HFile数据文件进行读写操作(提高性能、减轻集群负载)
第33任务: 阅读ImportTsv源码找出HFile数据变换、修改数据转换格式为KeyValue及细节处理
第34任务: 优化数据ETL:完成数据写入至HFile文件、加载HFiles至HBase表中及本地测试
第35任务: 提交运行:将数据ETL程序打JAR包,编写Shell脚本,提交运行(查找程序依赖第三方JAR包)
第36任务: 提交运行:增加属性文件配置,针对本地测试和集群测试读取IP地址解析仿真数据文件进行优化
第37任务: 使用SparkSQL针对新增用户业务编程分析:将RDD转换为DataFrame
第38任务: 分别使用DSL和SQL进行指标分析和引出如何保存结果数据至MySQL表中
第39任务: 综合回顾复习Spark读取HBase数据三种方式(Scan、HFile、HBaseContext)
第40任务: HBase中快照SnapShot使用
第41任务: 修改程序读取表的HFiles进行数据分析
第42任务: 使用foreachPartition方式将分析结果保存至MySQL表中一
第43任务: 使用foreachPartition方式将分析结果保存至MySQL表中)二
第44任务: 分析需求(实时将数据ETL到不同HBase表中)及准备开发环境(模拟测试数据,创建Topic等)
第45任务: SparkStreaming读取Kafka Topic数据,解析orderType
第46任务: 实时数据ETL:不同支付类型订单数据创建不同HBase表(封装插入数据方法)
第47任务: 编写代码数据插入HBase表、联动测试(模拟实时产生数据,实时消费,分区数据,插入表中)
第48任务: SparkStreaming采用Direct方式读取Kafka Topic数据的自动管理
第49任务: 从Redis中读取Topic的各个分区消费偏移量信息(使用哈希Hash存储)及编码测试
第50任务: 当每批次数据插入HBase表以后,将Topic各个分区数据消费偏移量保存Redis中
第51任务: 监控扩展:Zookeeper Cluster常见监控工具及zkUI监控工具使用详解
第52任务: 监控扩展:Kafka Cluster常见监控工具及Kafka Eagle监控工具使用详解
第53任务: 课程配套讲义、笔记、代码及软件资料.rar