【新增3个阶段】Spark全面精讲(基于Spark2版本+含Spark调优+超多案例)

深入浅出Spark2

默认教学计划
(20人评价)
价格 ¥1880.00
教学计划
课程介绍

温馨提示:
西瓜老师大数据课程VIP答疑QQ群:524715210,购买过课程的学员,请联系客服(QQ:2327819118)申请入群,代码和PPT在群文件里面下载。

 老师曾在电信行业从事大数据开发和架构工作。负责过多个大型大数据项目开发和架构。精通hadoop,hive,hbase,spark等大数据技术,有丰富的企业培训经验和多年授课经验。

1. spark-2.0.1-bin-hadoop2.6.tgz
2. apache-hive-1.2.1-bin.tar.gz
3. apache-maven-3.0.5-bin.tar.gz
4. CentOS 6.4版本64位操作系统虚拟机.zip
5. eclipse
6. eclipse-jee-kepler-R-win32-x86_64.zip
7. hadoop-2.6.0.tar.gz
8. hbase-0.98.22-hadoop2-bin.tar.gz
9. hbase-0.98.8-hadoop2-bin.tar.gz
10. jdk-7u67-linux-x64.tar.gz
11. jdk-7u80-windows-x64.exe
12. mysql-connector-java-5.1.10.jar
13. PieTTY0.3.26.exe
14. scala-2.10.4.msi
15. scala-2.11.4.tgz
16. scala-intellij-bin-1.4.15.zip
17. SecureCRT
18. spark-1.6.2-bin-hadoop2.6.tgz
19. VMWare10软件.rar
20. kafka_2.11-0.10.0.1.tgz
21. apache-flume-1.6.0-bin.tar.gz

1.学习本课程需要Java基础和hadoop基础。课程227讲,如果您时间上充分,建议以每天3-4讲的进度往前学习,一定要进行操作,记笔记。
2.学习要求:
持之以恒,每天都坚持学习(看视频、实际联系,多思考),有问题及时沟通交流解决,建议多看官方文档。
3.讲师建议:
①最好看完视频之后,抛开视频,独立自己去把上课中的示例写一遍,看自己是否理解,如果不正确,可以回过头看
再看下视频,如果反复,达到真正理解和熟练掌握的目的。
②对于实战部分,一定要自己亲自动手做一遍,不要满足听完就OK了
③建议一般听视频,一般拿个纸和笔,做一些记录和笔记,这是一种非常好的学习习惯。
④一定不要过于依赖视频,要学会看API和使用百度,学会思考,学会举一反三  

 本课程学完以后,相当于有1-2年spark开发经验。可以熟练掌握scala开发,spark core开发,spark streaming开发,sparkSQL开发。能独立完成spark大数据的项目,并对项目进行调优。
  本套课程里涉及了spark与MySQL,Hive,Tachyon ,Kafka, hbase,flume,hadoop等大数据热门技术的交互。且每个技术都有案例演示,属于真正意义上的大数据的开发。

每一个知识点都有小的案例演示,每一个大的模块都有综合案例演示,比如网站日志分析、用户行为分析、黑名单过滤、TopN实时统计等50多个常见热门案例。

课程由之前的5个阶段升级为8个阶段,加量不加价!

 

第一阶段:附赠Scala语言培训课程,加量不加价(2017.7.31新增)
1-01、scala与Java做对比
1-02、多门语言对比和编译器安装
1-03、开发第一个scala的程序
1-04、idea工具安装
1-05、使用IDEA创建项目和项目打包
1-06、变量的申明
1-07、条件表达式和块表达式
1-08、循环-while和for
1-09、调用方法和函数
1-10、scala方法的声明
1-11、函数和方法的区别
1-12、体会函数式编程
1-13、用Java去解释函数式编程
2-14、前面知识回顾
2-15、创建定长数组
2-16、创建边长数组
2-17、数组的遍历
2-18、数组常见的算法
2-19、Map集合操作
2-20、元组操作
2-21、list和Array数组
2-22、List集合的补充
2-23、综合练习
2-24、Set集合
2-25、lazy特性
2-26、类的定义
2-27、主构造器
2-28、辅助构造器
2-29、对象,伴生对象
2-30、apply方法
2-31、应用程序对象
2-32、抽象和继承
2-33、Trait
2-34、模式匹配
2-35、关于字符串的使用
2-36、样例类
2-37、Option类的使用
2-38、偏函数
3-39、curring
3-40、隐式参数
3-41、隐式转换发生的时机1
3-42、隐式转换案例演示(1)
3-43、隐式转换案例演示(2)
3-44、隐式转换发生时机2
3-45、上界
3-46、下界
3-47、视图边界
3-48、协变
3-49、逆变
3-50、知识归纳
3-51、案例需求
3-52、案例代码演示
4-53、Akka基本概念
4-54、Akka的简单案例演示
4-55、综合案例需求分析
4-56、综合案例代码演示

 

第二阶段、Spark core深度剖析
第00课、课程特色和学习方式
第1课、Spark概述(四大特性)
第2课、Spark快速使用
第3课、什么是RDD? 
第4课、Spark架构 
第5课、linux环境准备(虚拟机,linux) 
第6课、hadoop环境准备 
第7课、Spark环境准备 
第8课、Spark开发环境搭建(java,scala) 
第8课、Spark开发环境搭建-maven打包(第8节补充) 
第9课、Spark任务提交
第10课、Historyserver服务配置 
第11课、RDD的创建方式 
第12课、Transformation和action原理剖析
第13课、map,filter,flatMap算子演示(java版) 
第14课、groupbykey,reduceByKey,sortByKey算子演示(java版) 
第15课、join,cogroup,union算子演示(java版本) 
第16课、Intersection,Distinct,Cartesian算子演示(java版本) 
第17课、mapPartitions,reparation,coalesce算子演示(java版) 
第18课、sample,aggregateBykey算子演示(java版本) 
第19课、mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示(java版) 
第20课、action算子演示(java版) 
第21课、map,filter,flatMap,groupByKey,reduceByKey,groupByKey,sortByKey算子演示(scala版) 
第22课、join,cogroup,union,intersection,distinct,cartesian算子演示(scan版) 
第23课、mapPartitions,reparition,coalesce,sample,aggregateByKey算子演示(scala版 
第24课、mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示(scala版) 
第25课、RDD持久化(Tachyon) 
第26课、共享变量(广播变量,累加变量) 
第27课、Spark on YARN模式(cluster,client) 
第28课、窄依赖和宽依赖 
第29课、Shuffle原理剖析 
第30课、stage划分原理剖析 
第31课、Spark任务调度
第32课、综合案例一TopN(scala)
第33课、综合案例二日志分析上(scala) 
第33课、综合案例二日志分析下(scala)
第34课、Spark2内核新特性

 

第三阶段、Spark调优
第35课、Spark调优概述
第36课、开发调优(1) 
第37课、开发调优(2) 
第38课、开发调优(3) 
第39课、开发调优(4)
第40课、开发调优(5) 
第41课、开发调优(6) 
第42课、开发调优(7) 
第43课、开发调优(8) 
第44课、开发调优(9)
第45课、数据本地化 
第46课、数据倾斜的原理
第47课、数据倾斜解决方案一 
第48课、数据倾斜解决方案二 
第49课、数据倾斜解决方案三 
第50课、数据倾斜解决方案四 
第51课、数据倾斜解决方案五 
第52课、数据倾斜解决方案六 
第53课、数据倾斜解决方案七 
第54课、shuffle调优
第55课、Spark资源模型(内存管理)
第56课、资源调优 
第57课、Spark JVM调优(1) 
第58课、Spark JVM调优(2) 
第59课、Spark JVM调优(3) 
第60讲、Spark JVM调优(4) 
第61课、Spark JVM调优(5) 
第62课、Spark调优总结 

 

第四阶段、Spark SQL精讲
第63课、SparkSQL前世今生 
第64课、DataFrame使用 
第65课、reflection方式将RDD转换成DataFrame 
第66课、Programmatically方式将RDD转换成DataFrame 
第67课、DataFreme VS RDD 
第68课、数据源之数据load和save 
第69课、parquet文件操作 
第70课、数据源之json 
第71课、数据源之JDBC
第72课、数据源之Hive table-hive环境搭建
第73课、数据源之Hive table-spark环境集成 
第74课、数据源之Hive table-使用
第75课、数据源之HBase环境准备 
第76课、数据源之HBase 
第77课、Thriftserver使用
第78课、UDF开发
第79课、UADF开发 
第80课、开窗函数 
第81课、groupBy和agg函数使用 
第82课、综合案例一(日志分析) 
第83课、综合案例二(用户行为分析)-1 
第84课、综合案例二(用户行为分析)-2 
第85课、综合案例二(用户行为分析)-3 
第86课、综合案例二(用户行为分析)-4
第87课、综合案例二(用户行为分析)-5 

 

第五阶段 SparkStreaming精讲
第88课、SparkStreaming的应用 
第89课、Spark Streaming工作原理 
第90课、Spark Streaming入门案例 
第91课、Streaming VS Mapreduce VS Storm 
第92课、Spark Streaming HDFS WordCount例子演示 
第93课、Spark Streaming之updateStateByKey 
第94课、Spark Streaming之mapWithState
第95课、Spark Streaming之transform 
第96课、Spark Streaming之window操作 
第97课、Spark Streaming之foreachRDD 
第98课、Spark Streaming之与kafka和flume集成的两种方式
第99课、Spark Streaming之kafka原理介绍 
第100课、Spark Streaming之kafka集群部署
第101课、Spark Streaming之kafka集成 
第102课、Spark Streaming之flume原理介绍 
第103课、Spark Streaming之flume搭建 
第104课、Spark Streaming之flume集成 
第105课、Spark Streaming之综合案例演示-TopN计算
第105课、Spark Streaming之综合案例演示-TopN计算 -补充 
第106课、Spark Streaming之Driver HA配置 

 

第六阶段 Spark2新特性
第107课、Spark2新特性之 Spark2设计目标-更容易、更快速、更智能 
第108课、Spark2新特性之whole-stage code generation和vectorization技术剖析 
第109课、Spark2 新特性之SparkSession 
第110课、Spark2新特性之RDD,DataFrema和DataSet关系 
第111课 、Spark2新特性之DataSet[Untyped] transformations演示(1) 
第112课、Spark2 新特性之DataSet Actions(2)
第113课 、Spark2 新特性之Basic Dataset functions操作(3) 
第114课、Spark2 新特性之DataSet[Typed] transformations(4)
第115课、Spark2新特性之再探RDD,DataFrame 和DataSet关系 
第116课、Spark2 新特性之 Structured Streaming设计目标 
第117课、spark2新特性之 Structured Streaming 案例演示 
第118课、Spark2 新特性之 Structured Streaming原理剖析

 

第七阶段、Spark源码导读(2017.8.17新增,加量不加价)

1.如何获取Spark源码
2.Spark服务的启动流程
3.源码执行wordcount的程序
4.SparkContext初始化(1)
5.SparkContext初始化(2)
6.Master的资源分配算法
7.Executor向Driver注册
8.ExcutorUML图
9.知识回顾
10.大体过一下任务提交流程
11.Stage的划分
12.Spark任务调度流程

 

 

第八阶段、实战项目:用户行为分析(2017.8.17新增,加量不加价)
1.项目流程介绍
2.项目整体概况
3.大数据项目的数据来源
4.项目背景
5.常见概念
6.项目需求
7.项目整理流程
8.从表的设计引发的思考
9.获取任务参数
10.需求一数据信息
11.需求一根据条件筛选会话
12.需求一举例说明
13.需求一点击下单支付品类TopN(上)
14.需求一点击下单支付品类TopN(下)
15.需求二需求分析
16.需求二数据信息
17.需求二获取用户行为数据
18.需求二用户表和信息表join
19.需求二再次需求分析
20.需求二自定义UDF函数
21.需求二自定义UDAF函数
22.需求二各区域商品点击次数统计
23.需求二城市信息表和商品信息表join
24.需求二各区域热门商品统计
25.需求二把结果持久化导数据库
26.需求二总结
27.需求三需求分析
28.需求三数据信息
29.需求三思路梳理
30.需求三从kafka获取数据
31.需求三对数据进行黑名单过滤
32.需求三动态生成黑名单(上)
33.需求三动态生成黑名单(下)
34.需求三实时统计每天各省份各城市广告点击
35.需求三实时统计各省份流量点击
36.需求三实时统计广告点击趋势
37.需求三总结

 

 

课程是属于某个特定的专业技术,掌握该技术后,你可以从事以下职位的相关工作

1.我没有Java基础,怎么办?
推荐学习我们的Java入门课程:http://www.xuetuwuyou.com/course/13
2.我没有Hadoop基础怎么办?
推荐学习我们的Hadoop课程:http://www.xuetuwuyou.com/cloud/search?q=Hadoop
3.我没有scala语言基础怎么办?
推荐学习我们的Scala课程:http://www.xuetuwuyou.com/course/12
4、我没有Linux基础怎么办?
推荐学习我们的Linux基础入门课程:http://www.xuetuwuyou.com/course/61

 

可以,扫描我们的微信公众号二维码,使用手机、iPad等通过微信随时登录我们网站学习课程。

我们的有专门的VIP答疑QQ群,购买课程之后,可以联系客服申请入群,老师就在群里,不懂的地方可以直接咨询老师。另外,课程PPT和代码在群文件里面下载!

西瓜老师大数据VIP答疑QQ群: 524715210

客服QQ:2327819118

 

课程目标
  • 本课程学完以后,相当于有1-2年spark开发经验
  • 可以熟练掌握scala开发,spark core开发,spark streaming开发,sparkSQL开发。
  • 能独立完成spark大数据的项目,并对项目进行调优。
  • 本套课程里涉及了spark与MySQL,Hive,Tachyon ,Kafka, hbase,flume,hadoop等大数据热门技术的交互。且每个技术都有案例演示,属于真正意义上的大数据的开发。

授课教师

学途无忧网金牌讲师

课程特色

视频(227)