(1人评价)
Kudu分布式存储引擎
价格 ¥ 239.40 ¥399.00 6折
活动
课程介绍

Black老师:
曾担任某知名共享单车大数据部门负责人,现担任某知名广告公司大数据高级架构师,有丰富的企业内部技术分享、技术培训和技术讲座的经验。近年来一直致力于研究大数据领域技术。擅长Hadoop、Spark、Kudu、HBase、Impala、Flume等。负责过多个大型大数据系统的开发和架构,包含大数据离线分析平台,大数据实时分析平台(实时,准实时)等。

 

温馨提示:

本课程作为Kudu入门级的教学,本课程侧重讲原理、架构、优化、基础api,和spark、canel、impala的集成需要大家自己去学习。

Kudu是Cloudera公司研发工程师Todd Lipcon在2015年开源的,开发语言是C++,近些年发展十分迅速,在阿里、小米、网易、京东、浪潮等公司的大数据架构(离线、实时、元数据管理、数据质量、存储和成本管理)中,Kudu都有着不可替代的地位。


在Kudu之前,大数据主要以两种方式存储,第一种是静态数据:以HDFS引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写和批量的更新操作。第二种是动态数据:以HBase作为存储引擎,适用于大数据随机读写场景。这类存储的局限性是批量读取吞吐量远不如HDFS、不适用于批量数据分析的场景。从上面分析可知,这两种数据在存储方式上完全不同,进而导致使用场景完全不同,但在真实的场景中,边界可能没有那么清晰,面对既需要随机读写,又需要批量分析的大数据场景,该如何选择呢?


Kudu完美的解决了上述问题,在HDFS和HBase这两个中平衡了随机读写和批量分析的性能,既支持了SQL实时查询,也支持了数据更新插入操作。完美的和Impala集成,统一了HDFS数据源和Kudu数据源,从而使得开发人员能够高效的进行数据分析。

    特点如下:

编程简单:开发人员只需要关注业务逻辑

 

可扩展性:随着数据规模和计算量越来越大,集群可横向扩展

 

容错性:单个节点宕掉,不影响正常集群服务

 

高性能:轻松应对EB级别以上数据

 

适用人群

1、具有一定的Java基础
2、具有一定的Hadoop开发基础
3、对Kudu技术感兴趣的大数据开发人员

应用场景

1、适合于在线实时分析的应用
2、适合大数据量更新操作的应用
3、适合将mysql的数据同步到kudu,减轻备库mysql查询的压力
4、适合存储ADS数据,包含用户标签、各类指标数据等
5、适合于存储结构化数据
6、适合于和Impala继承,SQL分析数据
7、适合于和HDFS一起使用,聚合数据源

课程使用软件版本

CentOS-7.4-X86_64
Kudu-1.7.0-cdh5.14.0
JDK-8u181-linux-x64
IDEA-2018.3.1
Apache-maven-3.5.3

 

  1. 阐述了Kudu的产生背景和应用场景
  1. 由浅入深的剖析了Kudu的基础架构、底层存储原理、读写流程、和HBase的对比
  1. 手把手的搭建了Kudu的分布式集群
  1. 详细的剖析了的Kudu的增删改查API和数据刷新策略
  1. 详细的描述了Kudu在实际生产环境中的架构图和应用,并剖析了如何和Spark进行交互、如何和Mysql进行交互
  1. 总结性的阐述了Kudu的性能测试报告、报错解决方案、性能优化方案
  1. 帮助同学们掌握基础的Linux常用命令

 

授课教师

大数据资深讲师

课程特色

视频(16)
下载资料(1)