企业管理培训分类导航
企业管理培训公开课计划
企业培训公开课日历
2025年
2024年
职业技能培训公开课
职业技能培训内训课程
热门企业管理培训关键字
Hadoop+Spark大数据分析最佳实践研修班
【课程编号】:MKT033947
Hadoop+Spark大数据分析最佳实践研修班
【课件下载】:点击下载课程纲要Word版
【所属类别】:职业技能培训
【时间安排】:2016年08月13日 到 2016年09月04日5800元/人
【授课城市】:深圳
【课程说明】:如有需求,我们可以提供Hadoop+Spark大数据分析最佳实践研修班相关内训
【课程关键字】:深圳Hadoop培训,深圳Spark培训
我要报名
咨询电话: | |
手 机: | 邮箱: |
【教学目标】
1、学习大数据处理相关技术与理论;
2、全面学习使用Hadoop生态系统进行数据分析的技术;
3、Spark及其相关框架进行快速机器学习的技术。
【教学大纲】
第一天Hadoop基础
Hadoop产生的背景
Hadoop设计目标、适合的场景
Hadoop生态圈以及各组成部分的简介
Hadoop 2.0 产生背景及基本构成
Hadoop安装与配置
HDFS 2.0、MapReduce 2.0
Hadoop核心MapReduce简单例子说明
Hadoop数据的存储-HDFS
分布式文件系统 DFS 简介
HDFS 的设计原理
HDFS 的组成部分详解
副本存放策略及路由规则
HDFS 基本操作与配置管理
客户端与 HDFS 的数据流讲解
HDFS API 开发入门:命令行接口、Java 接口
HDFS 的高可用性(HA)与NN Federation
第二天Hadoop数据的存储-HBASE
HBASE 简介
HBASE 安装与配置
HBase的系统架构与特性
HBASE 和 RDBMS 的异同
HBASE 客户端软件介绍
HBase的表结构,RowKey,列族和时间戳
HBASE 表操作
HBase中的 Master,Region 以及 Region Server
HBase上的MapReduce
HBASE 实践案例
MapReduce开发模型
MapReduce基本原理与架构
MapReduce的运行过程
深入理解 map、reduce 计算模型
MapReduce开发环境搭建
搭建MapReduce的 java 开发环境
使用MapReduce的 java 接口实现数据分析应用
MapReduce的类型与格式
简单MapReduce应用开发
剖析伪分布式下MapReduce作业的执行过程
数据序列化
第三天MapReduce高级进阶
常见MapReduce设计问题
用户定制数据
多数据源的连接
关系数据库的链接与访问
机器学习基本知识
第四天使用Hadoop进行数据分析案例
聚类分析应用
分类算法的应用
第五天Spark基础
Spark概述
Spark生态系统
Spark的安装与配置
Spark开发环境的搭建
Spark交互式工具Spark-shell的使用
Spark的编程模型
Spark计算模型
RDD基础
RDD的操作、特点与依赖关系
持久化机制
Transformation、Action算子及其功能介绍
第六天Spark SQL
Hive入门
数据的读取与存储
Spark SQL进阶操作
Spark SQL实战示例
Spark Streaming实时机器学习
Spark Streaming原理
Spark Streaming运行方式
Spark Streaming的缓存与容错
Spark Streaming实战示例
第七天
使用MLib进行机器学习
机器学习基础概述
常用机器学习算法讲解
分类算法
聚类算法
回归算法
特征选择
MLib中机器学习算法的使用
MLib实战示例
图运算与GraphX基础
图论基础
GraphX架构概述
GraphX实战示例
第八天Spark的运维
运行架构概述
Standalone运行过程
Spark on YARN
Spark性能优化基础
Spark源码阅读入门与企业应用概述
高老师
高老师,中国科学院博士后,主要研究方向为机器学习与推荐系统,曾以核心人员身份参与国家重大项目四项,在国内外学术期刊与会议上发表论文十余篇,申请发明专利多项,目前已授权一项。近年来,致力于机器学习技术在互联网企业中的应用与推广,已为电商、互联网、广告等领域公司设计并主持开发了数据分析系统七套。