课程介绍

本课程为《实战大数据(hadoop+spark+flink)》书籍配套的项目实战教程,以大数据实战项目为主线,理论和实战相结合,全方位、全流程、无死角讲解大数据项目的项目需求分析、技术选型、架构设计、集群规划、安装部署、大数据项目开发以及数据可视化。
本课程包含Hadoop、Spark、Flink等主流实用大数据技术,涵盖离线计算、实时计算、数据仓库、推荐系统、数据可视化等主流大数据项目。
学完本课程,零基础的学员能快速入行大数据,独立完成大数据项目开发;有开发基础的小伙伴也能积累各类大数据项目实战经验,快速成为大数据全栈工程师。

试看链接  https://pan.baidu.com/s/1H-NhxeT1E879z0ynZu2AFg?pwd=aqsr

相关推荐

慕课体系-大数据工程师2024版(完结38周)

Java+大数据+AI架构师实战营(高清同步)

[完结19章]多层次构建企业级大数据平台, 成就全能型大数据开发

课程目录

第 1 章 搭建 IDEA 开发环境及 Linux 虚拟机(17 节)

1-1 2.1 JDK 安装与配置

1-2 2.2 Maven 安装与配置

1-3 2.3 IDEA 安装与 Maven 配置

1-4 2.4 IDEA 创建 Maven 项目

1-5 2.5 IDEA 配置 SDK

1-6 2.6 Vmware Workstation 虚拟化软件安装

1-7 2.7 Linux 操作系统介绍

1-8 2.8 安装 Centos7 系统

1-9 2.9 配置 Linux 静态 IP1

1-10 2.10 配置 Linux 静态 IP2

1-11 2.11 x-shell 工具连接虚拟机

1-12 2.12 FileZilla 工具连接虚拟机

1-13 2.13 配置 Linux 主机名与 IP 映射

1-14 2.14 关闭 Linux 防火墙

1-15 2.15 创建 Linux 用户和用户组

1-16 2.16 Linux SSH 免密登录

1-17 2.17 替换 Centos7 yum 源

第 2 章 大数据项目课程整体介绍(1 节)

2-1 0. 课程整体介绍

第 3 章 大数据项目需求分析与架构设计(7 节)

3-1 1.1 何为大数据

3-2 1.2 大数据平台架构

3-3 1.3 大数据工程师的技能树

3-4 1.4 大数据项目需求分析

3-5 1.5 系统整体架构设计

3-6 1.6 架构设计及数据流程设计

3-7 1.7 大数据平台规划

第 4 章 基于 Hadoop 构建大数据平台(42 节)

4-1 3.1 Zookeeper 定义及特点

4-2 3.2 Zookeeper 架构及原理

4-3 3.3 Zookeeper 数据模型及应用案例分析

4-4 3.4 克隆 Linux 虚拟机 hadoop02

4-5 3.5 克隆 Linux 虚拟机 hadoop03

4-6 3.6 配置 Linux Hosts 文件

4-7 3.7 配置集群时钟同步服务

4-8 3.8 配置集群 SSH 免密登录

4-9 3.9 大数据集群脚本工具开发

4-10 3.10 JDK 安装与配置

4-11 3.11 Zookeeper 分布式集群搭建

4-12 3.12 Zookeeper shell 客户端操作

4-13 3.13 HDFS 架构设计

4-14 3.14 HDFS fsimage 与 editlog 合并

4-15 3.15 HDFS 优缺点

4-16 3.16 HDFS 读数据流程

4-17 3.17 HDFS 副本存放策略

4-18 3.18 HDFS 高可用架构及运行原理

4-19 3.19 HDFS 联邦机制

4-20 3.20 YARN 基本架构

4-21 3.21 YARN 工作原理

4-22 3.22 MapReduce ON YARN 详细工作流

4-23 3.23 YARN HA 架构及原理

4-24 3.24 YARN 的调度器详解

4-25 3.25 Hadoop 集群规划

4-26 3.26 HDFS 集群配置

4-27 3.27 启动 HDFS 集群服务

4-28 3.28 HDFS 集群测试运行

4-29 3.29 YARN 集群配置

4-30 3.30 YARN 集群服务启动与测试

4-31 3.31 Hadoop 集群提交作业测试运行

4-32 3.32 Hadoop 集群管理 1

4-33 3.33 Hadoop 集群管理 2

4-34 3.34 Hadoop 集群调优

4-35 3.35 MapReduce 基本设计思想

4-36 3.36 MapReduce 编程模型

4-37 3.37 MapReduce 应用示例

4-38 3.38 MapReduce 第一个案例代码实现

4-39 3.39 IDEA 打包 MapReduce 程序提交 Had

4-40 3.40 MapReduce 运行机制

4-41 3.41 作业失败与容错

4-42 3.42 shuffle 过程详解

第 5 章 基于 HBase 和 Kafka 构建海量数据存储与交换系统(19 节)

5-1 4.1 HBase 的定义及特点

5-2 4.2 HBase 逻辑模型与数据模型

5-3 4.3 HBase 物理模型

5-4 4.4 HBase 架构设计

5-5 4.5 HBase 分布式集群配置

5-6 4.6 HBase 集群服务启动

5-7 4.7 HBase 硬件性能调优

5-8 4.8 HBase JVM 性能调优

5-9 4.9 HBase 查询层面性能调优

5-10 4.10 HBase 参数层面的性能调优

5-11 4.11 HBase 新闻资讯业务表建模

5-12 4.12 Kafka 定义及特点

5-13 4.13 Kafka 架构设计

5-14 4.14 Kafka 分布式集群搭建

5-15 4.15 Kafka 集群测试运行

5-16 4.16 Kafka Eagle 监控安装前准备

5-17 4.17 MySQL 服务安装

5-18 4.18 Kafka Eagle 安装配置

5-19 4.19 Kafka Eagle 服务启动与验证

第 6 章 基于 Hive 构建新闻资讯大数据仓库(61 节)

6-1 5.1 Flume 架构设计

6-2 5.2 Flume 环境的搭建

6-3 5.3 Flume 分布式集群搭建 1

6-4 5.4 Flume 分布式集群搭建 2

6-5 5.5 Flume 分布式集群搭建 3

6-6 5.6 Flume 与 Kafka 集成配置

6-7 5.7 Flume 与 Kafka 集成测试

6-8 5.8 HBaseSink 源码二次开发 1

6-9 5.9 HBaseSink 源码二次开发 2

6-10 5.10 HBaseSink 源码二次开发 3

6-11 5.11 Flume 与 HBase 集成开发测试

6-12 5.12 Flume 与 Kafka、HBase 集成开发 1

6-13 5.13 Flume 与 Kafka、HBase 集成开发 2

6-14 5.14 Hive 数仓工具概述

6-15 5.15 Hive 架构设计及运行原理

6-16 5.16 Hive 数据类型与数据存储

6-17 5.17 创建 MySQL 账号并授权

6-18 5.18 Hive 安装配置

6-19 5.19 Hive 服务启动与测试

6-20 5.20 Hive 与 HBase 集成开发

6-21 5.21 基于 Hive 的用户行为数据离线分析

6-22 5.22 DataX 架构原理

6-23 5.23 DataX 安装配置

6-24 5.24 DataX-Web 安装部署

6-25 5.25 新闻资讯业务概述

6-26 5.26 准备 MySQL 数据源表结构及数据

6-27 5.27 准备 Hive 目标表结构

6-28 5.28 通过 DataX Web 构建数据采集任务

6-29 5.29 手动将 user_info 数据导入大数据平台

6-30 5.30 定时将 user_info 数据导入大数据平台

6-31 5.31 通过 DataX 将新闻基础数据以及日期等数据导

6-32 5.32 统一导入大数据平台的数据日期

6-33 5.33 大数据仓库概述

6-34 5.34 数据仓库建模方法论之 ER 模型

6-35 5.35 数据仓库建模方法论之维度模型

6-36 5.36 星型模型、雪花模型与星座模型

6-37 5.37 数据仓库分层设计

6-38 5.38 数据仓库设计及规范

6-39 5.39 大数据仓库项目需求分析及架构设计

6-40 5.40 搭建数据仓库 ODS 层 1

6-41 5.41 搭建数据仓库 ODS 层 2

6-42 5.42 搭建数据仓库 DIM 层

6-43 5.43 搭建数据仓库 DWD 层 – 事件日志表拆分 1

6-44 5.44 搭建数据仓库 DWD 层 – 事件日志表拆分 2

6-45 5.45 搭建数据仓库 DWD 层 – 基础事件事实表拆分

6-46 5.46 搭建数据仓库 DWS 层 – 创建互动域的聚合表

6-47 5.47 搭建数据仓库 DWS 层 – 编写并执行 ELT 脚本

6-48 5.48 搭建数据仓库 DWS 层 – 流量域数据汇总 1

6-49 5.49 搭建数据仓库 DWS 层 – 流量域数据汇总 2

6-50 5.50 搭建数据仓库 ADS 层 – 新闻主题 – 各类别新闻点

6-51 5.51 搭建数据仓库 ADS 层 – 新闻主题 – 各平台新闻收

6-52 5.52 搭建数据仓库 ADS 层 – 新闻主题 – 每日新闻点赞

6-53 5.53 搭建数据仓库 ADS 层 – 用户主题相关指标聚合

6-54 5.54 搭建数据仓库 ADS 层 – 流量主题相关指标聚合

6-55 5.55 搭建数据仓库 ADS 层 – 脚本开发及数据聚合 1

6-56 5.56 搭建数据仓库 ADS 层 – 脚本开发及数据聚合 2

6-57 5.57 搭建数据仓库 ADS 层 – 脚本开发及数据聚合 3

6-58 5.58 报表数据导出 – 创建 MySQL 聚合表

6-59 5.59 报表数据导出 – DataX 数据导出 1

6-60 5.60 报表数据导出 – DataX 数据导出 2

6-61 5.61 报表数据导出 – DataX 数据导出 3

第 7 章 基于 Spark 的新闻资讯实时分析项目(39 节)

7-1 6.1 Spark 概述

7-2 6.2 编写并运行 Spark 第一个入门程序

7-3 6.3 安装配置 Scala 环境

7-4 6.4 Spark 开发第一个入门程序 1

7-5 6.5 Spark 开发第一个入门程序 2

7-6 6.6 Spark 架构原理

7-7 6.7 Spark 弹性分布式数据集 RDD

7-8 6.8 Spark 算子详解

7-9 6.9 Spark Pair RDD 及算子详解

7-10 6.10 Spark 三种运行模式详解

7-11 6.11 Spark Standalone 模式分布式集

7-12 6.12 spark-submit 将作业提交到 Spar

7-13 6.13 Spark on YARN 集群搭建及作业运行

7-14 6.14 Spark Streaming 概述

7-15 6.15 Spark Streaming 运行原理

7-16 6.16 Spark Streaming 编程模型

7-17 6.17 实时项目需求分析与数据流程设计

7-18 6.18 项目结果表创建及依赖添加

7-19 6.19 SparkStreaming 业务代码实现 1

7-20 6.20 SparkStreaming 业务代码实现 2

7-21 6.21 SparkStreaming 业务代码实现 3

7-22 6.22 SparkStreaming 业务代码实现 4

7-23 6.23 打通实时计算项目流程 1

7-24 6.24 打通实时计算项目流程 2

7-25 6.25 Spark SQL 架构原理

7-26 6.26 Spark SQL 与 Hive 集成开发

7-27 6.27 Spark SQL 与 MySQL 集成开发

7-28 6.28 Spark SQL 项目需求分析及架构设计

7-29 6.29 Spark SQL 项目业务代码实现 1

7-30 6.30 Spark SQL 项目业务代码实现 2

7-31 6.31 Spark SQL 项目业务代码实现 3

7-32 6.32 打通 Spark SQL 离线计算项目流程

7-33 6.33 Spark Structured Strea

7-34 6.34 Spark Structured Strea

7-35 6.35 Spark Structured Strea

7-36 6.36 Spark Structured Strea

7-37 6.37 Spark Structured Strea

7-38 6.38 Spark Structured Strea

7-39 6.39 打通 Spark Structured Str

第 8 章 基于 Flink 的新闻资讯实时分析项目(41 节)

8-1 7.1 Flink 定义及特性详解

8-2 7.2 FlinkAPI 分层结构详解

8-3 7.3 Flink 最简安装部署运行

8-4 7.4 Flink 实现第一个流式程序 1

8-5 7.5 Flink 实现第一个流式程序 2

8-6 7.6 Flink 常见概念

8-7 7.7 Flink 运行时架构

8-8 7.8 Flink 并行度

8-9 7.9 Flink 算子链

8-10 7.10 Flink 任务槽

8-11 7.11 Flink 三种部署模式

8-12 7.12 Flink Standalone 运行模式概述

8-13 7.13 配置 Standalone 运行模式的集群

8-14 7.14 Flink standalone 会话模式部署

8-15 7.15 Flink standalone 应用模式部署

8-16 7.16 Flink YARN 运行模式概述

8-17 7.17 配置 YANR 运行模式的集群

8-18 7.18 Flink YARN 会话模式部署

8-19 7.19 Flink YARN 应用模式部署

8-20 7.20 Flink DataStream 运行原理

8-21 7.21 Flink DataStream 程序架构

8-22 7.22 Flink DataStream 项目需求分析

8-23 7.23 Flink DataStream 项目业务代码

8-24 7.24 Flink DataStream 项目业务代码

8-25 7.25 Flink DataStream 项目业务代

8-26 7.26 打通 Flink DataStream 实时计算

8-27 7.27 打通 Flink DataStream 实时计算

8-28 7.28 Flink SQL 引擎的工作流程

8-29 7.29 Flink SQL 的运行原理

8-30 7.30 Flink Catalog 的分类

8-31 7.31 Flink 与 Hive 集成开发 1

8-32 7.32 Flink 与 Hive 集成开发 2

8-33 7.33 Flink 与 Hive 集成开发 3

8-34 7.34 Flink SQL 与 mysql 集成开发 1

8-35 7.35 Flink SQL 与 mysql 集成开发 2

8-36 7.36 Flink SQL 与 mysql 集成开发 3

8-37 7.37 Flink SQL 实时项目需求分析及架构设计

8-38 7.38 Flink SQL 实时项目业务代码实现 1

8-39 7.39 Flink SQL 实时项目业务代码实现 2

8-40 7.40 FlinkSQL 打通实时计算项目流程 1

8-41 7.41 FlinkSQL 打通实时计算项目流程 2