2024新版本Spark教程,一套搞定大数据Spark3.x!
教程简介
Spark是专为大规模数据处理而设计的分析计算引擎。
技术上,Spark是基于Hadoop MapReduce设计的通用并行框架,拥有其所具备的优点,并采用内存的方式优化了中间计算过程,极大提高了计算效率,从而使Spark可以更好地应用在数据挖掘与机器学习等迭代式计算场景。
应用上,Spark可以满足绝大部分的离线数据分析场景和部分的实时数据分析场景,从而使Spark技术框架成为企业大数据离线处理技术的首选。
本套教程基于Spark 3.3版本,使用Java语言,详解了Spark技术生态的三个核心模块:Spark Core核心模块,讲解Spark运行环境,以及分布式数据模型RDD的使用和原理;Spark SQL模块,讲解Spark在结构化数据场景中的使用方式,包括SQL语法、DSL语法、UDF函数、UDAF函数等;Spark Streaming模块,讲解Spark在流式数据处理中的使用方式,包括无界数据流的处理、Kafka系统的对接和数据窗口的应用等。
授课方式上,还是一贯的将图形、文字、源码相结合的保姆式讲解;配套资料上,还是一样的败家式赠送,视频、课件、代码、资料,全部送送送!力求让学习者对分布式计算的原理、框架的使用建立深刻的理解,从而将Spark应用于企业的项目中。
课程目录
001.Spark-教程简介
002.Spark-文件结构-介绍
003.Spark-基础概念-介绍-分布式
004.Spark-基础概念-介绍-计算
005.Spark-基础概念-介绍-分布式基础架构
006.Spark-基础概念-介绍-框架
007.Spark-基础概念-介绍-Spark和MR的关系
008.Spark-介绍
009.Spark-部署方式-介绍
010.Spark-解压后的文件结构
011.Spark-部署环境-Local
012.Spark-部署环境-Local-演示
013.Spark-部署环境-Yarn-演示
014.Spark-部署环境-Yarn-历史服务
015.Spark-部署环境-Yarn-两种执行方式Cluster和Client
016.Spark-部署环境-几种模式的对比
017.Spark-数据结构-说明
018.Spark-RDD-介绍
019.Spark-RDD-数据处理流程简介
020.Spark-RDD-计算原理
021.Spark-RDD-计算原理-补充
022.Spark-RDD-代码-环境的准备
023.Spark-RDD-代码-对接内存数据源构建RDD对象
024.Spark-RDD-代码-对接磁盘数据源构建RDD对象
025.Spark-RDD-代码-RDD的理解
026.Spark-RDD-代码-RDD的分区
027.Spark-RDD-代码-内存数据源-分区数量的设定
028.Spark-RDD-代码-磁盘文件数据源-分区数量的设定
029.Spark-RDD-代码-内存数据源-分区数据的分配
030.Spark-RDD-代码-磁盘文件数据源-分区数据的分配
031.Spark-RDD-代码-磁盘文件数据源-分区数据的分配-演示
032.Spark-RDD-课件梳理
033.Spark-RDD-方法-介绍
034.Spark-RDD-方法-方法的两大类-转换和行动
035.Spark-RDD-方法-数据处理的两大类-单值和键值
036.Spark-RDD-方法-转换-map
037.Spark-RDD-方法-转换-map-1
038.Spark-RDD-方法-转换-map-2
039.Spark-RDD-方法-转换-map-3
040.Spark-RDD-方法-转换-map-4
041.Spark-RDD-方法-转换-filter
042.Spark-RDD-方法-转换-flatMap
043.Spark-RDD-方法-转换-flatMap-1
044.Spark-RDD-方法-转换-groupBy
045.Spark-RDD-回顾-原理
046.Spark-RDD-回顾-方法
047.Spark-RDD-Shuffle
048.Spark-RDD-Shuffle-原理
049.Spark-RDD-Shuffle-原理-补充
050.Spark-RDD-Shuffle-演示
051.Spark-RDD-方法-distinct
052.Spark-RDD-方法-sortBy
053.Spark-RDD-方法-KV类型数据介绍
054.Spark-RDD-方法-KV类型数据补充
055.Spark-RDD-方法-KV-mapValues
056.Spark-RDD-方法-KV-wordCount
057.Spark-RDD-方法-KV-groupByKey
058.Spark-RDD-方法-KV-reduceByKey
059.Spark-RDD-方法-KV-sortByKey
060.Spark-RDD-方法-KV-reduceByKey和groupByKey的区别
061.Spark-RDD-WordCount程序在环境中运行
062.Spark-RDD-转换方法的回顾
063.Spark-RDD-行动算子-介绍
064.Spark-RDD-行动算子-collect
065.Spark-RDD-行动算子-collect-补充
066.Spark-RDD-行动算子-其他方法-1
067.Spark-RDD-行动算子-其他方法-2
068.Spark-RDD-行动算子-其他方法-3
069.Spark-RDD-行动算子-Driver端和Executor端数据传输
070.Spark-RDD-序列化-1
071.Spark-RDD-序列化-2
072.Spark案例-数据格式说明
073.Spark案例-需求介绍
074.Spark案例-需求分析
075.Spark案例-需求设计
076.Spark-案例-开发原则
077.Spark-案例-代码实现-1
078.Spark-案例-代码实现-2
079.Spark-案例-代码实现-3
080.Spark-案例-代码实现-4
081.Spark-RDD-KRYO序列化框架
082.Spark-RDD-依赖关系-介绍
083.Spark-RDD-依赖关系-原理
084.Spark-RDD-依赖关系-血缘关系
085.Spark-RDD-依赖关系-依赖关系
086.Spark-RDD-依赖关系-宽窄依赖关系
087.Spark-RDD-依赖关系-作业,阶段和任务的关系
088.Spark-RDD-依赖关系-任务的数量
089.Spark-RDD-依赖关系-分区的数量
090Spark-RDD-持久化和序列化的关系
091.Spark-RDD-持久化-cache
092.Spark-RDD-持久化-persist
093.Spark-RDD-持久化-checkpoint
094.Spark-RDD-持久化-shuffle算子的持久化
095.Spark-RDD-分区器
096.Spark-RDD-自定义分区器
097.Spark-两个案例
098.Spark-第一个案例问题原因
099.Spark-广播变量
100.Spark-RDD的局限性
101.SparkSQL-介绍
102.SparkSQL-环境对象的封装
103.SparkSQL-模型对象的封装
104.SparkSQL-SQL的操作
105.SparkSQL-不同场景下环境对象的转换
106.SparkSQL-不同场景下模型数据对象的转换
107.SparkSQL-使用SQL的方式来访问数据模型
108.SparkSQL-使用DSL的方式来访问数据模型
109.SparkSQL-自定义udf函数对象
110.SparkSQL-自定义udf函数的底层实现原理
111.SparkSQL-自定义udaf函数的底层实现原理
112.SparkSQL-自定义udaf函数的实现步骤-1
113.SparkSQL-自定义udaf函数的实现步骤-2
114.SparkSQL-自定义udaf函数的实现步骤-回顾
115.SparkSQL-数据源-CSV
116.SparkSQL-数据源-JSON
117.SparkSQL-数据源-Parquet
118.SparkSQL-数据源-JDBC
119.SparkSQL-数据源-Hive
120.SparkSQL-案例-数据准备
121.SparkSQL-案例-数据准备-补充
122.SparkSQL-案例-需求分析
123.SparkSQL-案例-需求设计
124.SparkSQL-案例-SQL实现-1
125.SparkSQL-案例-SQL实现-2
126.SparkSQL-案例-SQL实现-3
127.SparkSQL-案例-SQL实现-4
128.SparkSQL-案例-SQL实现-5
129.SparkSQL-案例-SQL实现-6
130.SparkSQL-案例-SQL实现-7
131.SparkSQL-案例-SQL实现-8
132.SparkSQL-案例-SQL实现-9
133.SparkStreaming-介绍
134.SparkStreaming-原理
135.SparkStreaming-原理-补充
136.SparkStreaming-课件梳理
137.SparkStreaming-环境准备
138.SparkStreaming-网络(Socket)数据流处理演示
139.SparkStreaming-Kafka数据流处理演示
140.SparkStreaming-DStream方法介绍
141.SparkStreaming-DStream输出方法介绍
142.SparkStreaming-窗口操作
143.SparkStreaming-回顾-1
144.SparkStreaming-回顾-2
145.SparkStreaming-关闭-1
146.SparkStreaming-关闭-2
147.SparkStreaming-关闭-3
148.Spark-内核-运行流程-1
149.Spark-内核-运行流程-2
150.Spark-内核-运行流程-3
151.Spark-内核-核心对象
152.Spark内核-核心对象通信流程-Netty
153.Spark内核-Task任务的调度执行
154.Spark内核-Shuffle底层的实现原理-1
155.Spark-内核-Shuffle底层的实现原理-2
156.Spark-内核-内存管理
157.Spark-内核-内存管理-补充
资料.zip
课件.zip
代码.zip
下载链接见右侧按钮
声明:1、学神资源吧资源均通过互联网公开合法渠道获取,资源价格仅代表资源收集整理的费用,绝不代表原作品本身的价值。资源仅供阅读测试,请在下载后24小时内删除,谢谢合作!2、由于部分资源中不可避免的存在一些敏感关键词,如果购买后提示网盘资源链接失效,或者提示此类资源无法分享的情况,您无需担心,只需要联客服联系为您补发资源即可。
3、版权归原作者或出版方所有,本站不对涉及的版权问题负法律责任。若版权方认为学神资源吧侵权,请联系客服或发送邮件处理。。。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理,微信: xueshen2025。