尚硅谷2024最新版Spark视频课程,一套搞定大数据Spark3.x

2024新版本教程,一套搞定大数据Spark3.x!

教程简介

是专为大规模数据处理而设计的分析计算引擎

技术上,Spark是基于Hadoop MapReduce设计的通用并行框架拥有具备的优点,并采用内存的方式优化了中间计算过程,极大提高了计算效率,从而使Spark可以更好地应用在数据挖掘与机器学习等迭代式计算场景。

应用上,Spark可以满足绝大部分的离线数据分析场景和部分的实时数据分析场景,从而使Spark技术框架成为企业大数据离线处理技术的首选。

本套教程基于版本,使用Java语言,详解了Spark技术生态的三个核心模块:Spark Core核心模块,讲解Spark运行环境,以及分布式数据模型RDD的使用和原理;Spark SQL模块,讲解Spark在结构化数据场景中的使用方式,包括SQL语法、DSL语法、UDF函数、UDAF函数等;模块,讲解Spark在流式数据处理中的使用方式,包括无界数据流的处理、Kafka系统的对接和数据窗口的应用等。

授课方式上,还是一贯的将图形、文字、源码相结合的保姆式讲解;配套资料上,还是一样的败家式赠送,视频、课件、代码、资料,全部送送送!力求让学习者对分布式计算的原理、框架的使用建立深刻的理解,从而将Spark应用于企业的项目中。

课程目录

001.Spark-教程简介
002.Spark-文件结构-介绍
003.Spark-基础概念-介绍-分布式
004.Spark-基础概念-介绍-计算
005.Spark-基础概念-介绍-分布式基础架构
006.Spark-基础概念-介绍-框架
007.Spark-基础概念-介绍-Spark和MR的关系
008.Spark-介绍
009.Spark-部署方式-介绍
010.Spark-解压后的文件结构
011.Spark-部署环境-Local
012.Spark-部署环境-Local-演示
013.Spark-部署环境-Yarn-演示
014.Spark-部署环境-Yarn-历史服务
015.Spark-部署环境-Yarn-两种执行方式Cluster和Client
016.Spark-部署环境-几种模式的对比
017.Spark-数据结构-说明
018.Spark-RDD-介绍
019.Spark-RDD-数据处理流程简介
020.Spark-原理
021.Spark-原理-补充
022.Spark-RDD-代码-环境的准备
023.Spark-RDD-代码-对接内存数据源构建RDD对象
024.Spark-RDD-代码-对接磁盘数据源构建RDD对象
025.Spark-RDD-代码-RDD的理解
026.Spark-RDD-代码-RDD的分区
027.Spark-RDD-代码-内存数据源-分区数量的设定
028.Spark-RDD-代码-磁盘文件数据源-分区数量的设定
029.Spark-RDD-代码-内存数据源-分区数据的分配
030.Spark-RDD-代码-磁盘文件数据源-分区数据的分配
031.Spark-RDD-代码-磁盘文件数据源-分区数据的分配-演示
032.Spark-RDD-课件梳理
033.Spark-RDD-方法-介绍
034.Spark-RDD-方法-方法的两大类-转换和行动
035.Spark-RDD-方法-数据处理的两大类-单值和键值
036.Spark-RDD-方法-转换-map
037.Spark-RDD-方法-转换-map-1
038.Spark-RDD-方法-转换-map-2
039.Spark-RDD-方法-转换-map-3
040.Spark-RDD-方法-转换-map-4
041.Spark-RDD-方法-转换-filter
042.Spark-RDD-方法-转换-flatMap
043.Spark-RDD-方法-转换-flatMap-1
044.Spark-RDD-方法-转换-groupBy
045.Spark-RDD-回顾-原理
046.Spark-RDD-回顾-方法
047.Spark-RDD-Shuffle
048.Spark-RDD-Shuffle-原理
049.Spark-RDD-Shuffle-原理-补充
050.Spark-RDD-Shuffle-演示
051.Spark-RDD-方法-distinct
052.Spark-RDD-方法-sortBy
053.Spark-RDD-方法-KV类型数据介绍
054.Spark-RDD-方法-KV类型数据补充
055.Spark-RDD-方法-KV-mapValues
056.Spark-RDD-方法-KV-wordCount
057.Spark-RDD-方法-KV-groupByKey
058.Spark-RDD-方法-KV-reduceByKey
059.Spark-RDD-方法-KV-sortByKey
060.Spark-RDD-方法-KV-reduceByKey和groupByKey的区别
061.Spark-RDD-WordCount程序在环境中运行
062.Spark-RDD-转换方法的回顾
063.Spark-RDD-行动算子-介绍
064.Spark-RDD-行动算子-collect
065.Spark-RDD-行动算子-collect-补充
066.Spark-RDD-行动算子-其他方法-1
067.Spark-RDD-行动算子-其他方法-2
068.Spark-RDD-行动算子-其他方法-3
069.Spark-RDD-行动算子-Driver端和Executor端数据传输
070.Spark-RDD-序列化-1
071.Spark-RDD-序列化-2
072.-数据格式说明
073.-需求介绍
074.Spark案例-需求分析
075.Spark案例-需求设计
076.Spark-案例-开发原则
077.Spark-案例-代码实现-1
078.Spark-案例-代码实现-2
079.Spark-案例-代码实现-3
080.Spark-案例-代码实现-4
081.Spark-RDD-KRYO序列化框架
082.Spark-RDD-依赖关系-介绍
083.Spark-RDD-依赖关系-原理
084.Spark-RDD-依赖关系-血缘关系
085.Spark-RDD-依赖关系-依赖关系
086.Spark-RDD-依赖关系-宽窄依赖关系
087.Spark-RDD-依赖关系-作业,阶段和任务的关系
088.Spark-RDD-依赖关系-任务的数量
089.Spark-RDD-依赖关系-分区的数量
090Spark-RDD-持久化和序列化的关系
091.Spark-RDD-持久化-cache
092.Spark-RDD-持久化-persist
093.Spark-RDD-持久化-checkpoint
094.Spark-RDD-持久化-shuffle算子的持久化
095.Spark-RDD-分区器
096.Spark-RDD-自定义分区器
097.Spark-两个案例
098.Spark-第一个案例问题原因
099.Spark-广播变量
100.Spark-RDD的局限性
101.SparkSQL-介绍
102.SparkSQL-环境对象的封装
103.SparkSQL-模型对象的封装
104.SparkSQL-SQL的操作
105.SparkSQL-不同场景下环境对象的转换
106.SparkSQL-不同场景下模型数据对象的转换
107.SparkSQL-使用SQL的方式来访问数据模型
108.SparkSQL-使用DSL的方式来访问数据模型
109.SparkSQL-自定义udf函数对象
110.SparkSQL-自定义udf函数的底层实现原理
111.SparkSQL-自定义udaf函数的底层实现原理
112.SparkSQL-自定义udaf函数的实现步骤-1
113.SparkSQL-自定义udaf函数的实现步骤-2
114.SparkSQL-自定义udaf函数的实现步骤-回顾
115.SparkSQL-数据源-CSV
116.SparkSQL-数据源-JSON
117.SparkSQL-数据源-Parquet
118.SparkSQL-数据源-JDBC
119.SparkSQL-数据源-Hive
120.SparkSQL-案例-数据准备
121.SparkSQL-案例-数据准备-补充
122.SparkSQL-案例-需求分析
123.SparkSQL-案例-需求设计
124.SparkSQL-案例-SQL实现-1
125.SparkSQL-案例-SQL实现-2
126.SparkSQL-案例-SQL实现-3
127.SparkSQL-案例-SQL实现-4
128.SparkSQL-案例-SQL实现-5
129.SparkSQL-案例-SQL实现-6
130.SparkSQL-案例-SQL实现-7
131.SparkSQL-案例-SQL实现-8
132.SparkSQL-案例-SQL实现-9
133.SparkStreaming-介绍
134.SparkStreaming-原理
135.SparkStreaming-原理-补充
136.SparkStreaming-课件梳理
137.SparkStreaming-环境准备
138.SparkStreaming-网络(Socket)数据流处理演示
139.SparkStreaming-Kafka数据流处理演示
140.SparkStreaming-DStream方法介绍
141.SparkStreaming-DStream输出方法介绍
142.SparkStreaming-窗口操作
143.SparkStreaming-回顾-1
144.SparkStreaming-回顾-2
145.SparkStreaming-关闭-1
146.SparkStreaming-关闭-2
147.SparkStreaming-关闭-3
148.Spark-内核-运行流程-1
149.Spark-内核-运行流程-2
150.Spark-内核-运行流程-3
151.Spark-内核-核心对象
152.-核心对象通信流程-Netty
153.-Task任务的调度执行
154.Spark内核-Shuffle底层的实现原理-1
155.Spark-内核-Shuffle底层的实现原理-2
156.Spark-内核-内存管理
157.Spark-内核-内存管理-补充
资料.zip
课件.zip
代码.zip

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件、阿里云盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源