https://github.com/collabH/bigdata-growth/blob/master/bigdata/engine/spark/SparkOverwrite.md
https://18636251.s21i.faiusr.com/61/ABUIABA9GAAgvMWTugYovP6urwQ.pdf
https://juejin.cn/post/7022620828101672991
https://blog.csdn.net/weixin_43820556/article/details/144150562
https://blog.csdn.net/weixin_43820556/category_11220094.html
https://blog.csdn.net/lemon_TT/article/details/135842983
https://github.com/zlzhang0122/spark-source-zh/blob/master/docs/sparkcontextcomponents.md
http://www.doe.top/?p=91
1.1 SparkRPC简介
1.2 SparkRPC入门案例
1.3 实现Master和Worker相互通信
1.4 完善Master和Worker通信案例
1.5 Netty简介和入门案例
1.6 Netty的Handler的定义
1.7 Netty的Pipeline中的Handler执行顺序
1.8 SparkRPC原理和工作流行介绍
1.9 定义RpcEndpoint的RpcEndpointRef
1.10 实现NettyRpcEnvFactory和NettyRpcEnv
1.11 创建Dispatcher和TransportServer
1.12 实现TransportServer并将服务启动
1.13 实现NettyRpcEndpointRef
1.14 将RpcEndpoint和RpcEndpointRef进行绑定
1.15 实现Inbox和MessageLoop
1.16 创建TransportClient
1.17 实现OutBox
1.18 发送异步消息和同步消息
2.1手写SparkContext
2.2手写RDD
2.3 手写NarrowDependency
2.4 手写MapPartitionsRDD
2.5 手写ShuffledRDD
2.6 手写PairRDDFunctions
2.7 手写HashPartitioner
2.8 手写Aggregator
2.9 手写ShuffleDependency
2.10 手写DAGScheduler
2.11 手写ShuffleMapStage
2.12 手写ResultStage
2.13 手写ShuffleMapTask
2.14 手写ResultTask
2.15 手写TaskRunner
2.16 手写TaskScheduler
2.17 手写SchedulerBackend
2.18 手写ShuffleManager
2.18 手写ShuffleReader
2.19 手写ShuffleWriter
2.20手写BlockManager
2.21 手写ShuffleBlockFetcherIterator
3.1 map、flatMap、filter精讲和源码分析
3.2 mapPartitions和mapPartitionsWithIndex精讲和源码分析
3.3 MapPartitionsRDD源码分析
3.4 reduceByKey、combineByKey精讲和源码分析
3.5 ShuffledRDD精讲和源码分析
3.5 groupBy、groupByKey精讲和源码分析
3.6 sortBy、sortByKey精讲和源码分析
3.7 cogroup精讲和源码分析
3.8 join、leftOuterJoin、rightOuterJoin、fullOuterJoin精讲和源码分析
3.9 intersection、subtract精讲和源码分析
4.1 collect精讲和源码分析
4.2 saveAsTextFile精讲和源码分析
4.3 count、min、max精讲和源码分析
4.4 sum、reduce、fold、aggregate精讲和源码分析
4.5 take、top、takeOrdered精讲和源码分析
4.5 foreach和foreachPartition精讲和源码分析
5.1 Master启动脚本分析
5.2 Master启动流程源码分析
5.3 Worker启动脚本分析
5.4 Worker启动流程源码分析
5.5 Worker向Master注册过程源码分析
5.6 Worker向Master发送心跳源码分析
5.7 Master清除超时Worker源码分析
6.1 spark-submit启动脚本分析
6.2 SparkSubmit提交类源码分析
6.3 SparkEnv源码分析
6.4 Driver向Master申请资源源码分析
7.1 DAGScheduler创建过程源码分析
7.2 DAGScheduler切分Stage源码分析
7.3 DAGScheduler提交Stage源码分析
7.4 DAGScheduler生成ShuffleMapTask和ResultTask源码分析
8.1 TaskScheduler启动过程源码分析
8.2 TaskScheduler将Task序列化源码分析
8.3 TaskScheduler提交task源码分析
9.1Executor启动流程源码分析
9.2Executor内线程池源码分析
9.3 Executor向Driver注册源码分析
9.4 Executor接收Task并反序列化源码分析
9.5 TaskRunner源码分析
9.6 ShuffleMapTask执行流程源码分析
9.7 ResultTask执行流程源码分析
10.1 ShuffleManager启动流程源码分析
10.2 注册ShuffleHandle源码分析
10.3 ShuffleWirter源码分析
10.4 ShuffleWriteProcessor源码分析
10.5 SortwShuffleManager源码分析
10.6 ExternalSorter源码分析
10.7 ShuffleExternalSorter源码分析
10.8 SortShuffleWriter源码分析
10.9 BypassMergeSortShuffleHandle源码分析
10.10 SerializedShuffleHandle源码分析
11.1 BlockManager启动流程源码分析
11.2 BlockManager通信流程源码分析
11.4 DiskBlockObjectWriter源码分析
11.5 DiskBlockManager源码分析
11.6 ShuffleBlockFetcherIterator源码分析
12.1 YarnSchedulerBackend源码分析
12.2 YarnClusterApplication源码分析
12.3 YarnClusterManager源码分析
12.4 ApplicationMaster源码分析
12.5 YarnClusterSchedulerBackend源码分析
12.6 ApplicationMaster向ResourceManager注册流程源码分析
12.7 ApplicationMaster申请到资源源码分析
12.8 ApplicationMaster向NodeManager发送启动容器源码分析
12.9 YarnCoarseGrainedSchedulerBackend源码分析
12.10 YarnCoarseGrainedExecutorBackend源码分析
13.1 SparkSQL执行流程总览分析
13.2 SparkSQL编译器Parser源码分析
13.3 SparkSQL逻辑计划源码分析
13.4 SparkSQL的Optimizer源码分析
13.5 SparkSQL的Planner源码分析
14.6 SparkSQL的CodGenerator源码分析
https://www.51doit.com/archives/3386.html
https://www.bilibili.com/video/BV1AU421f7Eh?p=2&spm_id_from=333.788.videopod.episodes&vd_source=6e86160e45e149ae8bc7869a4d0a1118
https://github.com/coderblack/doit26_spark/blob/master/src/main/scala/cn/doitedu/spark/deepin/D01_%E6%BA%90%E5%A4%B4RDD%E5%88%86%E5%8C%BA%E6%95%B0%E5%8E%9F%E7%90%86_%E5%B0%8F%E6%96%87%E4%BB%B6%E6%95%88%E7%8E%87%E4%BD%8E%E9%97%AE%E9%A2%98.scala
https://x03se0enz9.feishu.cn/drive/folder/fldcnh6L5PDmJK2R2s6Ar124S7J

作者:admin  创建时间:2025-02-13 20:11
最后编辑:admin  更新时间:2025-02-13 20:18