spark归档 - 无聊世界

2023年2月17日

spark serialization Kryo序列化

Spark默认使用的是Java的序列化机制，也就是ObjectOutputStream/ObjectInputStream API来进行序列化和反序列化。但是Spark同时支持使用Kryo序列化库，Kryo序列化类库的性能比Java序列化类库的性能要高很多

进一步了解

spark
0

2022年11月18日

Spark ShuffeManager 基本介绍

Shuffle 可以简单理解成数从新洗牌的过程。过程本质上都是将 Map 端获得的数据使用分区器进行划分，并将数据发送给对应的 Reducer 的过程。shuffle作为处理连接map端和reduce端的枢纽，其shuffle的性能高低直接影响了整个程序的性能和吞吐量。map端的shuffle一般为shuffle的Write阶段，reduce端的shuffle一般为shuffle的read阶段

进一步了解

spark
0

2022年11月15日

spark stages 并行度 shuffle 宽窄依赖随笔

spark stages 一个任务集对应的调度阶段;每个Job会被拆分很多组Task，每组任务被称为Stage，也可称TaskSet，一个作业分为多个阶段;Stage分成两种类型ShuffleMapStage、ResultStage。

进一步了解

spark
0

我的世界

近期文章

近期评论

归档

分类

其他操作

spark

spark serialization Kryo序列化

Spark ShuffeManager 基本介绍

spark stages 并行度 shuffle 宽窄依赖随笔

spark

spark serialization Kryo序列化

Spark ShuffeManager 基本介绍

spark stages 并行度 shuffle 宽窄依赖 随笔

spark stages 并行度 shuffle 宽窄依赖随笔