嗨，无聊么

我的世界

Docker (5)
Git (5)
IDE (6)
- intellij idea (5)
- vscode (1)
JAVA (10)
Linux (5)
- Shell (1)
Mac (6)
OpenCV (4)
PHP (15)
Python (52)
- anaconda (6)
- numpy (12)
- pandas (3)
- pip (2)
- 爬虫 (4)
Redis (2)
Scala (17)
云计算 (2)
前端 (3)
- css (2)
- js (1)
- React (1)
- Vue (1)
大数据 (53)
- flink (5)
- flume (1)
- hadoop (5)
- hive (12)
- kafka (3)
- oozie (1)
- Presto (2)
- spark (24)
大模型 (2)
广告营销 (3)
数据仓库 (8)
数据库 (3)
数据治理 (5)
- 数据血缘 (3)
数据结构 (17)
机器学习 (10)
- NLP (2)
概率统计 (5)
比特币 (1)
编译工具 (4)
- gradle (3)
- maven (4)
计算机基础 (3)
- 算法 (1)
量化投资 (11)
- 指标 (6)
- 概念 (7)

spark

2023年2月17日

spark serialization Kryo序列化

Spark默认使用的是Java的序列化机制，也就是ObjectOutputStream/ObjectInputStream API来进行序列化和反序列化。但是Spark同时支持使用Kryo序列化库，Kryo序列化类库的性能比Java序列化类库的性能要高很多

进一步了解

spark
0

2022年11月18日

Spark ShuffeManager 基本介绍

Shuffle 可以简单理解成数从新洗牌的过程。过程本质上都是将 Map 端获得的数据使用分区器进行划分，并将数据发送给对应的 Reducer 的过程。shuffle作为处理连接map端和reduce端的枢纽，其shuffle的性能高低直接影响了整个程序的性能和吞吐量。map端的shuffle一般为shuffle的Write阶段，reduce端的shuffle一般为shuffle的read阶段

进一步了解

spark
0

2022年11月15日

spark stages 并行度 shuffle 宽窄依赖随笔

spark stages 一个任务集对应的调度阶段;每个Job会被拆分很多组Task，每组任务被称为Stage，也可称TaskSet，一个作业分为多个阶段;Stage分成两种类型ShuffleMapStage、ResultStage。

进一步了解

spark
0