big data 大数据絮絮叨叨

big data 大数据已经与我们息息相关，我们生活中很多方面都需要依靠大数据。不论是对信息产业持续高速增长的助力，信息技术融合应用的创新，以及提高企业的核心竞争力，它对社会、经济、生活产生的影响是空前的。我们从最基础的技术手段来大概了解一下大数据都有哪些可用的工具，以及大数据具体的实现手段和方式方法。

docker kafka — docker 采用Raft模式部署 kafka

使用docker容器采用Raft模式部署 kafka，去掉kafka对zookeeper的依赖

2025年6月14日
Presto简介

Presto是什么？ Prest...

2023年8月5日
Presto and Trino

Presto 以前是 Prest...

2023年7月13日
Flink DataStream API 官方文档的欺诈检测案例

一、背景介绍在flink官方文...

2023年3月10日
Hadoop HA 基本认知

Hadoop HA（High A...

2023年2月20日
spark serialization Kryo序列化

Spark默认使用的是Java的序列化机制，也就是ObjectOutputStream/ObjectInput…

2023年2月17日
数据治理 Data Governance 基础概念

数据架构、数据标准、数据质量、主数据管理、元数据管理、数据安全、数据生命周期、数据基础平台、数据应用、数据需求…

2023年2月13日
Spark ShuffeManager 基本介绍

Shuffle 可以简单理解成数从新洗牌的过程。过程本质上都是将 Map 端获得的数据使用分区器进行划分，并将…

2022年11月18日
spark stages 并行度 shuffle 宽窄依赖随笔

spark stages 一个任务集对应的调度阶段;每个Job会被拆分很多组Task，每组任务被称为Stage…

2022年11月15日
spark exactly once 语义随笔

Spark具备很好的机制来保证exactly once的语义，具体体现在数据源的可重放性、计算过程中的容错性、…

2022年11月11日
hive compile 源码编译学习随笔

编译的源码来源于什么地方？如何知道互相兼容的版本号？用什么工具编译？和辅助的工具有哪些？编译有bug时如何快速…

2022年10月25日
spark Accumulator AccumulatorV2 累加器学习随笔

spark Accumulator AccumulatorV2 累加器是Spark的核心数据结构之一 — S…

2022年10月25日
flink 一步一步学习

flink是一个用于对无界和有界数据流进行有状态计算的框架和分布式处理引擎，被设计在所有常见的集群环境中运行，…

2022年8月23日
spark是什么？在大数据圈子里的地位如何

spark是什么？在大数据圈子里的的定位是哪一个？数据本身就是一个很宽泛的概念，一切数据被记录、被分析、产出新…

2022年8月22日
built in functions 内置函数 hive sql 数据计算

built in functions 内置函数，顾名思义是内部的函数，所谓内部主要是指解析器内部。通俗的讲就是…

2022年7月3日
scrapy python 框架爬虫基础浅析

scrapy python 框架爬虫这些词初接触者肯定不知所云。所以读者可以直接度娘或者Google这些词条…

2022年6月23日
scala spark dataframe 转置透视表行转列列转行

大数据方向的分析师利用scala spark dataframe 进行表的转置，透视表，行专列，列转行，合…

2022年6月10日
Mac m1 brew install spark

前言 Mac m1 brew i...

2022年5月19日
spark dataframe select 源码对源码的小小窥探

spark dataframe ...

2022年4月11日
LinkedInAttic ScANNS 近似邻近搜索 Spark LSH 替换方案

LinkedInAttic Sc...

2022年3月28日
scala add elements 集合添加元素

scala add elemen...

2022年3月23日
Priority Queue Serialization Error 在spark中引入LinkedInAttic scanns 运行时报错

Priority Queue S...

2022年3月8日
hive tf idf 基于hive sql的方式实现词频-逆文档频率(tf idf)的计算

TF-IDF(Term Freq...

2021年10月25日
spark scala 分词利用 ansj jsoup 对带有页面标签的文章分词

场景描述：我们有很多文章需要进行...

2021年10月22日