big data 大数据已经与我们息息相关,我们生活中很多方面都需要依靠大数据。不论是对信息产业持续高速增长的助力,信息技术融合应用的创新,以及提高企业的核心竞争力,它对社会、经济、生活产生的影响是空前的。我们从最基础的技术手段来大概了解一下大数据都有哪些可用的工具,以及大数据具体的实现手段和方式方法。
-
docker kafka — docker 采用Raft模式部署 kafka
使用docker容器采用Raft模式部署 kafka,去掉kafka对zookeeper的依赖
-
Flink DataStream API 官方文档的欺诈检测案例
一、背景介绍 在flink官方文...
-
Hadoop HA 基本认知
Hadoop HA(High A...
-
spark serialization Kryo序列化
Spark默认使用的是Java的序列化机制,也就是ObjectOutputStream/ObjectInput…
-
数据治理 Data Governance 基础概念
数据架构、数据标准、数据质量、主数据管理、元数据管理、数据安全、数据生命周期、数据基础平台、数据应用、数据需求…
-
Spark ShuffeManager 基本介绍
Shuffle 可以简单理解成数从新洗牌的过程。过程本质上都是将 Map 端获得的数据使用分区器进行划分,并将…
-
spark stages 并行度 shuffle 宽窄依赖 随笔
spark stages 一个任务集对应的调度阶段;每个Job会被拆分很多组Task,每组任务被称为Stage…
-
spark exactly once 语义随笔
Spark具备很好的机制来保证exactly once的语义,具体体现在数据源的可重放性、计算过程中的容错性、…
-
hive compile 源码编译学习随笔
编译的源码来源于什么地方?如何知道互相兼容的版本号?用什么工具编译?和辅助的工具有哪些?编译有bug时如何快速…
-
spark Accumulator AccumulatorV2 累加器学习随笔
spark Accumulator AccumulatorV2 累加器是Spark的核心数据结构之一 — S…
-
flink 一步一步学习
flink是一个用于对无界和有界数据流进行有状态计算的框架和分布式处理引擎,被设计在所有常见的集群环境中运行,…
-
spark是什么?在大数据圈子里的地位如何
spark是什么?在大数据圈子里的的定位是哪一个?数据本身就是一个很宽泛的概念,一切数据被记录、被分析、产出新…
-
built in functions 内置函数 hive sql 数据计算
built in functions 内置函数,顾名思义是内部的函数,所谓内部主要是指解析器内部。通俗的讲就是…
-
scrapy python 框架爬虫 基础浅析
scrapy python 框架爬虫 这些词初接触者肯定不知所云。所以读者可以直接度娘或者Google这些词条…
-
scala spark dataframe 转置 透视表 行转列 列转行
大数据方向的 分析师 利用scala spark dataframe 进行表的转置,透视表,行专列,列转行,合…
-
Mac m1 brew install spark
前言 Mac m1 brew i...
-
spark dataframe select 源码 对源码的小小窥探
spark dataframe ...
-
LinkedInAttic ScANNS 近似邻近搜索 Spark LSH 替换方案
LinkedInAttic Sc...
-
scala add elements 集合添加元素
scala add elemen...
-
Priority Queue Serialization Error 在spark中引入LinkedInAttic scanns 运行时报错
Priority Queue S...
-
hive tf idf 基于hive sql的方式实现词频-逆文档频率(tf idf)的计算
TF-IDF(Term Freq...
-
spark scala 分词 利用 ansj jsoup 对带有页面标签的文章分词
场景描述:我们有很多文章需要进行...