big data 大数据已经与我们息息相关,我们生活中很多方面都需要依靠大数据。不论是对信息产业持续高速增长的助力,信息技术融合应用的创新,以及提高企业的核心竞争力,它对社会、经济、生活产生的影响是空前的。我们从最基础的技术手段来大概了解一下大数据都有哪些可用的工具,以及大数据具体的实现手段和方式方法。
-
Flink DataStream API 官方文档的欺诈检测案例
一、背景介绍 在flink官方文档中有一些具体的案例,其中有一个通过DataStream API检测欺诈的案例…
-
Hadoop HA 基本认知
Hadoop HA(High Available)经过同时配置两个处于Active/Passive模式的Nam…
-
spark serialization Kryo序列化
Spark默认使用的是Java的序列化机制,也就是ObjectOutputStream/ObjectInput…
-
数据治理 Data Governance 基础概念
数据架构、数据标准、数据质量、主数据管理、元数据管理、数据安全、数据生命周期、数据基础平台、数据应用、数据需求…
-
Spark ShuffeManager 基本介绍
Shuffle 可以简单理解成数从新洗牌的过程。过程本质上都是将 Map 端获得的数据使用分区器进行划分,并将…
-
spark stages 并行度 shuffle 宽窄依赖 随笔
spark stages 一个任务集对应的调度阶段;每个Job会被拆分很多组Task,每组任务被称为Stage…
-
spark exactly once 语义随笔
Spark具备很好的机制来保证exactly once的语义,具体体现在数据源的可重放性、计算过程中的容错性、…
-
hive compile 源码编译学习随笔
编译的源码来源于什么地方?如何知道互相兼容的版本号?用什么工具编译?和辅助的工具有哪些?编译有bug时如何快速…
-
spark Accumulator AccumulatorV2 累加器学习随笔
spark Accumulator AccumulatorV2 累加器是Spark的核心数据结构之一 — S…
-
flink 一步一步学习
flink是一个用于对无界和有界数据流进行有状态计算的框架和分布式处理引擎,被设计在所有常见的集群环境中运行,…
-
spark是什么?在大数据圈子里的地位如何
spark是什么?在大数据圈子里的的定位是哪一个?数据本身就是一个很宽泛的概念,一切数据被记录、被分析、产出新…
-
built in functions 内置函数 hive sql 数据计算
built in functions 内置函数,顾名思义是内部的函数,所谓内部主要是指解析器内部。通俗的讲就是…
-
scrapy python 框架爬虫 基础浅析
scrapy python 框架爬虫 这些词初接触者肯定不知所云。所以读者可以直接度娘或者Google这些词条…
-
scala spark dataframe 转置 透视表 行转列 列转行
大数据方向的 分析师 利用scala spark dataframe 进行表的转置,透视表,行专列,列转行,合…
-
Mac m1 brew install spark
前言 Mac m1 brew install spark。大数据组件spark入门学习时会有很多系统性的知识需…
-
spark dataframe select 源码 对源码的小小窥探
spark dataframe 和 dataset 都是spark的数据集合抽象,而dataframe和dat…
-
LinkedInAttic ScANNS 近似邻近搜索 Spark LSH 替换方案
LinkedInAttic ScANNS 是近似邻近搜索的有效方案,对于使用spark LSH模型遇到的一些瓶…
-
scala add elements 集合添加元素
scala add elements to List or Set,集合添加元素是scala预约经常遇到的操作…
-
Priority Queue Serialization Error 在spark中引入LinkedInAttic scanns 运行时报错
Priority Queue Serialization Error ,在spark中引入第三方linkedI…
-
hive tf idf 基于hive sql的方式实现词频-逆文档频率(tf idf)的计算
TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文…
-
spark scala 分词 利用 ansj jsoup 对带有页面标签的文章分词
场景描述:我们有很多文章需要进行分词处理,而文章存储的内容是带有html标签的;我们需要利用自定义的字典来对文…
-
spark mllib 余弦相似度 文本相似推荐 scala代码实现
文本相似推荐是推荐系统中最常见的一个方向,之前的文章中我们介绍过基于LSH模型推荐的主要逻辑,今天我们介绍一个…