built in functions 内置函数 hive sql 数据计算

built in functions 内置函数,顾名思义是内部的函数,所谓内部主要是指解析器内部。通俗的讲就是我们用什么语言或者什么工具它自带的一些具有某些快速计算逻辑的方法或者函数。hive sql同样也具有很多这样的内置函数

built in functions 内置函数,顾名思义是内部的函数,所谓内部主要是指解析器内部。通俗的讲就是我们用什么语言或者什么工具它自带的一些具有某些快速计算逻辑的方法或者函数。hive sql同样也具有很多这样的内置函数,笔者不对所有的内置函数做罗列,我们拿具体的数据来展示效果。

我们在以前的文章中对于hive sql 的一些内置方法也有过简单的介绍,比如与数据行号相关的方法

背景介绍

字段名注释
article_id文章ID
height屏高
position页面位置
duration阅读时长
scoll_number滚屏次数
words_number文章字数
hive table informations

截取hive table的部分字段来运用内置函数来计算对应数据的科学计数效果

hive table datas for build in functions
hive table datas

平均值、最大值和最小值

SELECT  MIN(scoll_number) min_value
        ,MAX(scoll_number) max_value
        ,AVG(scoll_number) avg_value
        ,SUM(scoll_number) total_value
        ,COUNT(scoll_number) count_value
FROM    ads_recommend_article_statistic
;
min_valuemax_valueavg_valuetotal_valuecount_value
01167.3667296786389423897529
最大值、最小值、平均值 内置函数

方差、协方差、N位值、相关系数

SELECT  STDDEV(scoll_number) stddev_value, --标准差
        STDDEV_SAMP(scoll_number) samp_value --标准差 精度更细,小量数据计算
        ,var_samp(scoll_number) var_value --方差
        ,covar_pop(scoll_number, words_number) covar_value -- 协方差
        ,percentile(scoll_number, 0.4) percent_value --4分位值
        ,percentile(scoll_number, 0.5) percent_value --中位值
        ,corr(scoll_number, words_number) corr_value --皮尔逊系数
FROM    ads_recommend_article_statistic
科学计数公式函数
方差公式:
m为x1,x2...xn数列的期望值(平均数)
s^2 = [(x1-m)^2 + (x2-m)^2 + ... (xn-m)^2]/n

s即为标准差
s^2为方差。

scala spark dataframe 转置 透视表 行转列 列转行

大数据方向的 分析师 利用scala spark dataframe 进行表的转置,透视表,行专列,列转行,合并列,多行合并等操作

scala spark dataframe 是大数据从业者必须掌握的基础知识点。 对于数据分析人员经常会有对数据表进行转置/透视的需求,还有对数据进行行转列,列转行,多列多行合并的处理。无论哪种情况,对于常年使用SQL语句来进行数据分析的技术人员应该都是信手拈来的操作,但是对于很大使用大数据组件Spark来进行数据处理和分析的选手来说可能就需要了解除了常规SQL之外的操作方式了。

数据样例

val spark = SparkSession
	  .builder()
	  .appName("HelloWorld")
	  .getOrCreate()
	import spark.implicits._

	val data = spark.sparkContext.parallelize(List(
	  ( 1, "张三", 88.0, "Mat"),
	  ( 2, "李四", 67.0, "Mat"),
	  ( 3, "赵六", 77.0, "Mat"),
	  ( 4, "王五", 65.0, "Mat"),
	  ( 1, "张三", 77.0, "Eng"),
	  ( 2, "李四", 90.0, "Eng"),
	  ( 3, "赵六", 24.0, "Eng"),
	  ( 4, "王五", 90.0, "Eng"),
	  ( 1, "张三", 33.0, "Chinese"),
	  ( 2, "李四", 87.0, "Chinese"),
	  ( 3, "赵六", 92.0, "Chinese"),
	  ( 4, "王五", 87.0, "Chinese")
	  ))
	val df = data.toDF("id","name","scores","class_names").cache()
	df.show(false)
	val _cla = df.select("class_names").distinct().rdd.map(_ (0).toString).collect()
	print(_cla.toList)
# dataframe show
+---+----+------+-----------+
|id |name|scores|class_names|
+---+----+------+-----------+
|1  |张三  |88.0  |Mat        |
|2  |李四  |67.0  |Mat        |
|3  |赵六  |77.0  |Mat        |
|4  |王五  |65.0  |Mat        |
|1  |张三  |77.0  |Eng        |
|2  |李四  |90.0  |Eng        |
|3  |赵六  |24.0  |Eng        |
|4  |王五  |90.0  |Eng        |
|1  |张三  |33.0  |Chinese    |
|2  |李四  |87.0  |Chinese    |
|3  |赵六  |92.0  |Chinese    |
|4  |王五  |87.0  |Chinese    |
+---+----+------+-----------+
# 三门课程
List(Eng, Chinese, Mat)

转置/透视表 pivot unpivot 一行转多列

以下代码是通过dataframe的pivot方法,按照名字分组,分组后去第一个分数;最终实现转置表或者是透视表的效果。

	val _pivot = df.groupBy("name").pivot("class_names", _cla).agg(functions.first("scores"))
	_pivot.show(false)
+----+----+-------+----+
|name|Eng |Chinese|Mat |
+----+----+-------+----+
|王五  |90.0|87.0   |65.0|
|李四  |90.0|87.0   |67.0|
|赵六  |24.0|92.0   |77.0|
|张三  |77.0|33.0   |88.0|
+----+----+-------+----+

而如果想要把透视表逆转回去就要用hive 的stack函数来实现,而spark dataframe中没有相关的方法,具体实现如下两种实现方式的代码;但是有两个知识点要注意下

  • 数字一定要能被后边参数名称去重后的个数整出, 如代码中’Analytics’, Mat, ‘BI’, Eng, ‘Ingestion’, Chinese ,去重后肯定能整除3;
  • stack从第二个参数开始两两一组,’Analytics’, 和 Mat, 分别是变成行之后的具体数值 ,以及之前的字段名是什么,读者可以从下边的show详情中看到。
  • 如果字段名称有中文,要使用反引号**`** 把字段包起来;如”stack(2, ‘数学’, `数学`,’英语’,`英语`), 第一个数学是单引号,第二个是反引号,第一个是要最终展示的文本,第二个是字段名
_pivot.select($"Name", 
unctions.expr("stack(3, 'Analytics', Mat, 'BI', Eng, 'Ingestion', Chinese) as (kecheng, fenshu)")).show(false)
# 相同效果的实现方式
//	_pivot.selectExpr("name","stack(3, 'Analytics', Mat, 'BI', Eng, 'Ingestion', Chinese) as (kecheng, fenshu)").show(false)
+----+---------+------+
|Name|kecheng  |fenshu|
+----+---------+------+
|王五  |Analytics|65.0  |
|王五  |BI       |90.0  |
|王五  |Ingestion|87.0  |
|李四  |Analytics|67.0  |
|李四  |BI       |90.0  |
|李四  |Ingestion|87.0  |
|赵六  |Analytics|77.0  |
|赵六  |BI       |24.0  |
|赵六  |Ingestion|92.0  |
|张三  |Analytics|88.0  |
|张三  |BI       |77.0  |
|张三  |Ingestion|33.0  |
+----+---------+------+

行专列 多行合并成一列

df.groupBy("name").agg(functions.concat_ws(",",functions.collect_set($"scores".cast("string"))).as("fenshu")).show(false)
+----+--------------+
|name|fenshu        |
+----+--------------+
|王五  |90.0,65.0,87.0|
|李四  |67.0,90.0,87.0|
|赵六  |77.0,92.0,24.0|
|张三  |88.0,77.0,33.0|
+----+--------------+

列转行 一列转多行

通过functions的split 方法把字符串类型的列先转换成Array类型,之后在通过explode方法把Array转换成多行

import org.apache.spark.sql.functions
val res = df.groupBy("name").agg(functions.concat_ws(",",functions.collect_set($"scores".cast("string"))).as("fenshu"))
	res.show(false)
	res.select($"name", functions.explode(functions.split($"fenshu", ",")).as("score")).show(false)
# 多个数值在一列中
+----+--------------+
|name|fenshu        |
+----+--------------+
|王五  |90.0,65.0,87.0|
|李四  |67.0,90.0,87.0|
|赵六  |77.0,92.0,24.0|
|张三  |88.0,77.0,33.0|
+----+--------------+
# 一列数据拆分成多行
+----+-----+
|name|score|
+----+-----+
|王五  |90.0 |
|王五  |65.0 |
|王五  |87.0 |
|李四  |67.0 |
|李四  |90.0 |
|李四  |87.0 |
|赵六  |77.0 |
|赵六  |92.0 |
|赵六  |24.0 |
|张三  |88.0 |
|张三  |77.0 |
|张三  |33.0 |
+----+-----+

DogeCoin-胡侃胡分析

Dogecoin,有人称作“狗狗币/狗币”,诞生于2013年12月8日,基于Scrypt算法,是一款虚拟货币。

先来无事,爬一些狗狗币的历史数据,做一下简单的分析,主要涉及到每日投入回报,斐波那契回撤线、RSI等各项指标的计算和绘图,同时有一些浅显的见解。

乱侃乱聊诸位客官见笑了。话不多说,代码人先撸为敬

#引入包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.graph_objects as go
plt.style.use('fivethirtyeight')
# 加载数据
df = pd.read_csv("doge_history.csv")
# 设置交易日期为索引
df = df.set_index(pd.DatetimeIndex(df['tickertime'].values))
# csv有一列是序列号存在,在本实例中没有价值,直接去掉这一列
df.drop('Unnamed: 0',axis=1, inplace=True)
# 按照交易日期排序
df = df.sort_index()
# 展示数据 每列含义: 索引列 | 交易日期 | 开盘价 | 收盘价 | 当日最高价 | 当日最低价 | 市值 | 交易量 | 相对前日涨幅
df
# 总数据量是 533条,时间是从2019年12月截至到2021年5月中旬
df.describe()
DogeCoin 历史数据的基本情况

简单看一下数据的基本情况.
我们可以看到每一项纬度的基本情况,例如收盘价的平均值,最大最小值及各分位的值#单纯开盘价的差值可以看出狗狗币的波动之大有点惊掉下巴了.

DogeCoin历史数据基本分析

绘制K线图
 当然我们可以从很多平台看到具体的K线图,不过我们为了装13也自己画一个图来撸一撸。

DogeCoin 每日K线
  • 自从进入2021年4月以来狗狗币冲击力一次0.8美分之后就开始疲软了
  • 我们很想知道目前阶段是不是应该继续持有它(当然前提是你以前就有,且没有在高位接盘)
  • 我们用最基础的斐波那契回撤支持线来分下,狗狗币抗不抗压
# 计算斐波那契回撤线, 一共设置4层回撤支撑线
maximum_price = df['closeprice'].max()
minimum_price = df['closeprice'].min()
difference = maximum_price - minimum_price
first_level = maximum_price - difference * 0.236
second_level = maximum_price - difference * 0.382
third_level = maximum_price - difference * 0.5
fourth_level = maximum_price - difference * 0.618
# 画图, 除了基本的四条斐波那契回撤线之外再把最大最小值的线也加上
# 同时也把交易量的图画出来
top = plt.subplot2grid((4,4), (0,0), rowspan=3, colspan=4)
top.plot(df.index, df['closeprice'], label='Close')
top.axhline(maximum_price, linestyle='--', alpha=0.5,color ='red')
top.axhline(first_level, linestyle='--', alpha=0.5,color ='orange')
top.axhline(second_level, linestyle='--', alpha=0.5,color ='yellow')
top.axhline(third_level, linestyle='--', alpha=0.5,color ='green')
top.axhline(fourth_level, linestyle='--', alpha=0.5,color ='blue')
top.axhline(minimum_price, linestyle='--', alpha=0.5,color ='purple')
plt.title('Close 2019-2021')
plt.legend(loc='upper left')
bottom = plt.subplot2grid((4,4),(3,0),rowspan=3, colspan=4)
plt.title('Volum 2019-2021')
bottom.bar(df.index,df['vol'])
plt.subplots_adjust(hspace=0.75)
plt.gcf().set_size_inches(15,8)
DogeCoin 斐波那契数回撤线

从图中我们可以明显看出来几个情况:

  • 交易量上升的几个时间周期内,狗狗的价格也在上升
  • 4、5月份狗狗回撤支撑还不错

接下来我们再从RSI和SMA这些指标看一看数据的反馈情况

# 每日投入回报
DSR = df['closeprice'].pct_change(1)
DSR
DogeCoin DSR基本情况
# 画出每日投资回报的图
plt.figure(figsize=(25,8))
plt.plot(DSR.index, DSR, label='Close', lw=1, alpha =0.65)
plt.title('DogeCoin Daily Simple Return')
plt.ylabel('Percentage')
plt.xlabel('Date')
plt.xticks(rotation=75)
DogeCoin DSR 波动图

单纯从每日投入回报的数据上看狗狗币不太适合稳重投资人入手,波动太大

  • 有两天的浮动超过百分之百,如果地位入手确实赚了,但是高位洁癖就赔惨了
  • 这样大的波动如果运气好玩杠杆真的算是高潮迭起了
# 计算强弱指标RSI
delta = df['closeprice'].diff(1)
delta = delta.dropna()
up = delta.copy()
down = delta.copy()
up[up<0] = 0
print(up.head(3))
down[down>0] = 0
time_period = 14
AVG_Gain = up.rolling(window=time_period).mean()
AVG_Loss = abs(down.rolling(window=time_period).mean())
RS = AVG_Gain / AVG_Loss
RSI = 100.0 - (100.0 / (1.0 + RS))
# 计算30天简单移动平均线 30 day simple moving average
SMA30 = df['closeprice'].rolling(window=30).mean()
df['SMA30'] = SMA30
df
# 画出RSI 和 SMA的图
fig, ax = plt.subplots(1,2,figsize=(15,5))
ax0 = RSI.plot(ax=ax[0])
ax0.axhline(30, color='green')
ax0.axhline(70, color='red')
df[['closeprice','SMA30']].plot(ax=ax[1])
DogeCoin RSI 和SMA30

我们把RSI强弱指标的数据用两张图展示出来:

  • 从SMA30 + 收盘价趋势来看,狗狗应该还会上升
  • 截至到2021年5月中旬,从RSI的基本分析来说超买情况刚刚回去,盘整回落
  • 结论就是还可以继续持有
  • All In

matplotlib.pyplot入门: http://www.lifefunker.com/archives/193
RSI: http://www.lifefunker.com/archives/190
超买、超卖: http://www.lifefunker.com/archives/186
plotly: http://www.lifefunker.com/archives/169
RSI: http://www.lifefunker.com/archives/163