python stock 量化投资和股票分析 mpl_finance 画图

python stock 量化投资和股票分析,python的numpy、pandas包写上几行代码,再用matplotlib画上几张图,用sklearn(scikit-learn)包的模型画个传统机器学习的模型又或用tensorflow或者pytorch等框架套入深度学习,云云如是

python stock 这两个词原本是互不相干的,不知具体从何时起,量化投资股票分析数据模型python数据分析等等各种词汇的联系越来越多,从而使得很多所谓的交易高手股市技术流股票大佬在各个平台来吹嘘自己的交易策略有多么的厉害。
拿着python的numpypandas包写上几行很多小白看不明白的代码,再用matplotlib画上几张图,就说自己的交易策略;稍微知道的多就会在用sklearn(scikit-learn)包的模型画个传统机器学习的模型;再厉害一些的呢就用tensorflow或者pytorch等框架套入数据做个深度学习的模型,云云如是… 基本的教学大纲差不多是下边这样的。
我和我的小伙伴都惊呆了...
呆!股市大狗在此,哪里逃…

python stock 股票数据来源

  • 合法爬虫
  • 现成的python包数据调用,如yfinance
  • 臆想出来的

雅虎的yfinance还是很好用的,如果读者没法使用就可以参考笔者之前的爬虫文章去正规的网站上爬取股票数据,至于怎么做到合法呢?就是看网站域名下的robots.txt文件是什么样的,比如很多人都是知道的东方财富网,我们直接在它的根域名后边跟一个robots.txt,在浏览器地址栏中加载看一下

https://www.eastmoney.com/robots.txt

而浏览器加载的结果如下,我们看到User-agent没有具体的指向,并且Disallow 又没有说不允许谁来爬,所以呢爬TM的没问题。

User-agent: *
Allow: /
Sitemap: http://www.eastmoney.com/sitemap.xml

数据初探和哔哩哔哩

如上文所说我们用yfinance加载数据,用特斯拉(TSLA)的日交易数据来演示一哈。

import yfinance as yf

tsla= yf.Ticker("tsla")
data = tsla.history(start="2020-06-01", end="2022-06-30", interval="1d")
print(data.head(2))
print(data.columns)
                           Date        Open  ...  Dividends  Stock Splits
2020-06-01  2020-06-01 00:00:00  171.600006  ...          0           0.0
2020-06-02  2020-06-02 00:00:00  178.940002  ...          0           0.0

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Volume', 'Dividends',
       'Stock Splits'],
      dtype='object')

到了这里大佬们会比哔哩哔哩一下这些数据都是啥,比如这些数据的含义啊,什么日开盘价、收盘价、交易量等等,然后会在介绍一下,要用什么来计算指标,然后又用这些指标来达到什么样的效果。自己知道且有耐心的老师还会给说一下这些指标具体的数学本质是啥。

matplotlib画个MACD图

先计算上线布林线,整个过程都是pandas dataframe的常规计算,没有什么特殊的,如果非要摆一摆就是把这个MACD的含义啊,pandas的使用啊,数学意义啊,股市指标价值啊,巴拉巴拉讲上几节课。

import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
plt.style.use('seaborn-colorblind')

# 短线EMA
shortEMA = history.Close.ewm(span=12, adjust=False).mean()
# 长线EMA
longEMA = history.Close.ewm(span=26, adjust=False).mean()
# MACD
MACD = shortEMA - longEMA

single_line = MACD.ewm(span=9, adjust=False).mean()

plt.figure(figsize=(12.2, 4.5))
plt.plot(history.index, MACD, label='TSLA MACD', color='r')
plt.plot(history.index, single_line, label='Single Line', color='b')
plt.xticks(rotation=45)
plt.legend(loc='upper left')
plt.show()
matplotlib画的特斯拉MACD图
MACD线

mplfinance 画个K线图

malfinace 本身以前是matplotlib的一个模块,但是从19年开始独立出来了,所以读者如果用的是较新的python环境必须的从新安装一下,模块也好,包也罢都可能会是另一个知识点,因为小白们是不知道怎么用这些工具的,得学啊。

==================================

   WARNING: `mpl_finance` is deprecated:

    Please use `mplfinance` instead (no hyphen, no underscore).

    To install: `pip install --upgrade mplfinance` 

   For more information, see: https://pypi.org/project/mplfinance/

======================================

BOLLING 计算

data['SMA'] = data['Close'].rolling(window=20).mean()
# 计算 standard deviation
data['STD'] = data['Close'].rolling(window=20).std()
data['UpperLine'] = data['SMA'] + (data['STD'] * 2)
data['LowerLine'] = data['SMA'] - (data['STD'] * 2)
add_plot = mpf.make_addplot(data[['UpperLine', 'LowerLine']],linestyle='dashdot')
mpf.plot(data, addplot=add_plot, type='ohlc', volume=True)
malfinace 实现特斯拉的日K线图
malfinace K线图

机器学习做个模型吧

嘿嘿嘿,笔者不想在此篇文章里写模型的代码了,至此算是骗个炮吧:stuck_out_tongue_winking_eye:,以后空了再来后续骗。

股票概念-移动平均和加权算术平均

1、移动平均

移动平均值是一个最老也是最流行的技术分析工具。若依次得到一组测定值时,按顺序取一定数量的数据并算得其全部算术平均值,得到的数据就叫做移动平均值。移动平均值常常用在计算股票的移动平均线、存货成本等方面。下面将介绍如何按移动加权平均法计算存货成本。

移动平均数是指采用逐项递进的办法,将时间序列中的若干项数据进行算术平均所得到的一系列平均数。若平均的数据项数为N,就称为N期(项)移动平均。根据移动平均数来预测就是移动平均预测。

举一个例子,求一组数据的n=3移动平均值

$$ (x_1=10.17,x_2=10.18,x_3=10.19,x_4=10.21, x_5=10.31,x_6=10.41,x_7=10.51,…) $$

$$\frac {x_1 + x_2 + x_3} {3} = \frac {10.17 + 10.18 + 10.19} {3} = 10.18$$

$$\frac {x_2 + x_3 + x_4} {3} = \frac {10.18 + 10.19 + 10.21} {3} = 10.193$$

$$\frac {x_3 + x_4 + x_5} {3} = \frac {10.19 + 10.21 + 10.31} {3} = 10.24$$

$$\frac {x_4 + x_5 + x_6} {3} = \frac {10.21 + 10.31 + 10.41} {3} = 10.31$$

$$\frac {x_5 + x_6 + x_7} {3} = \frac {10.31 + 10.41 + 10.51} {3} = 10.41$$

移动平均预测法与算术平均预测法都是以算术平均数作为预测的依据,但二者又有明显区别。算术平均预测法是对时间序列的全部观察数据求一个平均值,该平均值只能反映现象在观察期内的平均水平,不能反映出趋势的变化。而移动平均预测法是按一定的平均项数滑动着对时间序列求一系列平均值(也叫平滑值),这些平均值不仅能消除或减弱时间序列中的不规则变动,而且能揭示现象的变化趋势,所以移动平均预测法在市场预测中有着广泛的应用。
根据时间序列的特征不同,移动平均预测有的只需要作一次移动平均,有的则需要计算二次移动平均。

一次移动平均

一次移动平均预测就是只需要对时间序列进行一次移动平均,直接用第t期的移动平均数Mt 作为第t期的预测值 yt+1 .

移动平均值,既可以是简单移动平均,也可以是加权移动平均。
如果认为所平均的各项数据重要性相同,就采用简单算术平均法计算移动平均值作为预测值。其计算公式为:

$$ \hat {y}_{t+1} = M_t $$

$$\Longrightarrow {{y_t + y_{t-1} + … + y_{t-N+1}}\over{N}} = \sum_{i=0}^{N-1}y_{t-1}$$

其中yt , yt-1,… 分别代表t,t-1,…期的观察值;N为平均项数。

t+ 1 为了突出近期数据对预测值的影响,可采用加权算术平均法计算移动平均值来预测。权数按“近大远小”的原则确定,具体地说,就是离预测期较近的数据给以较大的权数,离预测期较远的数据给以较小的权数。加权移动平均预测第期预测值的计算公式为

$$ \hat {y}_{t+1} = M_t $$

$$\Longrightarrow {{y_tw_t + y_{t-1}w_{t-1} + … + y_{t-N+1}w_{t-N+1}}\over{w_t + w_{t-1} + … + w_{t-N+1}}} $$

式中,N为移动平均的项数;wt为观察值yt的权数,且满足由近到远权数逐渐递减的原则,即有 wt > wt-1 > … > wt-N+1,为了简便,由近到远各期观察值的权数常常取自然数N,N-1,N-2,…2,1。

采用一次移动平均预测法,需注意以下几点:
(1)平均的项数 越大,移动平均的平滑修匀作用越强。所以如果时间序列中不规则变动的影响大,要想得到稳健的预测值,就要将 取大一些;反之,若不规则变动的影响较小,要想使预测值对现象的变化作出较快的跟踪反应,就要将 取小一些。
(2)当序列包含周期性变动时,移动平均的项数k应与周期长度一致。这样才能在消除不规则变动的同时,也消除周期性波动,使移动平均值序列只反映长期趋势。因此,季度数据通常采用四项移动平均,月度数据通常采用十二期移动平均。
(3)一次移动平均预测只具有推测未来一期趋势值的预测功能,而且只适用于呈水平趋势的时间序列。如果现象的发展变化具有明显的上升(或下降)趋势,就不能直接采用一次移动平均值作为预测值,否则预测结果就会产生偏低(或偏高)的滞后偏差,即预测值的变化要滞后于实际趋势值的变化。移动平均的项数 越大,这种滞后偏差的绝对值就越大。对具有上升(或下降)趋势的时间序列进行移动平均预测,必须要考虑滞后偏差,最常用的方法是下面介绍的二次移动平均预测。

3、二次移动平均法

二次移动平均预测是指先对时间序列进行N项移动平均,平均的结果称为一次移动平均值Mt(1) ,再对一次移动平均值序列Mt(1)进行N项移动平均,平均的结果称为二次移动平均值,记为Mt(2);然后根据两次移动平均值建立预测模型进行预测。

两次移动平均值一般都采用简单算术平均法来计算。其计算公式为

$$M_{t}^{(1)} = {{y_t + y_{t-1} + … + y_{t-N+1}}\over{N}}$$

$$M_{t}^{(2)} = {{M_{t}^{(1)} + M_{t-1}^{(1)} + … + M_{t-N+1}^{(1)}}\over{N}}$$

如果现象的变化呈线性趋势,则利用两次移动平均值可建立如下的线性预测模型:

$$a_{t} + b_{t}K = \hat y_{t+T} $$

式中,t是预测的时间起点;K是时间t距离预测期的期数(即第t+K期为预测期);at ,bt是预测模型中第期的参数估计值。其计算公式为

二次移动平均公式推导

4、加权算术平均

加权算法平均

用加权移动平均法求预测值,对近期的趋势反映较敏感,但如果一组数据有明显的季节性影响时,用加权移动平均法所得到的预测值可能会出现偏差。因此,有明显的季节性变化因素存在时,最好不要加权。

DogeCoin-胡侃胡分析

Dogecoin,有人称作“狗狗币/狗币”,诞生于2013年12月8日,基于Scrypt算法,是一款虚拟货币。

先来无事,爬一些狗狗币的历史数据,做一下简单的分析,主要涉及到每日投入回报,斐波那契回撤线、RSI等各项指标的计算和绘图,同时有一些浅显的见解。

乱侃乱聊诸位客官见笑了。话不多说,代码人先撸为敬

#引入包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.graph_objects as go
plt.style.use('fivethirtyeight')
# 加载数据
df = pd.read_csv("doge_history.csv")
# 设置交易日期为索引
df = df.set_index(pd.DatetimeIndex(df['tickertime'].values))
# csv有一列是序列号存在,在本实例中没有价值,直接去掉这一列
df.drop('Unnamed: 0',axis=1, inplace=True)
# 按照交易日期排序
df = df.sort_index()
# 展示数据 每列含义: 索引列 | 交易日期 | 开盘价 | 收盘价 | 当日最高价 | 当日最低价 | 市值 | 交易量 | 相对前日涨幅
df
# 总数据量是 533条,时间是从2019年12月截至到2021年5月中旬
df.describe()
DogeCoin 历史数据的基本情况

简单看一下数据的基本情况.
我们可以看到每一项纬度的基本情况,例如收盘价的平均值,最大最小值及各分位的值#单纯开盘价的差值可以看出狗狗币的波动之大有点惊掉下巴了.

DogeCoin历史数据基本分析

绘制K线图
 当然我们可以从很多平台看到具体的K线图,不过我们为了装13也自己画一个图来撸一撸。

DogeCoin 每日K线
  • 自从进入2021年4月以来狗狗币冲击力一次0.8美分之后就开始疲软了
  • 我们很想知道目前阶段是不是应该继续持有它(当然前提是你以前就有,且没有在高位接盘)
  • 我们用最基础的斐波那契回撤支持线来分下,狗狗币抗不抗压
# 计算斐波那契回撤线, 一共设置4层回撤支撑线
maximum_price = df['closeprice'].max()
minimum_price = df['closeprice'].min()
difference = maximum_price - minimum_price
first_level = maximum_price - difference * 0.236
second_level = maximum_price - difference * 0.382
third_level = maximum_price - difference * 0.5
fourth_level = maximum_price - difference * 0.618
# 画图, 除了基本的四条斐波那契回撤线之外再把最大最小值的线也加上
# 同时也把交易量的图画出来
top = plt.subplot2grid((4,4), (0,0), rowspan=3, colspan=4)
top.plot(df.index, df['closeprice'], label='Close')
top.axhline(maximum_price, linestyle='--', alpha=0.5,color ='red')
top.axhline(first_level, linestyle='--', alpha=0.5,color ='orange')
top.axhline(second_level, linestyle='--', alpha=0.5,color ='yellow')
top.axhline(third_level, linestyle='--', alpha=0.5,color ='green')
top.axhline(fourth_level, linestyle='--', alpha=0.5,color ='blue')
top.axhline(minimum_price, linestyle='--', alpha=0.5,color ='purple')
plt.title('Close 2019-2021')
plt.legend(loc='upper left')
bottom = plt.subplot2grid((4,4),(3,0),rowspan=3, colspan=4)
plt.title('Volum 2019-2021')
bottom.bar(df.index,df['vol'])
plt.subplots_adjust(hspace=0.75)
plt.gcf().set_size_inches(15,8)
DogeCoin 斐波那契数回撤线

从图中我们可以明显看出来几个情况:

  • 交易量上升的几个时间周期内,狗狗的价格也在上升
  • 4、5月份狗狗回撤支撑还不错

接下来我们再从RSI和SMA这些指标看一看数据的反馈情况

# 每日投入回报
DSR = df['closeprice'].pct_change(1)
DSR
DogeCoin DSR基本情况
# 画出每日投资回报的图
plt.figure(figsize=(25,8))
plt.plot(DSR.index, DSR, label='Close', lw=1, alpha =0.65)
plt.title('DogeCoin Daily Simple Return')
plt.ylabel('Percentage')
plt.xlabel('Date')
plt.xticks(rotation=75)
DogeCoin DSR 波动图

单纯从每日投入回报的数据上看狗狗币不太适合稳重投资人入手,波动太大

  • 有两天的浮动超过百分之百,如果地位入手确实赚了,但是高位洁癖就赔惨了
  • 这样大的波动如果运气好玩杠杆真的算是高潮迭起了
# 计算强弱指标RSI
delta = df['closeprice'].diff(1)
delta = delta.dropna()
up = delta.copy()
down = delta.copy()
up[up<0] = 0
print(up.head(3))
down[down>0] = 0
time_period = 14
AVG_Gain = up.rolling(window=time_period).mean()
AVG_Loss = abs(down.rolling(window=time_period).mean())
RS = AVG_Gain / AVG_Loss
RSI = 100.0 - (100.0 / (1.0 + RS))
# 计算30天简单移动平均线 30 day simple moving average
SMA30 = df['closeprice'].rolling(window=30).mean()
df['SMA30'] = SMA30
df
# 画出RSI 和 SMA的图
fig, ax = plt.subplots(1,2,figsize=(15,5))
ax0 = RSI.plot(ax=ax[0])
ax0.axhline(30, color='green')
ax0.axhline(70, color='red')
df[['closeprice','SMA30']].plot(ax=ax[1])
DogeCoin RSI 和SMA30

我们把RSI强弱指标的数据用两张图展示出来:

  • 从SMA30 + 收盘价趋势来看,狗狗应该还会上升
  • 截至到2021年5月中旬,从RSI的基本分析来说超买情况刚刚回去,盘整回落
  • 结论就是还可以继续持有
  • All In

matplotlib.pyplot入门: http://www.lifefunker.com/archives/193
RSI: http://www.lifefunker.com/archives/190
超买、超卖: http://www.lifefunker.com/archives/186
plotly: http://www.lifefunker.com/archives/169
RSI: http://www.lifefunker.com/archives/163