pandas dataframe for loop 循环初探

DataFrame直接使用for循环时,按以下顺序获取列名;使用iteritems()方法,可以获取列名称和pandas.Series类型的元组,元组对应每个列的数据;使用iterrows()方法,可以获得每一行的数据(pandas.Series类型)和列名与具体值的元组

pandas dataframe 是表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型。具体的介绍不做细说,直奔中心问题,一个dataframe怎么做循环?

以下面代码实例为具体介绍,从代码中我们可以看到dataframe的具体创建方式之一,而且是指定了index,当然我们可以不指定index而是通过后续的set index来修改index的值,这些操作我们可以通过之前的篇幅来具体了解。

import pandas as pd

df = pd.DataFrame({'age': [24, 42, 18, 60],
                   'location': ['beijing', 'shanghai', 'beijing', 'shenzhen'],
                   'score': [74, 92, 88, 99],
                   'name': ['huahua', 'mingming', 'laowang', 'xiaowang']},
                  index=['1', '2', '3', '4'])
print(df)
   age  location      name  score
1   24   beijing    huahua     74
2   42  shanghai  mingming     92
3   18   beijing   laowang     88
4   60  shenzhen  xiaowang     99

直接对dataframe做for loop 或者 调用__iter__

直接对dataframe做for循环和调用它的__iter__()方法效果是一样的。都是顺序获取列名。

for d in df:
    print(d)
    print("=====")
for d in df.__iter__():
    print(d)
    print("============")
age
=====
location
=====
name
=====
score

DataFrame.iteritems() 逐列检索

使用iteritems()方法,可以获取列名称和pandas.Series类型的元组,元组对应每个列的数据;

for d in df.iteritems():
    print(d)
    print(type(d))
    print("=========")

我们截取部分输出可以看到,iteritems循环得到的是一个个的tupel对象,而tuple第一个值是str类型的对应的列名称;tuple的第二个值是一个pandas.Series类型的对象,报名此列所有行的索引值以及其具体的列值

('age', 1    24
2    42
3    18
4    60
Name: age, dtype: int64)
<class 'tuple'>
=========
('location', 1     beijing
2    shanghai
3     beijing
4    shenzhen
Name: location, dtype: object)
<class 'tuple'>
=========
dataframe iteritems方法循环

DataFrame.iterrows() 逐行检索

使用iterrows()方法,可以获得每一行的数据(pandas.Series类型)和列名与具体值的元组

for d in df.iterrows():
    print(d)
    print(type(d))
    print("=========")

同样我们从部分的输出结果可以看出来,iterrows的效果是和iteritems相对的。iterrows方法返回的依旧是一个tuple对象,而tuple的第一个值是对应的该行所对应的index值,而tuple第二个值依旧是一个pands.Series类型的对象,该Series包含的此行对应所有列的列名及其具体的值。

('1', age              24
location    beijing
name         huahua
score            74
Name: 1, dtype: object)
<class 'tuple'>
=========
('2', age               42
location    shanghai
name        mingming
score             92
Name: 2, dtype: object)
<class 'tuple'>
=========

其实dataframe还有其它的循环方法,具体的内容此篇不去复述了,平时我们处理数据用到比较多的就是以上几种情况。

python stock 量化投资和股票分析 mpl_finance 画图

python stock 量化投资和股票分析,python的numpy、pandas包写上几行代码,再用matplotlib画上几张图,用sklearn(scikit-learn)包的模型画个传统机器学习的模型又或用tensorflow或者pytorch等框架套入深度学习,云云如是

python stock 这两个词原本是互不相干的,不知具体从何时起,量化投资股票分析数据模型python数据分析等等各种词汇的联系越来越多,从而使得很多所谓的交易高手股市技术流股票大佬在各个平台来吹嘘自己的交易策略有多么的厉害。
拿着python的numpypandas包写上几行很多小白看不明白的代码,再用matplotlib画上几张图,就说自己的交易策略;稍微知道的多就会在用sklearn(scikit-learn)包的模型画个传统机器学习的模型;再厉害一些的呢就用tensorflow或者pytorch等框架套入数据做个深度学习的模型,云云如是… 基本的教学大纲差不多是下边这样的。
我和我的小伙伴都惊呆了...
呆!股市大狗在此,哪里逃…

python stock 股票数据来源

  • 合法爬虫
  • 现成的python包数据调用,如yfinance
  • 臆想出来的

雅虎的yfinance还是很好用的,如果读者没法使用就可以参考笔者之前的爬虫文章去正规的网站上爬取股票数据,至于怎么做到合法呢?就是看网站域名下的robots.txt文件是什么样的,比如很多人都是知道的东方财富网,我们直接在它的根域名后边跟一个robots.txt,在浏览器地址栏中加载看一下

https://www.eastmoney.com/robots.txt

而浏览器加载的结果如下,我们看到User-agent没有具体的指向,并且Disallow 又没有说不允许谁来爬,所以呢爬TM的没问题。

User-agent: *
Allow: /
Sitemap: http://www.eastmoney.com/sitemap.xml

数据初探和哔哩哔哩

如上文所说我们用yfinance加载数据,用特斯拉(TSLA)的日交易数据来演示一哈。

import yfinance as yf

tsla= yf.Ticker("tsla")
data = tsla.history(start="2020-06-01", end="2022-06-30", interval="1d")
print(data.head(2))
print(data.columns)
                           Date        Open  ...  Dividends  Stock Splits
2020-06-01  2020-06-01 00:00:00  171.600006  ...          0           0.0
2020-06-02  2020-06-02 00:00:00  178.940002  ...          0           0.0

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Volume', 'Dividends',
       'Stock Splits'],
      dtype='object')

到了这里大佬们会比哔哩哔哩一下这些数据都是啥,比如这些数据的含义啊,什么日开盘价、收盘价、交易量等等,然后会在介绍一下,要用什么来计算指标,然后又用这些指标来达到什么样的效果。自己知道且有耐心的老师还会给说一下这些指标具体的数学本质是啥。

matplotlib画个MACD图

先计算上线布林线,整个过程都是pandas dataframe的常规计算,没有什么特殊的,如果非要摆一摆就是把这个MACD的含义啊,pandas的使用啊,数学意义啊,股市指标价值啊,巴拉巴拉讲上几节课。

import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
plt.style.use('seaborn-colorblind')

# 短线EMA
shortEMA = history.Close.ewm(span=12, adjust=False).mean()
# 长线EMA
longEMA = history.Close.ewm(span=26, adjust=False).mean()
# MACD
MACD = shortEMA - longEMA

single_line = MACD.ewm(span=9, adjust=False).mean()

plt.figure(figsize=(12.2, 4.5))
plt.plot(history.index, MACD, label='TSLA MACD', color='r')
plt.plot(history.index, single_line, label='Single Line', color='b')
plt.xticks(rotation=45)
plt.legend(loc='upper left')
plt.show()
matplotlib画的特斯拉MACD图
MACD线

mplfinance 画个K线图

malfinace 本身以前是matplotlib的一个模块,但是从19年开始独立出来了,所以读者如果用的是较新的python环境必须的从新安装一下,模块也好,包也罢都可能会是另一个知识点,因为小白们是不知道怎么用这些工具的,得学啊。

==================================

   WARNING: `mpl_finance` is deprecated:

    Please use `mplfinance` instead (no hyphen, no underscore).

    To install: `pip install --upgrade mplfinance` 

   For more information, see: https://pypi.org/project/mplfinance/

======================================

BOLLING 计算

data['SMA'] = data['Close'].rolling(window=20).mean()
# 计算 standard deviation
data['STD'] = data['Close'].rolling(window=20).std()
data['UpperLine'] = data['SMA'] + (data['STD'] * 2)
data['LowerLine'] = data['SMA'] - (data['STD'] * 2)
add_plot = mpf.make_addplot(data[['UpperLine', 'LowerLine']],linestyle='dashdot')
mpf.plot(data, addplot=add_plot, type='ohlc', volume=True)
malfinace 实现特斯拉的日K线图
malfinace K线图

机器学习做个模型吧

嘿嘿嘿,笔者不想在此篇文章里写模型的代码了,至此算是骗个炮吧:stuck_out_tongue_winking_eye:,以后空了再来后续骗。

pandas dataframe set index 失效

pandas dataframe set index 失效,dataframe的index是以0,1,2…数字形式的序列;在官方的函数方法说明中清清楚楚的写着,set_index的返回值是一个dataframe或者是空,而是空的话其中的inplace参数必须是True

pandas dataframe set index 失效的问题,主要是指的 set_index()函数指定了column_name,但是展示或者使用数据dataframe的时候index依旧是默认以0,1,2…数字形式的序列,例如以下代码及其效果

import pandas as pd

data = pd.read_csv("../Desktop/TSLA.csv")
data.set_index(pd.DatetimeIndex(data['Date'].values))
data.shape
print(data.head(2))
                  Date        Open  ...  Dividends  Stock Splits
0  2020-06-01 00:00:00  171.600006  ...          0           0.0
1  2020-06-02 00:00:00  178.940002  ...          0           0.0

这个问题主要是使用者对pandas的api不够了解或者没有自信阅读API文档导致的,在官方的函数方法说明中清清楚楚的写着,set_index的返回值是一个dataframe或者是空,而如果是空的话其中的inplace参数必须是True。

pandas dataframe set_index返回值
pandas dataframe set_index返回值

至此我们可以得出结论,有两种方式来解决 pandas.DataFrame.set_index(“col_name“)失效问题,分别如下代码两种方式设置了index之后的dataframe数据效果

data.set_index(pd.DatetimeIndex(data['Date'].values), inplace=True)
data data.set_index(pd.DatetimeIndex(data['Date'].values))
                           Date        Open  ...  Dividends  Stock Splits
2020-06-01  2020-06-01 00:00:00  171.600006  ...          0           0.0
2020-06-02  2020-06-02 00:00:00  178.940002  ...          0           0.0