pandas dataframe 是表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型。具体的介绍不做细说,直奔中心问题,一个dataframe怎么做循环?
以下面代码实例为具体介绍,从代码中我们可以看到dataframe的具体创建方式之一,而且是指定了index,当然我们可以不指定index而是通过后续的set index来修改index的值,这些操作我们可以通过之前的篇幅来具体了解。
import pandas as pd
df = pd.DataFrame({'age': [24, 42, 18, 60],
'location': ['beijing', 'shanghai', 'beijing', 'shenzhen'],
'score': [74, 92, 88, 99],
'name': ['huahua', 'mingming', 'laowang', 'xiaowang']},
index=['1', '2', '3', '4'])
print(df)
age location name score
1 24 beijing huahua 74
2 42 shanghai mingming 92
3 18 beijing laowang 88
4 60 shenzhen xiaowang 99
直接对dataframe做for loop 或者 调用__iter__
直接对dataframe做for循环和调用它的__iter__()方法效果是一样的。都是顺序获取列名。
for d in df:
print(d)
print("=====")
for d in df.__iter__():
print(d)
print("============")
age
=====
location
=====
name
=====
score
DataFrame.iteritems() 逐列检索
使用iteritems()方法,可以获取列名称和pandas.Series类型的元组,元组对应每个列的数据;
for d in df.iteritems():
print(d)
print(type(d))
print("=========")
我们截取部分输出可以看到,iteritems循环得到的是一个个的tupel对象,而tuple第一个值是str类型的对应的列名称;tuple的第二个值是一个pandas.Series类型的对象,报名此列所有行的索引值以及其具体的列值
('age', 1 24
2 42
3 18
4 60
Name: age, dtype: int64)
<class 'tuple'>
=========
('location', 1 beijing
2 shanghai
3 beijing
4 shenzhen
Name: location, dtype: object)
<class 'tuple'>
=========

DataFrame.iterrows() 逐行检索
使用iterrows()方法,可以获得每一行的数据(pandas.Series类型)和列名与具体值的元组
for d in df.iterrows():
print(d)
print(type(d))
print("=========")
同样我们从部分的输出结果可以看出来,iterrows的效果是和iteritems相对的。iterrows方法返回的依旧是一个tuple对象,而tuple的第一个值是对应的该行所对应的index值,而tuple第二个值依旧是一个pands.Series类型的对象,该Series包含的此行对应所有列的列名及其具体的值。
('1', age 24
location beijing
name huahua
score 74
Name: 1, dtype: object)
<class 'tuple'>
=========
('2', age 42
location shanghai
name mingming
score 92
Name: 2, dtype: object)
<class 'tuple'>
=========
其实dataframe还有其它的循环方法,具体的内容此篇不去复述了,平时我们处理数据用到比较多的就是以上几种情况。