pandas dataframe set index 失效

pandas dataframe set index 失效,dataframe的index是以0,1,2…数字形式的序列;在官方的函数方法说明中清清楚楚的写着,set_index的返回值是一个dataframe或者是空,而是空的话其中的inplace参数必须是True

pandas dataframe set index 失效的问题,主要是指的 set_index()函数指定了column_name,但是展示或者使用数据dataframe的时候index依旧是默认以0,1,2…数字形式的序列,例如以下代码及其效果

import pandas as pd

data = pd.read_csv("../Desktop/TSLA.csv")
data.set_index(pd.DatetimeIndex(data['Date'].values))
data.shape
print(data.head(2))
                  Date        Open  ...  Dividends  Stock Splits
0  2020-06-01 00:00:00  171.600006  ...          0           0.0
1  2020-06-02 00:00:00  178.940002  ...          0           0.0

这个问题主要是使用者对pandas的api不够了解或者没有自信阅读API文档导致的,在官方的函数方法说明中清清楚楚的写着,set_index的返回值是一个dataframe或者是空,而如果是空的话其中的inplace参数必须是True。

pandas dataframe set_index返回值
pandas dataframe set_index返回值

至此我们可以得出结论,有两种方式来解决 pandas.DataFrame.set_index(“col_name“)失效问题,分别如下代码两种方式设置了index之后的dataframe数据效果

data.set_index(pd.DatetimeIndex(data['Date'].values), inplace=True)
data data.set_index(pd.DatetimeIndex(data['Date'].values))
                           Date        Open  ...  Dividends  Stock Splits
2020-06-01  2020-06-01 00:00:00  171.600006  ...          0           0.0
2020-06-02  2020-06-02 00:00:00  178.940002  ...          0           0.0

built in functions 内置函数 hive sql 数据计算

built in functions 内置函数,顾名思义是内部的函数,所谓内部主要是指解析器内部。通俗的讲就是我们用什么语言或者什么工具它自带的一些具有某些快速计算逻辑的方法或者函数。hive sql同样也具有很多这样的内置函数

built in functions 内置函数,顾名思义是内部的函数,所谓内部主要是指解析器内部。通俗的讲就是我们用什么语言或者什么工具它自带的一些具有某些快速计算逻辑的方法或者函数。hive sql同样也具有很多这样的内置函数,笔者不对所有的内置函数做罗列,我们拿具体的数据来展示效果。

我们在以前的文章中对于hive sql 的一些内置方法也有过简单的介绍,比如与数据行号相关的方法

背景介绍

字段名注释
article_id文章ID
height屏高
position页面位置
duration阅读时长
scoll_number滚屏次数
words_number文章字数
hive table informations

截取hive table的部分字段来运用内置函数来计算对应数据的科学计数效果

hive table datas for build in functions
hive table datas

平均值、最大值和最小值

SELECT  MIN(scoll_number) min_value
        ,MAX(scoll_number) max_value
        ,AVG(scoll_number) avg_value
        ,SUM(scoll_number) total_value
        ,COUNT(scoll_number) count_value
FROM    ads_recommend_article_statistic
;
min_valuemax_valueavg_valuetotal_valuecount_value
01167.3667296786389423897529
最大值、最小值、平均值 内置函数

方差、协方差、N位值、相关系数

SELECT  STDDEV(scoll_number) stddev_value, --标准差
        STDDEV_SAMP(scoll_number) samp_value --标准差 精度更细,小量数据计算
        ,var_samp(scoll_number) var_value --方差
        ,covar_pop(scoll_number, words_number) covar_value -- 协方差
        ,percentile(scoll_number, 0.4) percent_value --4分位值
        ,percentile(scoll_number, 0.5) percent_value --中位值
        ,corr(scoll_number, words_number) corr_value --皮尔逊系数
FROM    ads_recommend_article_statistic
科学计数公式函数
方差公式:
m为x1,x2...xn数列的期望值(平均数)
s^2 = [(x1-m)^2 + (x2-m)^2 + ... (xn-m)^2]/n

s即为标准差
s^2为方差。