numpy array matrix 矩阵和数组的区别与联系

 numpy array matrix指的是 numpy.array() 和numpy.matrix() .是numpy的n维度数组与矩阵, 这是numpy支持数学运算的两个基础结构。

 numpy array matrix指的是 numpy.array() 和numpy.matrix() .是numpy的n维度数组与矩阵, 这是numpy支持数学运算的两个基础结构。笔者在之前的篇幅中介绍过array的基本概念,读者可以去自行阅读;这两个数据结构存在一定的共性,同时也有一些区别差异。

numpy 代表
numpy 大表

Matrix包含于Array, matrix 拥有array的所有特性;numpy arrays (ndarrays) 可以是多维的(1D,2D,3D····ND),而Matrix必须是2纬的。在numpy里,“mat”是“matrix”的一个别名, matrix 类 是ndarray的一个Python子类

matrix特性

矩阵有几个特有的属性使得计算更加容易,这些属性有:
    (a) .T -- 返回自身的转置, 而array也同样可以通过相同的方式得到转置
    (b) .H -- 返回自身的共轭转置
    (c) .I -- 返回自身的逆矩阵
    (d) .A -- 返回自身数据的2维数组的一个视图(没有做任何的拷贝)

array和matrix 创建方式

import numpy as np
# 矩阵和数组
def mat_array():
    a1 = [[1, 2], [3, 4]]
    a2 = ([1, 2], [3, 4])
    a3 =((1, 2), (3, 4))

    for i in [a1, a2, a3]:
        print(np.mat(i))
        print(np.array(i))
        print("-------")

mat_array()
[[1 2]
 [3 4]]
[[1 2]
 [3 4]]
-------
[[1 2]
 [3 4]]
[[1 2]
 [3 4]]
-------
[[1 2]
 [3 4]]
[[1 2]
 [3 4]]
-------

通过以上的python代码我们可以看到我们使用python基础数据结构 list嵌套、tuple嵌套或者两者组合的嵌套方式,再直接调用矩阵和数组创建的方法都是可以到二维数组–矩阵的。

矩阵乘法运算

1、当矩阵a的列数等于矩阵b的行数时,a和b可以相乘。

2、矩阵c的行数等于矩阵a的行数,c的列数等于b的列数。

3、积c的第m行第n列的元素等于矩阵a的第m行的元素和矩阵b的第n列的对应元素的积之和。

矩阵乘法
a = np.mat(a1)
b = np.dot(a, a)
print(a ** 2)
print(b)
print("-------")
c = np.array(a1)
print(c ** 2)
print(np.dot(c, c))
[[ 7 10]
 [15 22]]
[[ 7 10]
 [15 22]]
-------
[[ 1  4]
 [ 9 16]]
[[ 7 10]
 [15 22]]

matrix和array都可以调用numpy.dot()方法,并且都是矩阵乘法的效果;而matrix可以通过运算符 ** 来达到相同的效果。

array()的乘法是矩阵中对应位置的两个数相乘。

mat()的乘法是矩阵乘法。

array()乘法:*代表点乘(对应元素相乘),dot()代表矩阵乘。

mat()乘法:*代表矩阵乘,multiply()代表点乘。

pandas dataframe set index 失效

pandas dataframe set index 失效,dataframe的index是以0,1,2…数字形式的序列;在官方的函数方法说明中清清楚楚的写着,set_index的返回值是一个dataframe或者是空,而是空的话其中的inplace参数必须是True

pandas dataframe set index 失效的问题,主要是指的 set_index()函数指定了column_name,但是展示或者使用数据dataframe的时候index依旧是默认以0,1,2…数字形式的序列,例如以下代码及其效果

import pandas as pd

data = pd.read_csv("../Desktop/TSLA.csv")
data.set_index(pd.DatetimeIndex(data['Date'].values))
data.shape
print(data.head(2))
                  Date        Open  ...  Dividends  Stock Splits
0  2020-06-01 00:00:00  171.600006  ...          0           0.0
1  2020-06-02 00:00:00  178.940002  ...          0           0.0

这个问题主要是使用者对pandas的api不够了解或者没有自信阅读API文档导致的,在官方的函数方法说明中清清楚楚的写着,set_index的返回值是一个dataframe或者是空,而如果是空的话其中的inplace参数必须是True。

pandas dataframe set_index返回值
pandas dataframe set_index返回值

至此我们可以得出结论,有两种方式来解决 pandas.DataFrame.set_index(“col_name“)失效问题,分别如下代码两种方式设置了index之后的dataframe数据效果

data.set_index(pd.DatetimeIndex(data['Date'].values), inplace=True)
data data.set_index(pd.DatetimeIndex(data['Date'].values))
                           Date        Open  ...  Dividends  Stock Splits
2020-06-01  2020-06-01 00:00:00  171.600006  ...          0           0.0
2020-06-02  2020-06-02 00:00:00  178.940002  ...          0           0.0

Jaccard similarity coefficient 杰卡德相似系数 基础闲话

Jaccard similarity coefficient(杰卡德相似系数)是一种计算相似度的基础算法 。Jaccard距离常用来处理仅包含非对称的二元(0-1)属性的对象. 计算的数据是二进制集合,集合中的元素只有0和1两个值,1表示元素存在,0是不存在该元素。因此,该算法适合一些特征相对稀疏的情况来使用,有限个的特征二进制集合作为输入得到不同事物(如文本相似、数据聚类等)。

基础概念

集合

若存在集合A = {1,2,3} ;B = {2, 3, 4};

并集: AB = {1, 2, 3, 4}

交集:AB = {2, 3}

集合基数

  • 集合论中刻画任意集合大小的一个概念, 数学概念中一般用card表示
  • 表示集合的元素个数, 如a =[1,3,4], card(a) = 3,即基数是3

二进制集合

  • 元素只有0和1两种,分别表示此位置的元素存在与不存在
  • 如果元素是0,则基数计算是不做统计。如card([1,0,0,1]) = 2

杰卡德距离

向量A:(0,0,1,1,1,0,1)

向量B:(1,0,1,0,1,0,0)

A∩B = 2 -- 对应位置都为1
A∪B = 5 -- 1 至少出现一次的位置
Jaccard distance

python实现

a = list('0011101')
b = list('1010100')
c = [1 if (i1 == i2 and i1=='1') else 0 for (i1, i2) in zip(a, b,)]
d = [1 if (i1 == '1' or i2=='1') else 0 for (i1, i2) in zip(a, b,)]

print(c, d)
jc = len([i for i in c if i==1]) / len([i for i in d if i ==1])
js = 1 - jc
print(js)

输出结果为: (c, d) = [0, 0, 1, 0, 1, 0, 0] [1, 0, 1, 1, 1, 0, 1]
js = 0.6