python tsv TSV 文件扩展名是什么文件

在一些经典的机器学习算法实验过程中,一般常见的数据格式会是.tsv和.csv格式。那么TSV扩展名的文件是什么呢?

TSV 是Tab-separated values的缩写,即制表符分隔值。
相对来说CSV,Comma-separated values(逗号分隔值)更常见一些。

TSV与CSV的区别:

1)从名称上即可知道,TSV是用制表符(Tab,’\t’)作为字段值的分隔符;CSV是用半角逗号(’,’)作为字段值的分隔符;

2)IANA规定的标准TSV格式,字段值之中是不允许出现制表符的。

Python对TSV文件的支持:

Python的csv模块准确的讲应该叫做dsv模块,因为它实际上是支持范式的分隔符分隔值文件(DSV,delimiter-separated values)的。
delimiter参数值默认为半角逗号,即默认将被处理文件视为CSV。
当delimiter=’\t’时,被处理文件就是TSV。
http://docs.python.org/library/csv.html

numpy 数组属性 区别于 python list 清仓大甩卖

上篇关于numpy的文章主要介绍了numpy的数据结构,本篇旨在讲解numpy的数组属性,NumPy 数组的维数称为秩(rank),秩就是轴的数量,即数组的维度,一维数组的秩为 1,二维数组的秩为 2。

在 NumPy中,每一个线性的数组称为是一个轴(axis),也就是维度(dimensions)。axis=0,表示沿着第 0 轴进行操作,即对每一列进行操作;axis=1,表示沿着第1轴进行操作,即对每一行进行操作。

numpy 数组基本属性

代码撸一撸

import numpy as np

a = np.arange(32)
print(a.ndim)
print("a =", a)

b =[ _ for _ in range(32)]
print("b =", b)

c = a.reshape(2, 4, 4)
print(c.ndim)
print("c =", c)
print("c.shape =", c.shape)
print("c.dtype =", c.dtype)
print("c.itemsize =", c.itemsize)

输出结果:

1
a = [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31]
b = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31]
3
c = [[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]
  [12 13 14 15]]

 [[16 17 18 19]
  [20 21 22 23]
  [24 25 26 27]
  [28 29 30 31]]]
c.shape = (2, 4, 4)
c.dtype = int32
c.itemsize = 4

上面的输出结果,我们是可以看到a和b的区别,这也是numpy数组和普通python list的表现形式上的区别,list带逗号分割元素,数组缺没有分隔符。

*知识扩展-Int8,Int16, Int32, Int64有什么区别呢?

计算机的基本的存储单元

  • 位(bit):二进制数中的一个数位,可以是0或者1,是计算机中数据的最小单位。二进制的一个“0”或一个“1”叫一位。
  • 字节(Byte,B):计算机中数据的基本单位,每8位组成一个字节。各种信息在计算机中存储、处理至少需要一个字节。

ASCIIS码: 1个英文字母(不分大小写)= 1个字节的空间
1个中文汉字 = 2个字节的空间
1个ASCII码 = 一个字节
UTF-8编码: 1个英文字符 = 1个字节
英文标点 = 1个字节
1个中文(含繁体) = 3个字节
中文标点 = 3个字节
Unicode编码: 1个英文字符 = 2个字节
英文标点 = 2个字节
1个中文(含繁体) = 2个字节
中文标点 = 2个字节

字(Word):两个字节称为一个字。汉字的存储单位都是一个字。

基本编码字节占用情况

而Int8,Int16,Int32,nt64,后面的数字就代表这个数据类型占据的空间。

Int8, 等于Byte, 占1个字节.
Int16, 等于short, 占2个字节. -32768 32767
Int32, 等于int, 占4个字节. -2147483648 2147483647
Int64, 等于long, 占8个字节. -9223372036854775808 9223372036854775807
这样, 看起来比short,int,long更加直观些!
另外, 还有一个Byte, 它等于byte, 0 - 255.

python 二叉树(binary tree) 先序遍历 中序遍历 后序遍历

我们在之前数据结构-二叉树基础的篇幅中已经对二叉树(binary tree)的基本性质、特点做了入门介绍,不再做过多的介绍。本篇旨在通过最简单的python代码来模拟实现二叉树的先序遍历、中序遍历、后序遍历。

二叉树是有限个元素的集合,该集合或者为空、或者有一个称为根节点(root)的元素及两个互不相交的、分别被称为左子树和右子树的二叉树组成。

二叉树的基本介绍

1、特点知识回顾

  • 二叉树的每个结点至多只有二棵子树(不存在度大于2的结点),二叉树的子树有左右之分,次序不能颠倒。
  • 二叉树的第i层至多有2^{i-1}个结点
  • 深度为k的二叉树至多有2^k-1个结点;
  • 对任何一棵二叉树T,如果其终端结点数为N0,度为2的结点数为N2,则N0=N2+1

2、上代码

# 定义基本二叉树结构
class Node:
    def __init__(self,value=None,left=None,right=None):
        self.value=value
        self.left=left    #左子树
        self.right=right  #右子树
def preTraverse(root):
    '''
    前序遍历
    '''
    if root==None:
        return
    print(root.value)
    preTraverse(root.left)
    preTraverse(root.right)

def midTraverse(root):
    '''
    中序遍历
    '''
    if root==None:
        return
    midTraverse(root.left)
    print(root.value)
    midTraverse(root.right)

def afterTraverse(root):
    '''
    后序遍历
    '''
    if root==None:
        return
    afterTraverse(root.left)
    afterTraverse(root.right)
    print(root.value)

3、验证

输入的二叉树结构
root=Node('D',Node('B',Node('A'),Node('C')),Node('E',right=Node('G',Node('F'))))
print('前序遍历:')
preTraverse(root)
print('\n')
print('中序遍历:')
midTraverse(root)
print('\n')
print('后序遍历:')
afterTraverse(root)
print('\n')
前序遍历:
D
B
A
C
E
G
F

中序遍历:
A
B
C
D
E
F
G

后序遍历:
A
C
B
F
G
E
D