DataFrame是表格型数据结构,包含一组有序的列,每列可以是不同的值类型。
DataFrame有行索引和列索引,可以看成由Series组成的字典。
Pandas 的 DataFrame 是一个二维标签化数据结构,可以将其想象为一个 Excel 电子表格或 SQL 数据库中的表,其中有行和列。DataFrame 是 Pandas 中用于存储和操作结构化数据的主要工具。
import numpy as np
import pandas as pd
from datetime import datetime as dt
# 通过字典创建DataFrame
df_1=pd.DataFrame({'A':1.0,
'B':pd.Timestamp(2019,8,19),
'C':pd.Series(1,index=list(range(4)),dtype='float32'),
'D':np.array([3]*4,dtype='int32'),
'E':pd.Categorical(['test','train','test','train']),
'F':'foo'})
A | B | C | D | E | F | |
---|---|---|---|---|---|---|
0 | 1.0 | 2019-08-19 | 1.0 | 3 | test | foo |
1 | 1.0 | 2019-08-19 | 1.0 | 3 | train | foo |
2 | 1.0 | 2019-08-19 | 1.0 | 3 | test | foo |
3 | 1.0 | 2019-08-19 | 1.0 | 3 | train | foo |
df_1.index # 返回行的序号
Int64Index([0, 1, 2, 3], dtype='int64')
df_1.columns # 返回列的序号名字
Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')
df_1.values # 把每个值进行打印出来
[[1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'test' 'foo']
[1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'train' 'foo']
[1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'test' 'foo']
[1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'train' 'foo']]
df_1.T # 翻转数据
0 | 1 | 2 | 3 | |
---|---|---|---|---|
A | 1 | 1 | 1 | 1 |
B | 2019-08-19 00:00:00 | 2019-08-19 00:00:00 | 2019-08-19 00:00:00 | 2019-08-19 00:00:00 |
C | 1 | 1 | 1 | 1 |
D | 3 | 3 | 3 | 3 |
E | test | train | test | train |
F | foo | foo | foo | foo |