
DataFrame是表格型数据结构,包含一组有序的列,每列可以是不同的值类型。
DataFrame有行索引和列索引,可以看成由Series组成的字典。
Pandas 的 DataFrame 是一个二维标签化数据结构,可以将其想象为一个 Excel 电子表格或 SQL 数据库中的表,其中有行和列。DataFrame 是 Pandas 中用于存储和操作结构化数据的主要工具。
import numpy as npimport pandas as pdfrom datetime import datetime as dt# 通过字典创建DataFramedf_1=pd.DataFrame({'A':1.0,'B':pd.Timestamp(2019,8,19),'C':pd.Series(1,index=list(range(4)),dtype='float32'),'D':np.array([3]*4,dtype='int32'),'E':pd.Categorical(['test','train','test','train']),'F':'foo'})
| A | B | C | D | E | F | |
|---|---|---|---|---|---|---|
| 0 | 1.0 | 2019-08-19 | 1.0 | 3 | test | foo |
| 1 | 1.0 | 2019-08-19 | 1.0 | 3 | train | foo |
| 2 | 1.0 | 2019-08-19 | 1.0 | 3 | test | foo |
| 3 | 1.0 | 2019-08-19 | 1.0 | 3 | train | foo |
df_1.index # 返回行的序号Int64Index([0, 1, 2, 3], dtype='int64')
df_1.columns # 返回列的序号名字Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')
df_1.values # 把每个值进行打印出来[[1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'test' 'foo'][1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'train' 'foo'][1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'test' 'foo'][1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'train' 'foo']]
df_1.T # 翻转数据
| 0 | 1 | 2 | 3 | |
|---|---|---|---|---|
| A | 1 | 1 | 1 | 1 |
| B | 2019-08-19 00:00:00 | 2019-08-19 00:00:00 | 2019-08-19 00:00:00 | 2019-08-19 00:00:00 |
| C | 1 | 1 | 1 | 1 |
| D | 3 | 3 | 3 | 3 |
| E | test | train | test | train |
| F | foo | foo | foo | foo |