• 主页

  • 投资

  • IT

    🔥
  • 设计

  • 销售

  • 共95篇

    python3.X - 数据分析 - Pandas

关闭

返回栏目

关闭

返回python3.X - 数据分析 - Pandas栏目

9 - 数据结构 - 表格型 - DataFrame()

作者:

贺及楼

成为作者

更新日期:2024-08-14 11:13:04

DataFrame()

表格型-DataFrame()

DataFrame是表格型数据结构,包含一组有序的列,每列可以是不同的值类型。
DataFrame有行索引和列索引,可以看成由Series组成的字典。

Pandas 的 DataFrame 是一个二维标签化数据结构,可以将其想象为一个 Excel 电子表格或 SQL 数据库中的表,其中有行和列。DataFrame 是 Pandas 中用于存储和操作结构化数据的主要工具。

  1. import numpy as np
  2. import pandas as pd
  3. from datetime import datetime as dt
  4. # 通过字典创建DataFrame
  5. df_1=pd.DataFrame({'A':1.0,
  6. 'B':pd.Timestamp(2019,8,19),
  7. 'C':pd.Series(1,index=list(range(4)),dtype='float32'),
  8. 'D':np.array([3]*4,dtype='int32'),
  9. 'E':pd.Categorical(['test','train','test','train']),
  10. 'F':'foo'})
A B C D E F
0 1.0 2019-08-19 1.0 3 test foo
1 1.0 2019-08-19 1.0 3 train foo
2 1.0 2019-08-19 1.0 3 test foo
3 1.0 2019-08-19 1.0 3 train foo
  1. df_1.index # 返回行的序号
  2. Int64Index([0, 1, 2, 3], dtype='int64')
  1. df_1.columns # 返回列的序号名字
  2. Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')
  1. df_1.values # 把每个值进行打印出来
  2. [[1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'test' 'foo']
  3. [1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'train' 'foo']
  4. [1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'test' 'foo']
  5. [1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'train' 'foo']]
  1. df_1.T # 翻转数据
0 1 2 3
A 1 1 1 1
B 2019-08-19 00:00:00 2019-08-19 00:00:00 2019-08-19 00:00:00 2019-08-19 00:00:00
C 1 1 1 1
D 3 3 3 3
E test train test train
F foo foo foo foo