• 主页

  • 投资

  • IT

    🔥
  • 设计

  • 销售

  • 共95篇

    python3.X - 数据分析 - Pandas

关闭

返回栏目

关闭

返回python3.X - 数据分析 - Pandas栏目

3 - pandas教程 - 非常详细版

作者:

贺及楼

成为作者

更新日期:2024-12-02 11:13:05

pandas教程

本文是本栏目《python3.X - 数据分析 - Pandas》的介绍,Pandas 是一个开源的数据分析和操作库,用于 Python 编程语言。它提供了高性能、易用的数据结构和数据分析工具。以下是 Pandas 的一些关键特点:

数据结构:

主要包括两种数据结构:数据结构 - 列型 - Series()(一维数组)和 数据结构 - 表格型 - DataFrame()(二维表格型数据结构,类似于 Excel 表格)。

  1. ----------执行以上程序,返回的结果为----------
  2. 0 1.0
  3. 1 2.0
  4. 2 3.0
  5. 3 NaN
  6. 4 5.0
  7. 5 6.0
  8. dtype: float64

series

A B C D E F
0 1.0 2019-08-19 1.0 3 test foo
1 1.0 2019-08-19 1.0 3 train foo
2 1.0 2019-08-19 1.0 3 test foo
3 1.0 2019-08-19 1.0 3 train foo

DataFrame

易于使用:

Pandas 提供了直观且易于理解的 API,使得数据清洗和处理工作变得更加简单。左侧按钮点击即可打开全部pandas的API。

数据操作:

支持各种操作,包括选择数据 - df[][] - df[选择指定列][筛选条件]分组 - df.groupby(by=”A列”) - 分组 - 分组”)、运算 - df.agg() - 聚合运算以及转换等。

  1. data = df[roles][
  2. (df['R0'] == "目标字符" )
  3. & (df['R0'] != "不要的目标字符" )
  4. & (df['R1'] < 20)
  5. & (df['R2'] > 20)
  6. & (df['R3'] < 1000)
  7. & (df['R4'] > 4000)
  8. & (df['R5'].isnull()) # 空的
  9. & (df["R6"].isin (["2","1"])) # 在列表
  10. & (~ df["R7"].isin (["2","1"])) # 不在列表
  11. &(df["R8"].str.contains("包含")) # 包含
  12. ]

数据过滤

聚合运算

处理缺失数据:

提供了处理缺失数据的多种方法,例如填充、删除等。

A B
0 bike bike
1 car NaN
2 bus NaN
  1. df = df.fillna(0)
A B
0 bike bike
1 car 0
2 bus 0

处理缺失

时间序列分析:

强大的时间序列功能,包括时间戳的解析、频率转换、移动窗口统计等。

pandas时间

pandas时长

数据合并与连接:

可以轻松地合并、连接和采样不同的数据集。

  1. df3 = pd.merge(df2, df1, how="left", on="color")

合并数据merge

数据读写:

支持多种文件格式的读写,包括 导入数据 - pd.read_csv() - 读CSV文件导入数据 - pd.read_excel(filename) - 读Excel文件导入数据 - pd.read_json(jsonstr) - 读json字符串导入数据 - pd.read_html(url) - 解析URL或HTML导入数据 - pd.read_sql(query, conobject) - 读sql 数据库等。

  1. pd.read_csv('data.csv')
  2. pd.read_excel('data.xlsx')
  3. pd.read_json('data.json')
  4. pd.read_html('data.html')

灵活的分组:

通过 groupby() 函数,可以对数据进行分组并应用不同的统计方法。

  1. groupbying = df.groupby(by="名字")

分组

数据透视表:

类似于 Excel 中的数据透视表,Pandas 可以快速创建汇总统计。

dataframe信息描述

扩展性:

可以与 Python 生态中的其他数据科学库(如 Matplotlib、SciPy、Scikit-learn)无缝集成。

Pandas 是数据科学、数据分析、机器学习等领域中不可或缺的工具之一。通过简洁的语法和强大的功能,Pandas 使得数据分析工作更加高效和直观。