本文是本栏目《python3.X - 数据分析 - Pandas》的介绍,Pandas 是一个开源的数据分析和操作库,用于 Python 编程语言。它提供了高性能、易用的数据结构和数据分析工具。以下是 Pandas 的一些关键特点:
主要包括两种数据结构:数据结构 - 列型 - Series()(一维数组)和 数据结构 - 表格型 - DataFrame()(二维表格型数据结构,类似于 Excel 表格)。
----------执行以上程序,返回的结果为----------
0 1.0
1 2.0
2 3.0
3 NaN
4 5.0
5 6.0
dtype: float64
A | B | C | D | E | F | |
---|---|---|---|---|---|---|
0 | 1.0 | 2019-08-19 | 1.0 | 3 | test | foo |
1 | 1.0 | 2019-08-19 | 1.0 | 3 | train | foo |
2 | 1.0 | 2019-08-19 | 1.0 | 3 | test | foo |
3 | 1.0 | 2019-08-19 | 1.0 | 3 | train | foo |
Pandas 提供了直观且易于理解的 API,使得数据清洗和处理工作变得更加简单。左侧按钮点击即可打开全部pandas的API。
支持各种操作,包括选择数据 - df[][] - df[选择指定列][筛选条件]、分组 - df.groupby(by=”A列”) - 分组 - 分组”)、运算 - df.agg() - 聚合运算以及转换等。
data = df[roles][
(df['R0'] == "目标字符" )
& (df['R0'] != "不要的目标字符" )
& (df['R1'] < 20)
& (df['R2'] > 20)
& (df['R3'] < 1000)
& (df['R4'] > 4000)
& (df['R5'].isnull()) # 空的
& (df["R6"].isin (["2","1"])) # 在列表
& (~ df["R7"].isin (["2","1"])) # 不在列表
&(df["R8"].str.contains("包含")) # 包含
]
提供了处理缺失数据的多种方法,例如填充、删除等。
A | B | |
---|---|---|
0 | bike | bike |
1 | car | NaN |
2 | bus | NaN |
df = df.fillna(0)
A | B | |
---|---|---|
0 | bike | bike |
1 | car | 0 |
2 | bus | 0 |
强大的时间序列功能,包括时间戳的解析、频率转换、移动窗口统计等。
可以轻松地合并、连接和采样不同的数据集。
df3 = pd.merge(df2, df1, how="left", on="color")
支持多种文件格式的读写,包括 导入数据 - pd.read_csv() - 读CSV文件、导入数据 - pd.read_excel(filename) - 读Excel文件、导入数据 - pd.read_json(jsonstr) - 读json字符串、导入数据 - pd.read_html(url) - 解析URL或HTML 和 导入数据 - pd.read_sql(query, conobject) - 读sql 数据库等。
pd.read_csv('data.csv')
pd.read_excel('data.xlsx')
pd.read_json('data.json')
pd.read_html('data.html')
通过 groupby()
函数,可以对数据进行分组并应用不同的统计方法。
groupbying = df.groupby(by="名字")
类似于 Excel 中的数据透视表,Pandas 可以快速创建汇总统计。
可以与 Python 生态中的其他数据科学库(如 Matplotlib、SciPy、Scikit-learn)无缝集成。
Pandas 是数据科学、数据分析、机器学习等领域中不可或缺的工具之一。通过简洁的语法和强大的功能,Pandas 使得数据分析工作更加高效和直观。