hand
10
_1_21_96
4
python3.X - 数据分析 - Pandas
共95篇
python3.X - 数据分析 - Pandas
返回栏目
1k
0k
5k
0k
0.1k
0k
2k
3k
1k
1k
0.2k
3k
0k
4k
3k
3k
3k
3k
0.5k
5k
1k
0.3k
3k
4k
7k
2k
7k
0.8k
0.9k
1k
1k
2k
0.4k
0.6k
0.6k
0.5k
0.9k
0.9k
1k
0.9k
1k
0.8k
1k
0.4k
0.4k
0.3k
0.6k
1k
0.9k
1k
1k
1k
0.8k
1k
0.8k
1k
0.7k
0.6k
4k
0.4k
3k
0.7k
0.8k
0.8k
0.2k
2k
1k
0.7k
0.7k
0.4k
0.5k
3k
0.1k
0.7k
0.9k
0.3k
1k
0.4k
0.4k
1k
0.5k
0.1k
0.7k
1k
0k
0.2k
0.7k
0.3k
0k
0k
0.1k
0k
0k
0k
3k
返回python3.X - 数据分析 - Pandas栏目
作者:
贺及楼
成为作者
更新日期:2024-12-02 11:13:05
本文是本栏目《python3.X - 数据分析 - Pandas》的介绍,Pandas 是一个开源的数据分析和操作库,用于 Python 编程语言。它提供了高性能、易用的数据结构和数据分析工具。以下是 Pandas 的一些关键特点:
主要包括两种数据结构:数据结构 - 列型 - Series()(一维数组)和 数据结构 - 表格型 - DataFrame()(二维表格型数据结构,类似于 Excel 表格)。
----------执行以上程序,返回的结果为----------
0 1.0
1 2.0
2 3.0
3 NaN
4 5.0
5 6.0
dtype: float64
A | B | C | D | E | F | |
---|---|---|---|---|---|---|
0 | 1.0 | 2019-08-19 | 1.0 | 3 | test | foo |
1 | 1.0 | 2019-08-19 | 1.0 | 3 | train | foo |
2 | 1.0 | 2019-08-19 | 1.0 | 3 | test | foo |
3 | 1.0 | 2019-08-19 | 1.0 | 3 | train | foo |
Pandas 提供了直观且易于理解的 API,使得数据清洗和处理工作变得更加简单。左侧按钮点击即可打开全部pandas的API。
支持各种操作,包括选择数据 - df[][] - df[选择指定列][筛选条件]、分组 - df.groupby(by=”A列”) - 分组 - 分组”)、运算 - df.agg() - 聚合运算以及转换等。
data = df[roles][
(df['R0'] == "目标字符" )
& (df['R0'] != "不要的目标字符" )
& (df['R1'] < 20)
& (df['R2'] > 20)
& (df['R3'] < 1000)
& (df['R4'] > 4000)
& (df['R5'].isnull()) # 空的
& (df["R6"].isin (["2","1"])) # 在列表
& (~ df["R7"].isin (["2","1"])) # 不在列表
&(df["R8"].str.contains("包含")) # 包含
]
提供了处理缺失数据的多种方法,例如填充、删除等。
A | B | |
---|---|---|
0 | bike | bike |
1 | car | NaN |
2 | bus | NaN |
df = df.fillna(0)
A | B | |
---|---|---|
0 | bike | bike |
1 | car | 0 |
2 | bus | 0 |
强大的时间序列功能,包括时间戳的解析、频率转换、移动窗口统计等。
可以轻松地合并、连接和采样不同的数据集。
df3 = pd.merge(df2, df1, how="left", on="color")
支持多种文件格式的读写,包括 导入数据 - pd.read_csv() - 读CSV文件、导入数据 - pd.read_excel(filename) - 读Excel文件、导入数据 - pd.read_json(jsonstr) - 读json字符串、导入数据 - pd.read_html(url) - 解析URL或HTML 和 导入数据 - pd.read_sql(query, conobject) - 读sql 数据库等。
pd.read_csv('data.csv')
pd.read_excel('data.xlsx')
pd.read_json('data.json')
pd.read_html('data.html')
通过 groupby()
函数,可以对数据进行分组并应用不同的统计方法。
groupbying = df.groupby(by="名字")
类似于 Excel 中的数据透视表,Pandas 可以快速创建汇总统计。
可以与 Python 生态中的其他数据科学库(如 Matplotlib、SciPy、Scikit-learn)无缝集成。
Pandas 是数据科学、数据分析、机器学习等领域中不可或缺的工具之一。通过简洁的语法和强大的功能,Pandas 使得数据分析工作更加高效和直观。
python3.X - 数据分析 - Pandas
整章节共95节
快分享给你的小伙伴吧 ~