微信登录

pandas内容df.drop_duplicate()去重

+

在此添加单个AI新笔记

置顶帖 - 本帖收集增加的内容

📌置顶收集

置顶帖 - 本帖收集增加的内容

📌置顶收集

pandas教程 - 非常详细版

📚教程资源

pandas教程 - 详细版

📚教程资源

pandas Anaconda安装

🐍环境安装

pandas Jupyter-notebook

💻开发工具

Pandas - 概述、安装、下载

🐼基础入门

pandas数据结构列型Series()

📊数据结构

pandas数据结构表格型DataFrame()

📈表格结构

pandas打印优化设置

📠显示优化

pandas导入数据pd.DataFrame(data)读[]list

📥数据导入

pandas导入数据pd.read_csv()读CSV文件

📁文件读取

pandas导入数据pd.read_table(fname)读定分隔符文本

📄文本解析

pandas导入数据pd.read_excel(filename)读Excel文件

📊表格读取

pandas导入数据pd.read_sql(query, conobject)读sql

🗃️数据库取

pandas导入数据pd.read_json(jsonstr)读json字符串

pandas导入数据pd.read_html(url)解析URL或HTML

🌐网页解析

pandas导入数据pd.read_clipboard()粘贴板获取内容

📋粘贴导入

pandas导入数据pd.read_xml()

pandas创建DataFrame

🆕创建表格

pandas创建空DataFrame、方法流通

📦空表创建

pandas重要概念inplace=True原df修改

🔄原地修改

pandas数据类型int64、float64、bool、datetime64

🔢数据类型

pandas数据类型pd.Timestamp()时间

⏰时间类型

pandas数据类型pd.Timedelta()时长

⏱️时长计算

pandas数据类型print(df.dtypes)查看数据类型

🔍类型查看

pandas重要函数apply(fun)传入方法

⚙️函数应用

pandas转换df["列"].apply()字段是list转多行

🍡列表展开

pandas转换df.explode("要拆的列")字段是list转多行

💥爆炸展开

pandas转换df["列"].apply()字段是dict转成多列

📕字典展开

pandas转换pd.melt()多列转多行

pandas转换pd.pivot()多行转多列

pandas转换多列合并

pandas判断if df.empty:Data Frame 是否为空

❓空值判断

pandas DataFrame信息df.shape[0] [0]行数、[1]列数

📐数量信息

pandas DataFrame信息list(data)全部列名

ℹ️列名获取

pandas DataFrame信息df.info()数据集的数据类型

ℹ️信息概览

pandas DataFrame信息df.describe()描述

📊统计描述

pandas列级df["新列名"] = 0新增列和基础值

pandas列级df[""] = df[""].xx数据截取、数据转换日期

🔄数据转换

pandas列级astype("float64")替换数据类型

🔄类型转换

pandas列级df.set_index("columns")列转索引

🔑索引设置

pandas列级df.reset_index()索引转列

↩️索引转列

pandas列级df.reset_index()索引重置

↩️索引重置

pandas列级df_new = df.rename()列改名

🏷️列重命名

pandas列级df.columns=["a","b"]重命名列名

🏷️列名重设

pandas列级df.drop()删除列

pandas行级df.append(s)增加行

pandas行级df.drop()删除行，清空

pandas内容sort_value()排序

🔢数值排序

pandas内容df.drop_duplicate()去重

🧹数据去重

pandas内容df.dropna()删除所有包含空值的行

🧹空值清理

pandas内容str.replace()替换

🔄字符替换

pandas内容df.where() NaN转换为None

🔄空值转换

pandas内容df.fillna()NaN转换

🧽空值填充

pandas内容python语法判空

❓空值判断

pandas选择数据random_rows = df.sample(3)随机3行

🎲随机抽样

pandas选择数据df[] python切片

🔪切片选择

pandas选择数据df.loc[:,:]行名,列名时间范围

📍标签选择

pandas选择数据df.nlargest()最大最小时间

🔝极值选择

pandas选择数据df.iloc[:,:]行index,列index

🔢位置选择

pandas选择数据df[] df[选择指定列]

pandas选择数据df[][] df[选择指定列][筛选条件]

✅条件列选

pandas选择数据df[df["A"] == "a"]] 列A等于a的数据

✅条件筛选

pandas获得数据值选择后.index[0]

🔍索引获取

pandas for循环较慢不建议用

🔄循环遍历

pandas分组df.groupby(by="A列")分组

👥数据分组

pandas运算df["A"].value_counts()按a列数量统计

🧮频数统计

pandas运算选择后.sum() 求和

🧮求和运算

pandas运算选择后.mean() 平均值

⚖️均值计算

pandas运算df["C"]=df["A"]-df["B"]

pandas运算df.agg()聚合运算

🚀超快运算

pandas修改数据选择数据 = 修改值

✏️数据修改

pandas合并数据df1.append(df2) df2加到df1的尾

📥数据追加

pandas合并数据pd.concat([df1,df2,df3])多表合并

🔗多表连接

pandas合并数据df3=df1.add(df2)加法运算合并

➕加法合并

pandas合并数据df.merge()多功能合并

🤝数据合并

pandas整理df = df[["A","B"]]重排列

pandas整理df.round({})小数点后2位

🔢小数处理

pandas导出数据df. to_dict() dict{}

pandas导出数据df. tolist() list[]

pandas导出数据df.to_csv()CSV文件

pandas导出数据df.to_excel(filename)Excel文件

pandas导出数据df.to_sql()mysql数据库

pandas导出数据df.to_json(filename)Json格式

pandas导出数据df.to_html()HTML

pandas导出数据df.to_xml() XML

pandas导出数据df. to_markdown() markdown

matplotlib - 配置显示图表

matplotlib - plt.subplot(,,) - 行，列，按列第几个

matplotlib - plt.plot(,,) - 显示图表

matplotlib - plt.xlabel(“”) - X/Y轴名字

matplotlib - plt.title(“”) - 标题

matplotlib - plt.legend() - label小图示

提升 - 数据分析方法

pandas 去重

drop_duplicates 去重简介

Pandas 的 drop_duplicates() 函数用于删除 DataFrame 中的重复行。默认情况下，这个函数会检查所有列，找出重复的行，并只保留第一次出现的行。这对于清洗数据和去除重复记录非常有用。

以下是 drop_duplicates() 函数的一些关键特点：

删除重复行:
默认情况下，删除所有重复的行，只保留第一次出现的行。

指定列:
可以指定特定的列来识别重复项。

就地删除:
通过设置 inplace=True，可以就地修改 DataFrame，不返回新的 DataFrame。

保持重复项:
通过设置 keep=False，可以保留所有重复项。

排序:
删除重复项后，行的顺序可能会改变。可以通过 sort_values() 进行排序。

处理空值:
drop_duplicates() 会将空值视为正常值来处理。

返回唯一指标:
可以返回一个 Series，标记每行是否是第一次出现。

import numpy as np
import pandas as pd
data.drop_duplicates(subset=['A', 'B'], keep='first', inplace=True)  # 改原表
data_du = data.drop_duplicates(subset=['A', 'B'], keep='first')  # 生成副本

subset对应的值是列名，表示只考虑这两列，将这两列对应值相同的行进行去重。
默认值为subset=None表示考虑所有列。
keep='first'表示保留第一次出现的重复行，是默认值。
keep='last'表示保留最后一次出现的重复行
keep=False  去除所有重复行
inplace=True表示直接在原来的DataFrame上删除重复项
默认值False表示生成一个副本。

drop_duplicates去重例子

df = pd.DataFrame(data=[{"A":"one", "B":1, "C":11}, {"A":"two", "B":2, "C":22}, {"A":"one", "B":1, "C":12}])

	A	B	C
0	one	1	11
1	two	2	22
2	one	1	12

data_du = df.drop_duplicates(subset=['A', 'B'], keep='first')

	A	B	C
0	one	1	11
1	two	2	22

去重drop_duplicates

差集

three = pd.concat([d1, d2, d3], axis=0, ignore_index=True)
other = three.drop_duplicates(subset=None, keep=False)  # 去重

书闪文章-书闪专业知识库