置顶帖 - 本帖收集增加的内容
pandas教程 - 非常详细版
pandas教程 - 详细版
pandas Anaconda安装
pandas Jupyter-notebook
Pandas - 概述、安装、下载
pandas数据结构 列型Series()
pandas数据结构 表格型DataFrame()
pandas打印优化设置
pandas导入数据pd.DataFrame(data)读[]list
pandas导入数据pd.read_csv()读CSV文件
pandas导入数据pd.read_table(fname)读定分隔符文本
pandas导入数据pd.read_excel(filename)读Excel文件
pandas导入数据pd.read_sql(query, conobject)读sql
pandas导入数据pd.read_json(jsonstr)读json字符串
pandas导入数据pd.read_html(url)解析URL或HTML
pandas导入数据pd.read_clipboard()粘贴板获取内容
pandas导入数据pd.read_xml()
pandas创建DataFrame
pandas创建空DataFrame、方法流通
pandas重要概念inplace=True原df修改
pandas数据类型int64、float64、bool、datetime64
pandas数据类型pd.Timestamp()时间
pandas数据类型pd.Timedelta()时长
pandas数据类型print(df.dtypes)查看数据类型
pandas重要函数apply(fun)传入方法
pandas转换df["列"].apply()字段是list转多行
pandas转换df.explode("要拆的列")字段是list转多行
pandas转换df["列"].apply()字段是dict转成多列
pandas转换pd.melt()多列转多行
pandas转换pd.pivot()多行转多列
pandas转换多列合并
pandas判断if df.empty:Data Frame 是否为空
pandas DataFrame信息df.shape[0] [0]行数、[1]列数
pandas DataFrame信息list(data)全部列名
pandas DataFrame信息df.info()数据集的数据类型
pandas DataFrame信息df.describe()描述
pandas列级df["新列名"] = 0新增列和基础值
pandas列级df[""] = df[""].xx数据截取、数据转换日期
pandas列级astype("float64")替换数据类型
pandas列级df.set_index("columns")列转索引
pandas列级df.reset_index()索引转列
pandas列级df.reset_index()索引重置
pandas列级df_new = df.rename()列改名
pandas列级df.columns=["a","b"]重命名列名
pandas列级df.drop()删除列
pandas行级df.append(s)增加行
pandas行级df.drop()删除行,清空
pandas内容sort_value()排序
pandas内容df.drop_duplicate()去重
pandas内容df.dropna()删除所有包含空值的行
pandas内容str.replace()替换
pandas内容df.where() NaN转换为None
pandas内容df.fillna()NaN转换
pandas内容python语法判空
pandas选择数据random_rows = df.sample(3)随机3行
pandas选择数据df[] python切片
pandas选择数据df.loc[:,:]行名,列名时间范围
pandas选择数据df.nlargest()最大最小时间
pandas选择数据df.iloc[:,:]行index,列index
pandas选择数据df[] df[选择指定列]
pandas选择数据df[][] df[选择指定列][筛选条件]
pandas选择数据df[df["A"] == "a"]] 列A等于a的数据
pandas获得数据值 选择后.index[0]
pandas for循环 较慢不建议用
pandas分组df.groupby(by="A列")分组
pandas运算df["A"].value_counts()按a列数量统计
pandas运算 选择后.sum() 求和
pandas运算 选择后.mean() 平均值
pandas运算df["C"]=df["A"]-df["B"]
pandas运算df.agg()聚合运算
pandas修改数据 选择数据 = 修改值
pandas合并数据df1.append(df2) df2加到df1的尾
pandas合并数据pd.concat([df1,df2,df3])多表合并
pandas合并数据df3=df1.add(df2)加法运算合并
pandas合并数据df.merge()多功能合并
pandas整理df = df[["A","B"]]重排列
pandas整理df.round({})小数点后2位
pandas导出数据df. to_dict() dict{}
pandas导出数据df. tolist() list[]
pandas导出数据df.to_csv()CSV文件
pandas导出数据df.to_excel(filename)Excel文件
pandas导出数据df.to_sql()mysql数据库
pandas导出数据df.to_json(filename)Json格式
pandas导出数据df.to_html()HTML
pandas导出数据df.to_xml() XML
pandas导出数据df. to_markdown() markdown
matplotlib - 配置显示图表
matplotlib - plt.subplot(,,) - 行,列,按列第几个
matplotlib - plt.plot(,,) - 显示图表
matplotlib - plt.xlabel(“”) - X/Y轴名字
matplotlib - plt.title(“”) - 标题
matplotlib - plt.legend() - label小图示
提升 - 数据分析方法
import numpy as npimport pandas as pddf2 = df2.reset_index(drop=True) # drop=True表示删除原索引,不然会在数据表格中新生成一列'index'数据# 输出df2: a b c d0 16 17 18 191 12 13 14 152 8 9 10 113 4 5 6 74 0 1 2 3
import numpy as np
import pandas as pd
df2 = df2.reset_index(drop=True) # drop=True表示删除原索引,不然会在数据表格中新生成一列'index'数据
# 输出df2:
a b c d
0 16 17 18 19
1 12 13 14 15
2 8 9 10 11
3 4 5 6 7
4 0 1 2 3
索引重置一般用在内容 - df.dropna() - 删除所有包含空值的行