微信登录

书闪笔记

书闪文章

Python教程

python - Pandas教程

python - Pandas教程

pandas数据结构表格型DataFrame()

置顶帖 - 本帖收集增加的内容

📚 基础知识必备

🔥 入门必学

⭐ 新手友好

置顶帖 - 本帖收集增加的内容

📝 练习实践

🚀 高效方法

🌟 核心技巧

pandas教程 - 非常详细版

🐼 详细讲解

🔍 深入分析

🎯 重点突破

pandas教程 - 详细版

📖 教程指南

💡 实用示例

✨ 图文并茂

pandas Anaconda安装

🛠️ 安装部署

📦 Anaconda

💻 环境配置

pandas Jupyter-notebook

🛠️ 工具使用

📓 Jupyter

💻 交互环境

Pandas - 概述、安装、下载

🐼 入门概述

📥 安装下载

🔧 基础配置

pandas数据结构列型Series()

📊 数据结构

📋 Series列

🐼 核心类型

pandas数据结构表格型DataFrame()

📊 数据结构

📋 DataFrame

🔢 表格操作

pandas打印优化设置

⚙️ 配置设置

📋 打印优化

📊 显示设置

pandas导入数据pd.DataFrame(data)读[]list

📥 数据导入

📋 列表构建

🐼 DataFrame

pandas导入数据pd.read_csv()读CSV文件

📥 数据导入

📋 CSV读取

💽 文件操作

pandas导入数据pd.read_table(fname)读定分隔符文本

📥 数据导入

📋 文本文件

🔤 分隔符

pandas导入数据pd.read_excel(filename)读Excel文件

📥 数据导入

📋 Excel文件

📑 read_excel

pandas导入数据pd.read_sql(query, conobject)读sql

📥 数据导入

🗃️ SQL读取

💾 数据库操作

pandas导入数据pd.read_json(jsonstr)读json字符串

📥 数据导入

📋 JSON解析

🔤 字符串解析

pandas导入数据pd.read_html(url)解析URL或HTML

📥 数据导入

🌐 网页解析

📋 HTML表格

pandas导入数据pd.read_clipboard()粘贴板获取内容

📥 数据导入

📋 粘贴板

📋 快捷导入

pandas导入数据pd.read_xml()

📊 导入数据

🔄 函数详解

⚙️ 参数讲解

pandas创建DataFrame

🆕 创建数据

📋 基础操作

🖋️ 方法实践

pandas创建空DataFrame、方法流通

📁 空DataFrame

🔄 流程处理

🔧 构建技巧

pandas重要概念inplace=True原df修改

⚙️ 参数作用

🔄 数据修改

📍 关键概念

pandas数据类型int64、float64、bool、datetime64

🔢 数据类型

💾 内存优化

📐 精度控制

pandas数据类型pd.Timestamp()时间

📅 时间类型

⏱️ Timestamp

🐼 时间处理

pandas数据类型pd.Timedelta()时长

⏳ 时间运算

⏱️ Timedelta

🔢 时长计算

pandas数据类型print(df.dtypes)查看数据类型

🔍 数据查看

📋 数据类型

🔤 dtypes

pandas重要函数apply(fun)传入方法

📈 apply应用

🛠️ 函数调用

🧮 高效计算

pandas转换df["列"].apply()字段是list转多行

📊 列表转多行

🐍 Python技巧

🔧 函数应用

pandas转换df.explode("要拆的列")字段是list转多行

🔄 数据转换

📦 列表拆分

📊 explode操作

pandas转换df["列"].apply()字段是dict转成多列

🔄 数据转换

📋 字段扩展

📝 apply函数

pandas转换pd.melt()多列转多行

📈 多列转多行

🐼 重塑数据

🔁 数据转换

pandas转换pd.pivot()多行转多列

📊 多行转多列

🌀 数据透视

🔍 数据分析

pandas转换多列合并

🔗 多列合并

🔄 数据整合

📝 列操作

pandas判断if df.empty:Data Frame 是否为空

✅ 条件判断

📭 空值检查

🐼 empty属性

pandas DataFrame信息df.shape[0] [0]行数、[1]列数

📏 行数列数

🔎 数据维度

🧮 基础信息

pandas DataFrame信息list(data)全部列名

📝 全部列名

🔡 列名列表

🐍 Python操作

pandas DataFrame信息df.info()数据集的数据类型

🔍 数据类型

📑 数据信息

🧩 数据概览

pandas DataFrame信息df.describe()描述

📊 数据描述

📏 统计摘要

🧮 基础统计

pandas列级df["新列名"] = 0新增列和基础值

✏️ 列操作

🆕 新增列

🔢 默认值

pandas列级df[""] = df[""].xx数据截取、数据转换日期

🔄 数据转换

📅 日期处理

✂️ 字符串截取

pandas列级astype("float64")替换数据类型

🔄 数据转换

🔢 类型转换

✨ astype

pandas列级df.set_index("columns")列转索引

🔑 列转索引

📌 设置索引

🔧 索引操作

pandas列级df.reset_index()索引转列

✏️ 索引操作

🔄 索引转列

📋 reset_index

pandas列级df.reset_index()索引重置

✏️ 索引操作

🔄 重置索引

🔢 序列重组

pandas列级df_new = df.rename()列改名

✏️ 列操作

📛 重命名

🔄 列更新

pandas列级df.columns=["a","b"]重命名列名

✏️ 列操作

📛 列重命名

🔄 批量更新

pandas列级df.drop()删除列

❌ 删除列

🧹 数据清理

🔧 列管理

pandas行级df.append(s)增加行

🐼行操作教程

📚初学者必备

🐍Python技巧

pandas行级df.drop()删除行，清空

🔍数据清理

🚮删除指南

✅基础操作

pandas内容sort_value()排序

📊排序方法

📈数据整理

🔢数值处理

pandas内容df.drop_duplicate()去重

✨去重技巧

🧹数据清洗

🔄重复处理

pandas内容df.dropna()删除所有包含空值的行

🧹 数据清洗

❌ 空值处理

🗑️ dropna

pandas内容str.replace()替换

🧹 数据清洗

🔄 字符串替换

🔤 replace

pandas内容df.where() NaN转换为None

⚙️NaN处理

🔧数据转换

💡技巧分享

pandas内容df.fillna()NaN转换

🔄填充方法

💎数据处理

🧪NaN实验

pandas内容python语法判空

🐍基础语法

✅判空指南

📖学习要点

pandas选择数据random_rows = df.sample(3)随机3行

🎲随机抽样

📊数据探索

🃏采样技巧

pandas选择数据df[] python切片

🔪切片技术

📑选择数据

🧩基础操作

pandas选择数据df.loc[:,:]行名,列名时间范围

🔍 数据选择

📍 loc方法

🔤 标签索引

pandas选择数据df.nlargest()最大最小时间

📈极值查找

🔝最大最小

⏱️时间处理

pandas选择数据df.iloc[:,:]行index,列index

🔍 数据选择

📍 iloc方法

🔢 位置索引

pandas选择数据df[] df[选择指定列]

🔍 数据选择

📋 单列获取

✅ 基础筛选

pandas选择数据df[][] df[选择指定列][筛选条件]

🔍 数据选择

📋 多列筛选

➕ 组合条件

pandas选择数据df[df["A"] == "a"]] 列A等于a的数据

🔍 数据选择

✅ 条件筛选

🔢 布尔索引

pandas获得数据值选择后.index[0]

🔍 数据查看

📍 索引获取

🔤 index属性

pandas for循环较慢不建议用

🔄 循环操作

🐌 效率警告

🐼 遍历方法

pandas分组df.groupby(by="A列")分组

🐼 分组技巧

📊 数据分析

💡 入门必学

pandas运算df["A"].value_counts()按a列数量统计

🔢 统计计数

🐍 基础操作

🚀 高效技巧

pandas运算选择后.sum() 求和

➕ 数值求和

📈 数据聚合

🐼 常用函数

pandas运算选择后.mean() 平均值

⌀ 平均值计算

📊 统计分析

🐍 基础入门

pandas运算df["C"]=df["A"]-df["B"]

➖ 列间运算

🔄 数据转换

🐼 实用技巧

pandas运算df.agg()聚合运算

📊 聚合运算

🚀 高级功能

💡 方法大全

pandas修改数据选择数据 = 修改值

✏️ 数据修改

📍 赋值更新

🔄 值替换

pandas合并数据df1.append(df2) df2加到df1的尾

🔀 数据合并

📋 追加行

➕ append操作

pandas合并数据pd.concat([df1,df2,df3])多表合并

🔀 数据合并

📊 多表拼接

➕ concat操作

pandas合并数据df3=df1.add(df2)加法运算合并

🔀 数据合并

➕ 加法运算

🔢 数值合并

pandas合并数据df.merge()多功能合并

🤝 数据合并

🔗 连接表格

🐼 核心操作

pandas整理df = df[["A","B"]]重排列

🔄 列重排

📋 数据整理

🐍 选择技巧

pandas整理df.round({})小数点后2位

🔢 小数精度

📐 四舍五入

📊 数据美化

pandas导出数据df. to_dict() dict{}

📤 数据导出

🔄 格式转换

💾 存储技巧

pandas导出数据df. tolist() list[]

📝 列表转换

🐼 简单示例

🔧 基础导出

pandas导出数据df.to_csv()CSV文件

📤 数据导出

📋 CSV文件

💾 存储操作

pandas导出数据df.to_excel(filename)Excel文件

📤 数据导出

📋 Excel文件

📑 电子表格

pandas导出数据df.to_sql()mysql数据库

📤 数据导出

💾 SQL存储

🗃️ 数据库

pandas导出数据df.to_json(filename)Json格式

📤 数据导出

📋 JSON格式

🔤 字符串输出

pandas导出数据df.to_html()HTML

🌐 HTML格式

🐼 网页友好

✨ 美化输出

pandas导出数据df.to_xml() XML

📦 XML导出

🌐 数据交换

🐼 通用格式

pandas导出数据df. to_markdown() markdown

📄 Markdown

📝 文档编写

🐼 简化展示

matplotlib - 配置显示图表

📈 Matplotlib

⚙️ 图表配置

🎨 样式设置

matplotlib - plt.subplot(,,) - 行，列，按列第几个

📈 Matplotlib

🖼️ 子图

📊 多图布局

matplotlib - plt.plot(,,) - 显示图表

📈 Matplotlib

📊 折线图

🖍️ plot绘图

matplotlib - plt.xlabel(“”) - X/Y轴名字

📈 Matplotlib

📍 坐标轴

📝 标签设置

matplotlib - plt.title(“”) - 标题

📈 Matplotlib

🏷️ 标题

📝 文本标注

matplotlib - plt.legend() - label小图示

📈 Matplotlib

📊 图例

🔤 标签说明

提升 - 数据分析方法

📈 提升技巧

🧠 分析方法

🚀 效率优化

pandas数据结构表格型DataFrame()

表格型-DataFrame()

DataFrame是表格型数据结构，包含一组有序的列，每列可以是不同的值类型。
DataFrame有行索引和列索引，可以看成由Series组成的字典。

Pandas 的 DataFrame 是一个二维标签化数据结构，可以将其想象为一个 Excel 电子表格或 SQL 数据库中的表，其中有行和列。DataFrame 是 Pandas 中用于存储和操作结构化数据的主要工具。

import numpy as np
import pandas as pd
from datetime import datetime as dt
# 通过字典创建DataFrame
df_1=pd.DataFrame({'A':1.0,
'B':pd.Timestamp(2019,8,19),
'C':pd.Series(1,index=list(range(4)),dtype='float32'),
'D':np.array([3]*4,dtype='int32'),
'E':pd.Categorical(['test','train','test','train']),
'F':'foo'})

	A	B	C	D	E	F
0	1.0	2019-08-19	1.0	3	test	foo
1	1.0	2019-08-19	1.0	3	train	foo
2	1.0	2019-08-19	1.0	3	test	foo
3	1.0	2019-08-19	1.0	3	train	foo

df_1.index  # 返回行的序号
Int64Index([0, 1, 2, 3], dtype='int64')

df_1.columns  # 返回列的序号名字
Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')

df_1.values  # 把每个值进行打印出来
[[1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'test' 'foo']
 [1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'train' 'foo']
 [1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'test' 'foo']
 [1.0 Timestamp('2019-08-19 00:00:00') 1.0 3 'train' 'foo']]

df_1.T  # 翻转数据

	0	1	2	3
A	1	1	1	1
B	2019-08-19 00:00:00	2019-08-19 00:00:00	2019-08-19 00:00:00	2019-08-19 00:00:00
C	1	1	1	1
D	3	3	3	3
E	test	train	test	train
F	foo	foo	foo	foo

粤ICP备19057273号-3