Pandas 的 describe() 函数是用于生成 DataFrame 或 Series 的描述性统计信息的有用工具。当你想要快速了解数据的分布特征时,describe() 可以提供一组基本的统计摘要,这些摘要对于数据探索和分析至关重要。
以下是 describe() 函数的关键特点:
集中趋势:
计算数据的 count(非空值数量)、mean(平均值)、std(标准差)、min(最小值)和 25%、50%、75% 分位数。
数据分布:
提供数据分布的快照,包括中位数和四分位数。
数值型数据:
主要用于数值型列,但也可以用于分类数据(如果指定了 include 参数)。
可自定义:
允许用户通过参数自定义要包括的统计量。
快速分析:
快速提供数据集的总体描述,帮助识别数据分布和异常值。
import numpy as np
import pandas as pd
df = pd.DataFrame(data=[{"A":"one", "B":1, "C":11}, {"A":"two", "B":2, "C":22}])
A | B | C | |
---|---|---|---|
0 | one | 1 | 11 |
1 | two | 2 | 22 |
print(df.describe()) # 输出数据集的描述
B | C | |
---|---|---|
count | 2.000000 | 2.000000 |
mean | 1.500000 | 16.500000 |
std | 0.707107 | 7.778175 |
min | 1.000000 | 11.000000 |
25% | 1.250000 | 13.750000 |
50% | 1.500000 | 16.500000 |
75% | 1.750000 | 19.250000 |
max | 2.000000 | 22.000000 |