Pandas 的 Series
是一种一维数组结构,可以存储任何数据类型(整数、字符串、浮点数、Python 对象等)。Series
是 Pandas 中的基本概念之一,是DataFrame的基础构建块。以下是 Series
的一些关键特点:
一维标签:
Series
拥有一个一维的标签数组,这些标签被称为索引(index)。数据类型灵活:
Series
元素可以是不同的数据类型,这使得 Series
在存储混合数据类型时非常灵活。自动对齐:
Series
对象在进行算术运算或数据对齐操作时会自动对齐。缺失数据处理:
Series
可以包含缺失数据,Pandas 使用 NaN
(不是数字)来表示缺失值。时间序列分析:
Series
特别适用于时间序列数据,可以轻松处理和分析时间序列。快速访问:
Series
中的元素。大小可变:
Series
的大小是固定的,但可以很容易地进行切片、添加或删除操作。适用于向量化操作:
Series
设计用于进行快速的向量化操作。与 NumPy 的兼容性:
Series
可以基于 NumPy 数组创建,并且可以与 NumPy 进行无缝交互。丰富的方法:
Series
提供了大量内置方法,用于执行各种操作,如统计分析、数据清洗等。
import pandas as pd
data_dict = {'a': 1, 'b': 2, 'c': 3}
series_dict = pd.Series(data_dict)
print(series_dict)
import pandas as pd
index = ['x', 'y', 'z']
series_with_index = pd.Series([1, 2, 3], index=index)
print(series_with_index)
import numpy as np
import pandas as pd
s=pd.Series([1,2,3,np.nan,5,6])
print(s)
----------执行以上程序,返回的结果为----------
0 1.0
1 2.0
2 3.0
3 NaN
4 5.0
5 6.0
dtype: float64
## 访问单个元素
se=pd.Series([1,2,3,np.nan,5,6])
value = se[0]
print(value)
可以看见访问series的单个元素1.0
se=pd.Series([1,2,3,np.nan,5,6])
values = series[[0, 2]]
print(values)
访问Series多个元素1.0和3.0,也就是第0、2个(程序),第1、3个
import numpy as np
import pandas as pd
se=pd.Series({'a': 1, 'b': 2, 'c': 3})
print(se)
values = se['b']
print(values)
se=pd.Series([1,2,3,np.nan,5,6])
print(se)
se[0] = 10
print(se)
se=pd.Series([1,2,3,np.nan,5,6])
print(se)
se[[0, 2]] = [10, 20]
print(se)
import numpy as np
import pandas as pd
se=pd.Series([1,2,3,np.nan,5,6])
print(se)
description = se.describe()
print(description)
可以看到describe有8个数值返回了包括最大值、最小值、非空数量、平均数、标准差(表示数据点相对于均值的平均偏离程度。标准差越大,表示数据分布越分散;标准差越小,表示数据分布越集中。)
import numpy as np
import pandas as pd
se=pd.Series([1,2,3,np.nan,5,6])
print(se)
filled_series = se.fillna(0)
print(filled_series)
可以看见成功填充了第4个nan为0,具体可以详细查看fillna()
import numpy as np
import pandas as pd
se=pd.Series([1,2,3,np.nan,5,6])
print(se)
transformed_series = se.apply(lambda x: x * 2)
print(transformed_series)
可以看见非空数值都开平方了
Series
是 Pandas 中进行数据分析和处理的一个非常基础且强大的工具,无论是单独使用还是在构建更复杂的数据结构如 DataFrame 时。