• 主页

  • 投资

  • IT

    🔥
  • 设计

  • 销售

  • 共95篇

    python3.X - 数据分析 - Pandas

关闭

返回栏目

关闭

返回python3.X - 数据分析 - Pandas栏目

8 - 数据结构 - 列型 - Series()

作者:

贺及楼

成为作者

更新日期:2024-10-18 14:27:50

Series()

pandas Series简介

Pandas 的 Series 是一种一维数组结构,可以存储任何数据类型(整数、字符串、浮点数、Python 对象等)。Series 是 Pandas 中的基本概念之一,是DataFrame的基础构建块。以下是 Series 的一些关键特点:

  1. 一维标签:

    • Series 拥有一个一维的标签数组,这些标签被称为索引(index)。
  2. 数据类型灵活:

    • 每个 Series 元素可以是不同的数据类型,这使得 Series 在存储混合数据类型时非常灵活。
  3. 自动对齐:

    • 由于索引的存在,Series 对象在进行算术运算或数据对齐操作时会自动对齐。
  4. 缺失数据处理:

    • Series 可以包含缺失数据,Pandas 使用 NaN(不是数字)来表示缺失值。
  5. 时间序列分析:

    • Series 特别适用于时间序列数据,可以轻松处理和分析时间序列。
  6. 快速访问:

    • 可以通过索引快速访问 Series 中的元素。
  7. 大小可变:

    • Series 的大小是固定的,但可以很容易地进行切片、添加或删除操作。
  8. 适用于向量化操作:

    • Pandas 的 Series 设计用于进行快速的向量化操作。
  9. 与 NumPy 的兼容性:

    • Series 可以基于 NumPy 数组创建,并且可以与 NumPy 进行无缝交互。
  10. 丰富的方法:

    • Series 提供了大量内置方法,用于执行各种操作,如统计分析、数据清洗等。

从字典创建 Series,字典的键成为索引

  1. import pandas as pd
  2. data_dict = {'a': 1, 'b': 2, 'c': 3}
  3. series_dict = pd.Series(data_dict)
  4. print(series_dict)

字典创建 Series

使用特定的索引创建 Series

  1. import pandas as pd
  2. index = ['x', 'y', 'z']
  3. series_with_index = pd.Series([1, 2, 3], index=index)
  4. print(series_with_index)

使用特定的索引创建 Series

用列表创建 Series 的例子

  1. import numpy as np
  2. import pandas as pd
  3. s=pd.Series([1,2,3,np.nan,5,6])
  4. print(s)
  5. ----------执行以上程序,返回的结果为----------
  6. 0 1.0
  7. 1 2.0
  8. 2 3.0
  9. 3 NaN
  10. 4 5.0
  11. 5 6.0
  12. dtype: float64

用列表创建 Series 的例子

访问 Series 中的数据

  1. ## 访问单个元素
  2. se=pd.Series([1,2,3,np.nan,5,6])
  3. value = se[0]
  4. print(value)

访问单个元素

可以看见访问series的单个元素1.0

访问Series多个元素

  1. se=pd.Series([1,2,3,np.nan,5,6])
  2. values = series[[0, 2]]
  3. print(values)

访问Series多个元素

访问Series多个元素1.0和3.0,也就是第0、2个(程序),第1、3个

使用索引标签访问Series

  1. import numpy as np
  2. import pandas as pd
  3. se=pd.Series({'a': 1, 'b': 2, 'c': 3})
  4. print(se)
  5. values = se['b']
  6. print(values)

使用索引标签访问Series

修改 Series 中的数据

修改Series单个元素

  1. se=pd.Series([1,2,3,np.nan,5,6])
  2. print(se)
  3. se[0] = 10
  4. print(se)

修改单个元素

修改Series多个元素

  1. se=pd.Series([1,2,3,np.nan,5,6])
  2. print(se)
  3. se[[0, 2]] = [10, 20]
  4. print(se)

修改多个元素

Series 描述统计信息

  1. import numpy as np
  2. import pandas as pd
  3. se=pd.Series([1,2,3,np.nan,5,6])
  4. print(se)
  5. description = se.describe()
  6. print(description)

series描述统计信息

可以看到describe有8个数值返回了包括最大值、最小值、非空数量、平均数、标准差(表示数据点相对于均值的平均偏离程度。标准差越大,表示数据分布越分散;标准差越小,表示数据分布越集中。)

填充缺失值

  1. import numpy as np
  2. import pandas as pd
  3. se=pd.Series([1,2,3,np.nan,5,6])
  4. print(se)
  5. filled_series = se.fillna(0)
  6. print(filled_series)

填充缺失值

可以看见成功填充了第4个nan为0,具体可以详细查看fillna()

应用apply函数

  1. import numpy as np
  2. import pandas as pd
  3. se=pd.Series([1,2,3,np.nan,5,6])
  4. print(se)
  5. transformed_series = se.apply(lambda x: x * 2)
  6. print(transformed_series)

应用apply函数

可以看见非空数值都开平方了

Series 是 Pandas 中进行数据分析和处理的一个非常基础且强大的工具,无论是单独使用还是在构建更复杂的数据结构如 DataFrame 时。