• 主页

  • 投资

  • IT

    🔥
  • 设计

  • 销售

  • 共95篇

    python3.X - 数据分析 - Pandas

关闭

返回栏目

关闭

返回python3.X - 数据分析 - Pandas栏目

27 - 重要函数 - apply(fun) - 传入方法

作者:

贺及楼

成为作者

更新日期:2024-10-18 14:29:45

apply()

介绍apply方法

简单介绍:可以替代python的for循环
详细介绍:Pandas 中的 apply 函数是一个非常强大的工具,它允许你对 DataFrame 的每一行或每一列应用一个函数,并返回一个 Series 或 DataFrame 作为结果。apply 可以用于复杂的数据转换和分析任务,特别是当你需要对数据集中的每个元素执行自定义操作时。

  1. DataFrame.apply(self, func, axis=0, raw=False, result_type=None, args=(), **kwargs)
返回数据 原数据 apply方法 func/lambda axis raw result_type func 的位置参数 func 的其他关键字参数
自定义方法名/lambda 作用在行/列 每行、整个传入函数 result_type args **kwargs
df = df .apply( myfun, axis=0,每一列 raw=False, result_type=None, args=(), **kwargs )
df['A列'] axis=1,每一行 False:把每一行或列作为 Series 传入函数中 None )
raw=True, result_type=expand, )
True:接受的是 ndarray 数据类型; expand:列表式[1,2]的结果将被转化为列(2列) )
result_type=reduce, )
reduce:如果可能的话,返回一个 Series,而不是展开类似列表的结果。这与 expand 相反。 )
result_type=broadcast, )
broadcast:结果将被广播到 DataFrame 的原始形状,原始索引和列将被保留。 )

DataFrame使用apply,开根号

  1. import pandas as pd
  2. import numpy as np
  3. df = pd.DataFrame([[4, 9]] * 3, columns=['A', 'B'])
  4. df
A B
0 4 9
1 4 9
2 4 9

创建一个df

  1. # 使用numpy通用函数 (如 np.sqrt(df)),
  2. df.apply(np.sqrt)
A B
0 2.0 3.0
1 2.0 3.0
2 2.0 3.0

开根号

DataFrame使用apply, 使用聚合功能

  1. import pandas as pd
  2. import numpy as np
  3. df = pd.DataFrame([[4, 9]] * 3, columns=['A', 'B'])
  4. df = df.apply(np.sum, axis=0)
  5. print(df)
  6. '''
  7. A 12
  8. B 27
  9. dtype: int64
  10. '''

agg聚合功能

  1. import pandas as pd
  2. import numpy as np
  3. df = pd.DataFrame([[4, 9]] * 3, columns=['A', 'B'])
  4. df = df.apply(np.sum, axis=1)
  5. print(df)
  6. '''
  7. 0 13
  8. 1 13
  9. 2 13
  10. dtype: int64
  11. '''

agg聚合功能

在每行上返回类似列表的内容

  1. import pandas as pd
  2. import numpy as np
  3. df = pd.DataFrame([[4, 9]] * 3, columns=['A', 'B'])
  4. df = df.apply(lambda x: [1, 2], axis=1)
  5. print(df)
  6. '''
  7. 0 [1, 2]
  8. 1 [1, 2]
  9. 2 [1, 2]
  10. dtype: object
  11. '''

在每行上返回类似列表的内容

  1. # result_type='expand' 将类似列表的结果扩展到数据的列
  2. import pandas as pd
  3. import numpy as np
  4. df = pd.DataFrame([[4, 9]] * 3, columns=['A', 'B'])
  5. df = df.apply(lambda x: [1, 2], axis=1, result_type='expand')
  6. print(df)
0 1
0 1 2
1 1 2
2 1 2

将类似列表的结果扩展到数据的列

DataFrame使用apply, 在函数中返回一个序列,生成的列名将是序列索引

  1. import pandas as pd
  2. import numpy as np
  3. df = pd.DataFrame([[4, 9]] * 3, columns=['A', 'B'])
  4. print(df)
  5. df = df.apply(lambda x: pd.Series([1, 2], index=['foo', 'bar']), axis=1)
  6. print(df)
foo bar
0 1 2
1 1 2
2 1 2

apply生成的列名将是序列索引

  1. # result_type='broadcast' 将确保函数返回相同的形状结果
  2. # 无论是 list-like 还是 scalar,并沿轴进行广播
  3. # 生成的列名将是原始列名。
  4. import pandas as pd
  5. import numpy as np
  6. df = pd.DataFrame([[4, 9]] * 3, columns=['A', 'B'])
  7. print(df)
  8. df = df.apply(lambda x: [1, 2], axis=1, result_type='broadcast')
  9. print(df)
A B
0 1 2
1 1 2
2 1 2

apply broadcast

DataFrame使用apply,列求和、行求和

  1. import numpy as np
  2. import pandas as pd
  3. df = pd.DataFrame({'A': [1, 2, 3],
  4. 'B': [4, 5, 6],
  5. 'C': [7, 8, 9]},
  6. index=['a', 'b', 'c'])
  7. print(df)
  8. # 对各列应用函数 axis=0
  9. df = df.apply(lambda x: np.sum(x))
  10. print(df)
A B C
a 1 4 7
b 2 5 8
c 3 6 9

apply列求和

  1. # 对各行应用函数
  2. import numpy as np
  3. import pandas as pd
  4. df = pd.DataFrame({'A': [1, 2, 3],
  5. 'B': [4, 5, 6],
  6. 'C': [7, 8, 9]},
  7. index=['a', 'b', 'c'])
  8. print(df)
  9. df = df.apply(lambda x: np.sum(x), axis=1)
  10. print(df)
  11. a 12
  12. b 15
  13. c 18
  14. dtype: int64

apply行求和

DataFrame使用apply,args

  1. # 定义一个需要附加位置参数的自定义函数
  2. # 并使用args关键字传递这些附加参数。
  3. def fun(df): # df可以直接获得
  4. print(df) # axis=1 这里是1行数据 # 没有axis=1 这里是1列数据
  5. return "" # 新的值一般是字符串一个值
  6. df = df.apply(fun, args=(5,),axis=1)
  7. df['列名'] = df.apply(fun, args=(5,),axis=1)
  8. # 5, 这个逗号很关键,传成元祖,否则字符串会被分割
  9. # 直接df.apply改原数据
  10. # df['列名'] = df.apply(x) # 这样的话会改新的一行
  11. # 所以方法名一定要返回一个确切的数据 return "data"
  12. # axis=1 是一行一行取出来,不加的话就是一列一列取出来

axis=1 这里是1行数据

Series使用apply,求平方

官网案例

  1. import numpy as np
  2. import pandas as pd
  3. s = pd.Series([20, 21, 12],index=['London', 'New York', 'Helsinki'])
  4. print(s)
  5. # 定义函数并将其作为参数传递给 apply,求值平方。
  6. def square(x):
  7. return x ** 2
  8. s = s.apply(square)
  9. print(s)
  10. '''
  11. London 400
  12. New York 441
  13. Helsinki 144
  14. dtype: int64
  15. '''

apply求值平方

  1. # 通过将匿名函数作为参数传递给 apply
  2. s = s.apply(lambda x: x ** 2)
  3. '''
  4. London 400
  5. New York 441
  6. Helsinki 144
  7. dtype: int64
  8. '''

apply求值平方

Series使用apply,args

  1. # 定义一个需要附加位置参数的自定义函数
  2. # 并使用args关键字传递这些附加参数。
  3. import numpy as np
  4. import pandas as pd
  5. se = pd.Series([20, 21, 12],index=['London', 'New York', 'Helsinki'])
  6. print(se)
  7. def fun(x, custom_value):
  8. return x - custom_value
  9. se = se.apply(fun, args=(5,))
  10. print(se)
  11. # 5, 这个逗号很关键,传成元祖,否则字符串会被分割
  12. # 直接s.apply改原数据
  13. # s['列名'] = s.apply(x) # 这样的话会改新的一行
  14. # 所以方法名一定要返回一个确切的数据 return "data"
  15. # axis=1 是一行一行取出来,不加的话就是一列一列取出来
  16. '''
  17. London 15
  18. New York 16
  19. Helsinki 7
  20. dtype: int64
  21. '''

Series的apply方法

Series使用apply,kwargs

  1. # 定义一个接受关键字参数并将这些参数传递
  2. # 给 apply 的自定义函数。
  3. import numpy as np
  4. import pandas as pd
  5. se = pd.Series([20, 21, 12],index=['London', 'New York', 'Helsinki'])
  6. print(se)
  7. def add_custom_values(x, **kwargs):
  8. for month in kwargs:
  9. x += kwargs[month]
  10. return x
  11. se = se.apply(add_custom_values, june=30, july=20, august=25)
  12. print(se)
  13. '''
  14. London 95
  15. New York 96
  16. Helsinki 87
  17. dtype: int64
  18. '''

Series使用apply,kwargs

Series使用apply,np.log

  1. # 使用Numpy库中的函数
  2. import numpy as np
  3. import pandas as pd
  4. se = pd.Series([20, 21, 12],index=['London', 'New York', 'Helsinki'])
  5. print(se)
  6. se = se.apply(np.log)
  7. print(se)
  8. '''
  9. London 2.995732
  10. New York 3.044522
  11. Helsinki 2.484907
  12. dtype: float64
  13. '''

Series使用apply,np.log

结合tqdm给apply()过程添加进度条

我们知道apply()在运算时实际上仍然是一行一行遍历的方式,因此在计算量很大时如果有一个进度条来监视运行进度就很舒服。

tqdm:用于添加代码进度条的第三方库
tqdm对pandas也是有着很好的支持。

我们可以使用progress_apply()代替apply(),并在运行progress_apply()之前添加tqdm.tqdm.pandas(desc=’’)来启动对apply过程的监视。

其中desc参数传入对进度进行说明的字符串,下面我们在上一小部分示例的基础上进行改造来添加进度条功能:

  1. from tqdm import tqdm
  2. def fun_all(name, gender, age):
  3. gender = '女性' if gender is 'F' else '男性'
  4. return '有个名字叫{}的人,性别为{},年龄为{}。'.format(name, gender, age)

启动对紧跟着的apply过程的监视

  1. from tqdm import tqdm
  2. tqdm.pandas(desc='apply')
  3. df.progress_apply(lambda row:fun_all(row['name'],row['gender'],
  4. row['age']), axis = 1)
  5. apply: 100|██████████| 10/10 [00:00<00:00, 5011.71it/s]
  6. 0 有个名字叫Jack的人,性别为女性,年龄为25
  7. 1 有个名字叫Alice的人,性别为男性,年龄为34
  8. 2 有个名字叫Lily的人,性别为女性,年龄为49
  9. 3 有个名字叫Mshis的人,性别为女性,年龄为42
  10. 4 有个名字叫Gdli的人,性别为男性,年龄为28
  11. 5 有个名字叫Agosh的人,性别为女性,年龄为23
  12. 6 有个名字叫Filu的人,性别为男性,年龄为45
  13. 7 有个名字叫Mack的人,性别为男性,年龄为21
  14. 8 有个名字叫Lucy的人,性别为女性,年龄为34
  15. 9 有个名字叫Pony的人,性别为女性,年龄为2