微信登录

机器学习基础 - 监督学习 - 分类与回归任务

机器学习基础 - 监督学习 - 分类与回归任务

一、引言

在机器学习的广阔领域中,监督学习是最常用且重要的分支之一。监督学习的核心在于通过已知的输入数据及其对应的输出标签来训练模型,从而让模型能够对未知数据进行预测。监督学习主要可分为分类任务和回归任务,下面我们将详细探讨这两种任务。

二、分类任务

2.1 定义

分类任务的目标是将输入数据划分到不同的离散类别中。例如,判断一封邮件是垃圾邮件还是正常邮件,识别一张图片中的动物是猫还是狗等。

2.2 常用算法

  • 逻辑回归:虽然名字中包含“回归”,但它实际上是一种常用的分类算法。它通过逻辑函数将线性回归的输出映射到一个概率值,从而进行分类。
  • 决策树:基于特征的条件判断构建树状结构,每个内部节点是一个特征上的测试,每个分支是测试输出,每个叶节点是类别或值。
  • 支持向量机:寻找一个最优的超平面,将不同类别的数据分隔开来。

2.3 示例代码(使用逻辑回归进行鸢尾花分类)

  1. from sklearn.datasets import load_iris
  2. from sklearn.model_selection import train_test_split
  3. from sklearn.linear_model import LogisticRegression
  4. from sklearn.metrics import accuracy_score
  5. # 加载鸢尾花数据集
  6. iris = load_iris()
  7. X = iris.data
  8. y = iris.target
  9. # 划分训练集和测试集
  10. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
  11. # 创建逻辑回归模型
  12. model = LogisticRegression()
  13. # 训练模型
  14. model.fit(X_train, y_train)
  15. # 进行预测
  16. y_pred = model.predict(X_test)
  17. # 计算准确率
  18. accuracy = accuracy_score(y_test, y_pred)
  19. print(f"分类准确率: {accuracy}")

三、回归任务

3.1 定义

回归任务的目标是预测一个连续的数值输出。例如,预测房价、股票价格等。

3.2 常用算法

  • 线性回归:假设输入特征和输出之间存在线性关系,通过最小化预测值与真实值之间的误差来确定模型参数。
  • 决策树回归:与决策树分类类似,但叶节点输出的是一个连续值。
  • 随机森林回归:由多个决策树组成的集成学习模型,通过对多个决策树的预测结果进行平均来得到最终的预测值。

3.3 示例代码(使用线性回归预测波士顿房价)

  1. from sklearn.datasets import load_boston
  2. from sklearn.model_selection import train_test_split
  3. from sklearn.linear_model import LinearRegression
  4. from sklearn.metrics import mean_squared_error
  5. # 加载波士顿房价数据集
  6. boston = load_boston()
  7. X = boston.data
  8. y = boston.target
  9. # 划分训练集和测试集
  10. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
  11. # 创建线性回归模型
  12. model = LinearRegression()
  13. # 训练模型
  14. model.fit(X_train, y_train)
  15. # 进行预测
  16. y_pred = model.predict(X_test)
  17. # 计算均方误差
  18. mse = mean_squared_error(y_test, y_pred)
  19. print(f"均方误差: {mse}")

四、分类任务与回归任务的对比

对比项 分类任务 回归任务
输出类型 离散类别 连续数值
评估指标 准确率、召回率、F1值等 均方误差、平均绝对误差等
应用场景 垃圾邮件分类、图像识别等 房价预测、股票价格预测等

五、总结

分类任务和回归任务是监督学习中两个重要的组成部分,它们各自有着不同的应用场景和评估指标。通过合理选择算法和评估指标,我们可以构建出高效的机器学习模型来解决实际问题。在实际应用中,我们需要根据具体的问题来判断是使用分类任务还是回归任务,并选择合适的算法进行模型训练和优化。

希望通过本文的介绍,你对监督学习中的分类任务和回归任务有了更深入的理解,并能够运用相关知识解决实际问题。

机器学习基础 - 监督学习 - 分类与回归任务