Spark权威指南(中文版)----第27章回归-白红宇

Spark权威指南(中文版)----第27章回归

阅读量：710 次

发布时间：2019-03-21

本文共 2173 字，大约阅读时间需要 7 分钟。

Spark权威指南(中文版)是一部深入浅出的Spark 2.x版本框架指南，涵盖了其中各个核心模块，是当今市场上最优质的学习材料之一。无论您是Spark新手还是经验丰富的从业者，这本书都能为您提供宝贵的知识资源。

回归分析：从分类的延伸展开

回归分析是分类之外更基本的机器学习任务。它不仅仅是根据一组特征预测一个数值，而是通过特征的线性或非线性组合来预测一个目标变量（通常是连续型或类别型）。从数学角度看，回归任务的输出空间是连续的，这意味着优化过程需要专注于预测值与实际值之间的误差度量，而不是准确率。尽管如此，回归和分类在很多概念上有相似之处，这使得学习回归分析的知识非常有益。

回归的典型应用场景

在实际业务中，回归分析有许多应用场景。例如，您可以通过分析电影的特征（如上映时间、预告片播放量等）来预测其观众人数；利用公司历史数据、市场趋势和季节因素来预测未来的收入；或者通过查看作物生长区域的气候数据，预测特定地块的作物产量。

MLlib中的回归模型

MLlib提供了多种回归模型，涵盖了从传统的线性回归到更复杂的树模型。以下是主要的回归模型类型：

线性回归：简单但强大的模型，假设变量之间的关系是线性的。

广义线性回归：扩展了线性回归的概念，支持多种误差分布和链接函数，如Gaussian、Binomial、Poisson等。

保序回归：专注于有序分类任务。

决策树：捕捉非线性关系的树状结构化模型。

随机森林：基于多个决策树的集成方法，具有强大的预测能力。

梯度提升树：结合了梯度提升方法的升级版，性能优佳。

生存回归：用于预测个体生存概率的任务。

了解这些模型的工作原理和使用方法，是掌握回归分析的关键。

模型可伸缩性评估

回归模型在不同数据量下都有良好的表现。这一点通过下面的表格得以体现：

模型	特征数量	训练样本数量	备注
线性回归	1-1000万	无限制	具有良好的泛化能力
广义线性回归	4096	无限制	支持多种误差分布和链接函数
保序回归	N/A	百万级别	适用于有序分类任务
决策树	数百次	无限制	非线性模型结构
随机森林	万级别	无限制	集成多棵决策树模型
梯度提升树	数百次	无限制	性能优越
生存回归	1-1000万	无限制	预测生存概率

不同类型模型各有优势，选择时需综合考虑性能和应用场景。

数据准备

以下是准备回归数据的示例代码：

// Scala代码示例val df = spark.read.load("/data/regression")# Python代码示例import pyspark.ml.regressiondf = spark.read.load("/data/regression")

线性回归实例

线性回归是回归分析的基础，通过以下代码可以实现：

import org.apache.spark.ml.regression.LinearRegressionval lr = new LinearRegression()  .setMaxIter(10)  .setRegParam(0.3)  .setElasticNetParam(0.8)val lrModel = lr.fit(df)# Python代码示例from pyspark.ml.regression import LinearRegressionlr = LinearRegression().setMaxIter(10).setRegParam(0.3).setElasticNetParam(0.8)lrModel = lr.fit(df)

模型训练后可通过summary获取训练结果，包括残差、R平方等度量指标。

广义线性回归扩展

广义线性回归扩展了线性回归的能力，支持多种误差分布和链接函数。以下是一个广义线性回归的示例：

import org.apache.spark.ml.regression.GeneralizedLinearRegressionval glr = new GeneralizedLinearRegression()  .setFamily("gaussian")  .setLink("identity")  .setMaxIter(10)  .setRegParam(0.3)  .setLinkPredictionCol("linkOut")# Python代码示例from pyspark.ml.regression import GeneralizedLinearRegressionglr = GeneralizedLinearRegression()  .setFamily("gaussian")  .setLink("identity")  .setMaxIter(10)  .setRegParam(0.3)  .setLinkPredictionCol("linkOut")

广义线性回归提供了更高级的模型定制能力，您可以根据误差分布和链接函数选择适合任务的模型。

通过这些内容，您不仅能理解回归分析的基本概念，还能通过实际代码实现来探索不同模型的特点和应用场景。在实际应用中，分析数据特点、选择合适的模型类型，并通过调参优化模型性能，是回归分析的关键步骤。

转载地址：http://pszrz.baihongyu.com/

你可能感兴趣的文章

mysql 通过查看mysql 配置参数、状态来优化你的mysql