原文:http://tecdat.cn/?p=2655
此示例显示如何在matlab中应用偏最小二乘回归(PLSR)和主成分回归(PCR),并讨论这两种方法的有效性。当存在大量预测变量时,PLSR和PCR都是对因变量建模的方法,并且这些预测变量高度相关或甚至共线性。两种方法都将新的预测变量(称为成分)构建为原始预测变量的线性组合,但它们以不同的方式构造这些成分。PCR创建成分来解释预测变量中观察到的变异性,而根本不考虑因变量。另一方面,PLSR确实将因变量考虑在内,因此通常会导致模型能够使用更少的成分来适应因变量。
加载数据
加载包括401个波长的60个汽油样品的光谱强度及其辛烷值的数据集。
使用两个拟合数据
使PLSR模型拟合10个PLS成分和一个因变量。
为了充分拟合数据,可能需要十个成分,但可以使用此拟合的诊断来选择具有更少成分的更简单模型。例如,选择成分数量的一种快速方法是将因变量中解释的方差百分比绘制为成分数量的函数。
在实践中,在选择成分数量时可能需要更加谨慎。例如,交叉验证是一种广泛使用的方法,稍后将在本示例中进行说明。目前,上图显示具有两个成分的PLSR解释了观察到的大部分方差y。计算双组分模型的拟合因变量。
接下来,拟合具有两个主要成分的PCR模型。第一步是X使用该pca函数执行主成分分析,并保留两个主成分。然后,PCR只是这两个成分的因变量的线性回归。当变量具有非常不同的可变性时,通常首先通过其标准偏差来规范每个变量。
从某种意义上说,上图中的比较并不合理 - 通过观察双组分PLSR模型预测因变量的程度来选择成分数(两个),并且没有说明为什么PCR模型应该限制相同数量的成分。然而,使用相同数量的成分,PLSR做得更好。实际上,观察上图中拟合值的水平分布,使用两个分量的PCR几乎不比使用常数模型好。回归的r方值证实了这一点。
比较两种模型的预测能力的另一种方法是在两种情况下将因变量绘制成两个预测变量。
如果不能以交互方式旋转图形,有点难以看到,但上面的PLSR图显示了紧密分散在平面上的点。另一方面,下面的PCR图显示点几乎没有线性关系。
请注意,尽管两个PLS成分是观察到的更好的预测因子,但下图显示它们解释的方差比例比PCR中使用的前两个主成分少。
PCR曲线一致性较高的事实表明,为什么使用两种成分的PCR相对于PLSR在拟合时表现很差。PCR构建成分以便最好地解释X,因此,前两个成分忽略了数据拟合中观察到的重要信息y。
拟合更多成分
随着在PCR中添加更多成分,它必然会更好地拟合原始数据y,这仅仅是因为在某些时候,大多数重要的预测信息X将存在于主要成分中。例如,使用10个成分时,两种方法的残差远小于两个成分的残差。
交叉验证
在预测未来变量的观察结果时,选择成分数量以减少预期误差通常很有用。简单地使用大量成分将很好地拟合当前观察到的数据,但这是一种导致过度拟合的策略。过于拟合当前数据会导致模型不能很好地推广到其他数据,并对预期误差给出过度乐观的估计。
交叉验证是一种更加统计上合理的方法,用于选择PLSR或PCR中的成分数量。它通过不重复使用相同的数据来拟合模型和估计预测误差来避免过度拟合数据。因此,预测误差的估计不会乐观地向下偏差。
pls可以选择通过交叉验证来估计均方预测误差(MSEP),在这种情况下使用10倍CV。
plsreg(X,y,10,'CV',10);
对于PCR,crossval结合用于计算PCR的平方误差之和,可以再次使用10倍交叉验证来估计MSEP。
sum(crossval(@ pcrsse,X,y,'KFold',10),1)/ n;
PLSR的MSEP曲线表明两个或三个成分好。另一方面,PCR需要四个成分才能获得相同的预测精度。
事实上,PCR中的第二个成分会增加模型的预测误差,这表明该成分中包含的预测变量的组合与其没有很强的相关性y。再次,这是因为PCR构建成分来解释X,而不是y。
模型简约
因此,如果PCR需要四个成分来获得与具有三个成分的PLSR相同的预测精度,那么PLSR模型是否更加简约?这取决于您考虑的模型的哪个方面。
PLS权重是定义PLS分量的原始变量的线性组合,即,它们描述了PLSR中的每个分量依赖于原始变量的权重。
类似地,PCA载荷描述了PCR中每个成分依赖于原始变量的强度。
对于PLSR或PCR,可以通过检查每个成分最重要的变量来为每个成分提供有意义的解释。例如,利用这些光谱数据,可以根据汽油中存在的化合物解释强度峰值,然后观察特定成分的权重挑选出少量这些化合物。从这个角度来看,更少的成分更易于解释,并且由于PLSR通常需要更少的成分来充分预测因变量,因此会导致更简约的模型。
另一方面,PLSR和PCR都导致每个原始预测变量的一个回归系数加上截距。从这个意义上讲,两者都不是更简约,因为无论使用多少成分,两种模型都依赖于所有预测变量。更具体地,对于这些数据,两个模型都需要401个光谱强度值以进行预测。
然而,最终目标可能是将原始变量集减少到仍然能够准确预测因变量的较小子集。例如,可以使用PLS权重或PCA载荷来仅选择对每个成分贡献最大的那些变量。如前所示,来自PCR模型拟合的一些成分可主要用于描述预测变量的变化,并且可包括与因变量不强相关的变量的权重。因此,PCR会导致保留预测不必要的变量。
对于本例中使用的数据,PLSR和PCR所需的成分数量之间的差异不是很大,PLS权重和PCA载荷选择了相同的变量。其他数据可能并非如此。
有问题欢迎下方留言!
参考文献
1.matlab使用经验模式分解emd 对信号进行去噪
2.Matlab使用Hampel滤波去除异常值
3.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)
4.matlab预测ARMA-GARCH 条件均值和方差模型
5.matlab中使用VMD(变分模态分解)
6.matlab使用贝叶斯优化的深度学习
7.matlab贝叶斯隐马尔可夫hmm模型
8.matlab中的隐马尔可夫模型(HMM)实现
9.matlab实现MCMC的马尔可夫切换ARMA – GARCH模型
什么是偏最小二乘法
偏最小二乘法的定义:偏最小二乘法是一种数学优化技术,它通过最小化误差的平方和找到一组数据的最佳函数匹配,用最简的方法求得一些绝对不可知的真值,而令误差平方之和为最小,很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。与传统多元线性回归模型相比,偏最小二乘法的特...
偏最小二乘法计算方法
偏最小二乘法计算方法是数据科学中用于处理多变量数据的一种统计方法。该方法旨在通过构建多个成分(或称为潜在变量)来同时解释自变量X和因变量Y。这一过程是通过一系列步骤来完成的,旨在寻找最优的成分以最大程度地减少误差。在偏最小二乘法中,首先对数据X和Y进行标准化处理,将标准化后的矩阵分别...
偏最小二乘回归分析
偏最小二乘回归法(PLSR:partial least squares regression):是一种新型的多元统计数据分析方法,它主要研究的是多因变量对多自变量的回归建模,特别当各变量内部高度线性相关时,用偏最小二乘回归法更有效。另外,偏最小二乘回归较好地解决了样本个数少于变量个数等问题。偏最小二乘法是集主成分分析、...
偏最小二乘法基本内容
偏最小二乘法是一种综合多元线性回归分析、典型相关分析和主成分分析的统计建模技术。其基本公式为偏最小二乘回归,其特点如下:1. 在处理自变量存在严重多重相关性的情况下,偏最小二乘回归模型能够进行有效的回归建模。2. 当样本点个数少于变量个数时,偏最小二乘回归模型同样能进行建模,这在传统...
偏最小二乘法
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误养的平方和为最小。最小二乘法还可用于曲线拟合。2、原理 未知量的最可能值是使各项实际观测值和计算值之间差的...
偏最小二乘法与最小二乘法有什么区别?
1、偏最小二乘法:在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。回归系数的代数符号与专业知识或一般经验相反;或者,它同该自变量与y的简单相关系数符号相反。对重要自变量的回归系数进行t检验,其结果不显著。2、最小二乘法:如果预测的变量是连续的,我们称其为回归。回归分析中,...
什么是偏最小二乘法?
原文:http:\/\/tecdat.cn\/?p=2655 此示例显示如何在matlab中应用偏最小二乘回归(PLSR)和主成分回归(PCR),并讨论这两种方法的有效性。当存在大量预测变量时,PLSR和PCR都是对因变量建模的方法,并且这些预测变量高度相关或甚至共线性。两种方法都将新的预测变量(称为成分)构建为原始预测变量的线性...
偏最小二乘法与最小二乘法有什么区
偏最小二乘法与最小二乘法是两种统计学中常用的方法,它们在概念、特点和应用上有所区别。首先,从定义上看,偏最小二乘法适用于自变量存在严重多重共线性或样本量小于变量数的情况,它的目标是找到最佳的回归模型。而最小二乘法则是通过最小化误差平方和来拟合数据,通常用于数据拟合和估计。在特点...
偏最小二乘法诊断方法
偏最小二乘法诊断方法旨在判断自变量系统中是否存在多重相关性。通常,经验式诊断法会从自变量间的相关系数、回归系数的符号、t检验结果以及自变量的置信区间等方面进行判断。然而,这种方法的可靠性相对较低。一种更正规的诊断方法是通过统计检验,特别是回归分析,来检查自变量之间是否存在线性关系。方差膨胀...
什么叫偏最小二乘法建模?
偏最小二乘法回归是对多元线性回归模型的一种扩展,其主要目的是要建立一个线性模型。其建模思路是:分别在自变量集合x和因变量集合y中提取t和u1两个主成分,要最大程度地携带原数据系统中的变异信息,同时相关程度也要达到最大,即t1和u1的协方差在取最大值。提取第一主成分t1和u1后,分别实施X对t的...