如何学习偏最小二乘法

我现在很想学习偏最小二乘法，看过一点入门的书籍，但是感觉很深奥，自己的基础很薄弱。请问如果想学习偏最小二乘法，我需要学习哪些方面的数学知识呢？（目前我只学习过高等数学。）
很感谢大家的介绍，但是我需要的是学习方式以及如何循序渐进的学习计划。

举报该文章

相关建议 2010-04-04

偏最小二乘法最小二乘法是一种数学优化技术，它通过最小化误差的平方和找到一组数据的最佳函数匹配。用最简的方法求得一些绝对不可知的真值，而令误差平方之和为最小。通常用于曲线拟合。很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。
偏最小二乘回归≈多元线性回归分析＋典型相关分析＋主成分分析
与传统多元线性回归模型相比，偏最小二乘回归的特点是：（1）能够在自变量存在严重多重相关性的条件下进行回归建模；（2）允许在样本点个数少于变量个数的条件下进行回归建模；（3）偏最小二乘回归在最终模型中将包含原有的所有自变量；（4）偏最小二乘回归模型更易于辨识系统信息与噪声（甚至一些非随机性的噪声）；（5）在偏最小二乘回归模型中，每一个自变量的回归系数将更容易解释。
在计算方差和协方差时，求和号前面的系数有两种取法：当样本点集合是随机抽取得到时，应该取1/(n-1)；如果不是随机抽取的，这个系数可取1/n。
多重相关性的诊断
1 经验式诊断方法
1、在自变量的简单相关系数矩阵中，有某些自变量的相关系数值较大。
2、回归系数的代数符号与专业知识或一般经验相反；或者，它同该自变量与y的简单相关系数符号相反。
3、对重要自变量的回归系数进行t检验，其结果不显著。
特别典型的是，当F检验能在高精度下通过，测定系数R2的值亦很大，但自变量的t检验却全都不显著，这时，多重相关性的可能性将很大。
4、如果增加（或删除）一个变量，或者增加（或删除）一个观测值，回归系数的估计值发生了很大的变化。
5、重要自变量的回归系数置信区间明显过大。
6、在自变量中，某一个自变量是另一部分自变量的完全或近似完全的线性组合。
7、对于一般的观测数据，如果样本点的个数过少，样本数据中的多重相关性是经常存在的。
但是，采用经验式方法诊断自变量系统中是否确实存在多重相关性，并不十分可靠，另一种较正规的方法是利用统计检验（回归分析），检查每一个自变量相对其它自变量是否存在线性关系。
2 方差膨胀因子
最常用的多重相关性的正规诊断方法是使用方差膨胀因子。自变量xj的方差膨胀因子记为（VIF）j，它的计算方法为
（4-5）（VIF）j =（1-R j2）-1
式中，R j2是以xj为因变量时对其它自变量回归的复测定系数。
所有xj变量中最大的（VIF）j通常被用来作为测量多重相关性的指标。一般认为，如果最大的（VIF）j超过10，常常表示多重相关性将严重影响最小二乘的估计值。
（VIF）j被称为方差膨胀因子的原因，是由于它还可以度量回归系数的估计方差与自变量线性无关时相比，增加了多少。
不妨假设x1,x2,…,xp均是标准化变量。采用最小二乘法得到回归系数向量B，它的精度是用它的方差来测量的。B的协方差矩阵为
Cov(B)= σ2 (X'X)-1
式中，σ2是误差项方差。所以，对于回归系数b j，有
Var(b j)= σ2cjj
cjj是(X'X)-1矩阵中第j个对角元素。可以证明，
cjj =（VIF）j
岭回归分析
1 岭回归估计量
岭回归分析是一种修正的最小二乘估计法，当自变量系统中存在多重相关性时，它可以提供一个比最小二乘法更为稳定的估计，并且回归系数的标准差也比最小二乘估计的要小。
根据高斯——马尔科夫定理，多重相关性并不影响最小二乘估计量的无偏性和最小方差性。但是，虽然最小二乘估计量在所有线性无偏估计量中是方差最小的，但是这个方差却不一定小。于是可以找一个有偏估计量，这个估计量虽然有微小的偏差，但它的精度却能够大大高于无偏的估计量。
在应用岭回归分析时，它的计算大多从标准化数据出发。对于标准化变量，最小二乘的正规方程为
rXXb=ryX
式中，rXX是X的相关系数矩阵，ryX是y与所有自变量的相关系数向量。
岭回归估计量是通过在正规方程中引入有偏常数c（c≥0）而求得的。它的正规方程为+
（4-8）（rXX+ cI） bR=ryX
所以，在岭回归分析中，标准化回归系数为
（4-9） bR =（rXX+ cI）-1 ryX
2 岭回归估计量的性质
（1）岭回归系数是一般最小二乘准则下回归系数的线性组合，即
（4-10） bR =（I+ crXX-1）-1b
（2）记β是总体参数的理论值。当β≠0时，可以证明一定存在一个正数c0，使得当0< c< c0时，一致地有
（4-11） E|| bR -β||2≤ E|| b -β||2
（3）岭回归估计量的绝对值常比普通最小二乘估计量的绝对值小，即
（4-12） || bR ||<|| b ||
岭回归估计量的质量取决于偏倚系数c的选取。c的选取不宜过大，因为
E（bR）=（I+ crXX-1）-1 E （b）=（I+ crXX-1）-1β
关于偏倚系数c的选取尚没有正规的决策准则，目前主要以岭迹和方差膨胀因子为依据。岭迹是指p-1个岭回归系数估计量对不同的c值所描绘的曲线（c值一般在0~1之间）。在通过检查岭迹和方差膨胀因子来选择c值时，其判断方法是选择一个尽可能小的c值，在这个较小的c值上，岭迹中的回归系数已变得比较稳定，并且方差膨胀因子也变得足够小。
从理论上，最佳的c值是存在的，它可以使估计量的偏差和方差的组合效应达到一个最佳水准。然而，困难却在于c的最优值对不同的应用而有所不同，对其选择还只能凭经验判断。
其他补救方法简介
最常见的一种思路是设法去掉不太重要的相关性变量。由于变量间多重相关性的形式十分复杂，而且还缺乏十分可靠的检验方法，删除部分多重相关变量的做法常导致增大模型的解释误差，将本应保留的系统信息舍弃，使得接受一个错误结论的可能和做出错误决策的风险都不断增长。另一方面，在一些经济模型中，从经济理论上要求一些重要的解释变量必须被包括在模型中，而这些变量又存在多重相关性。这时采用剔除部分相关变量的做法就不符合实际工作的要求。
另一种补救的办法是增加样本容量。然而，在实际工作中，由于时间、经费以及客观条件的限制，增大样本容量的方法常常是不可行的。
此外，还可以采用变量转换的方式，来削弱多重相关性的严重性。一阶差分回归模型有可能减少多重相关性的严重性。然而，一阶差分变换又带来了一些其它问题。差分后的误差项可能不满足总体模型中关于误差项不是序列相关的假定。事实上，在大部分情形下，在原来的误差项是不自相关的条件下，一阶差分所得到的误差项将会是序列相关的。而且，由于差分方法损失了一个观察值，这在小样本的情况下是极不可取的。另外，一阶差分方法在截面样本中是不宜利用的。
1 主成分分析
主成分分析的计算结果必然受到重叠信息的影响。因此，当人为地采用一些无益的相关变量时，无论从方向上还是从数量上，都会扭曲客观结论。在主成分分析之前，对变量系统的确定必须是慎之又慎的。
2 特异点的发现
第i个样本点（样本量为n）对第h主成分的贡献率是
（5-32） CTR(i)=Fh2(i)/(nλh) （若远超过1/n，为特异点）
3 典型相关分析
从某种意义上说，多元回归分析、判别分析或对应分析等许多重要的数据分析方法，都可以归结为典型相关分析的一种特例，同时它还是偏最小二乘回归分析的理论基石。
典型相关分析，是从变量组X中提取一个典型成分F=Xa，再从变量组Y中提取一个成分G=Yb，在提取过程中，要求F与G的相关程度达到最大。
在典型相关分析中，采用下述原则寻优，即
max<F,G>=aX'Yb a'X'Xa=1, b'Y'Yb=1
其结果为，a是对应于矩阵V11-1 V12 V22-1 V21最大特征值的特征向量，而b是对应于矩阵V22-1 V21V11-1 V12最大特征值的特征向量，这两个最大特征值相同。其中，
V11=X'X，V12=X'Y，V22=Y'Y。
F与G之间存在着明显的换算关系。
有时只有一个典型成分还不够，还可以考虑第二个典型成分。
多因变量的偏最小二乘回归模型
1 工作目标
偏最小二乘回归分析的建模方法
设有q个因变量和p个自变量。为了研究因变量与自变量的统计关系，观测了n个样本点，由此构成了自变量与因变量的数据表X和Y。偏最小二乘回归分别在X与Y中提取出t和u，要求：（1）t和u应尽可能大地携带它们各自数据表中的变异信息；（2）t和u的相关程度能够达到最大。在第一个成分被提取后，偏最小二乘回归分别实施X对t的回归以及Y对t的回归。如果回归方程已经达到满意的精度，则算法终止；否则，将利用X被t解释后的残余信息以及Y被t解释后的残余信息进行第二轮的成分提取。如此往复，直到能达到一个较满意的精度为止。若最终对X共提取了多个成分，偏最小二乘回归将通过施行yk对X的这些成分的回归，然后再表达成yk关于原自变量的回归方程。
2 计算方法
首先将数据做标准化处理。X经标准化处理后的数据矩阵记为E0=( E01,…,E0p)n×p，Y的相应矩阵记为F0=( F01,…,F0q)n×q。
第一步记t 1是E0的第一个成分，t 1= E0w1，w1是E0的第一个轴，它是一个单位向量，即|| w1||=1。
记u 1是F0的第一个成分，u 1= F0c1，c1是F0的第一个轴，并且|| c1||=1。
于是，要求解下列优化问题，即
（7-1）
记θ1= w1'E0'F0c1，即正是优化问题的目标函数值。
采用拉格朗日算法，可得
（7-8） E0'F0F0'E0w1=θ12 w1
（7-9） F0'E0E0'F0c1=θ12 c1
所以，w1是对应于E0'F0F0'E0矩阵最大特征值的单位特征向量，而c1是对应于F0'E0E0'F0矩阵最大特征值θ12的单位特征向量。
求得轴w1和c1后，即可得到成分
t 1= E0w1
u 1= F0c1
然后，分别求E0和F0对t 1的回归方程
（7-10） E0= t 1 p1'+ E1
（7-12） F0= t 1r1'+ F1
式中，回归系数向量是
（7-13） p1= E0' t 1/|| t 1||2
（7-15） r1= F0' t 1/|| t 1||2
而E1和F1分别是两个方程的残差矩阵。
第二步用残差矩阵E1和F1取代E0和F0，然后，求第二个轴w2和c2以及第二个成分t2，u2，有
t 2= E1w2
u 2= F1c2
θ2=< t2, u2>= w2'E1'F1c2
w2是对应于E1'F1F1'E1矩阵最大特征值的单位特征向量，而c2是对应于F1'E1E1'F1矩阵最大特征值θ22的单位特征向量。计算回归系数
p2= E1' t 2/|| t 2||2
r2= F1' t 2/|| t2||2
因此，有回归方程
E1= t 2 p2'+ E2
F1= t 2r2'+ F2
如此计算下去，如果X的秩是A，则会有
（7-16） E0= t 1 p1'+…+t A pA'
（7-17） F0= t 1r1'+ …+t A rA'+ FA
由于t1，…，t A均可以表示成E01，…，E0p的线性组合，因此，式（7-17）还可以还原成yk*= F0k关于xj*= E0j的回归方程形式，即
yk*=αk1 x1*+…+αkp xp*+ FAk， k=1,2,…,q
FAk是残差矩阵FA的第k列。
3 交叉有效性
如果多一个成分而少一个样本的预测误差平方和（所有因变量和预测样本相加）除以少一个成分的误差平方和（所有的因变量和样本相加）小于0.952，则多一个成分是值得的。
4 一种更简洁的计算方法
用下述原则提取自变量中的成分t 1，是与原则式（7-1）的结果完全等价的，即
（7-24）
（1）求矩阵E0'F0F0'E0最大特征值所对应的单位特征向量w1，求成分t 1，得
t 1= E0w1
E1= E0-t 1 p1'
式中， p1= E0' t 1/|| t 1||2
（2）求矩阵E1'F0F0'E1最大特征值所对应的单位特征向量w2，求成分t2，得
t 2= E1w2
E2= E1-t 2 p2'
式中， p2= E1' t 2/|| t2||2
……
（m）至第m步，求成分tm= Em-1wm，wm是矩阵Em-1'F0F0'Em-1最大特征值所对应的单位特征向量.
如果根据交叉有效性，确定共抽取m个成分t1，…，tm可以得到一个满意的观测模型，则求F0在t1，…，tm上的普通最小二乘回归方程为
F0= t 1r1'+ …+t mrm'+ Fm
偏最小二乘回归的辅助分析技术
1 精度分析
定义自变量成分th的各种解释能力如下
（1）th对某自变量xj的解释能力
（8-1） Rd(xj; th)=r2(xj, th)
（2）th对X的解释能力
（8-2） Rd(X; th)=[r2(x1, th) + …+ r2(xp, th)]/p
（3）t1，…，tm对X的累计解释能力
（8-3） Rd(X; t1，…，tm)= Rd(X; t1) + …+ Rd(X; tm)
（4）t1，…，tm对某自变量xj的累计解释能力
（8-4） Rd(xj; t1，…，tm)= Rd(xj; t1) + …+ Rd(xj; tm)
（5）th对某因变量yk的解释能力
（8-5） Rd(yk; th)=r2(yk, th)
（6）th对Y的解释能力
（8-6） Rd(Y; th)=[r2(y1, th) + …+ r2(yq, th)]/q
（7）t1，…，tm对Y的累计解释能力
（8-7） Rd(Y; t1，…，tm)= Rd(Y; t1) + …+ Rd(Y; tm)
（8）t1，…，tm对某因变量yk的累计解释能力
（8-8） Rd(yk; t1，…，tm)= Rd(yk; t1) + …+ Rd(yk; tm)
2 自变量x j在解释因变量集合Y的作用
x j在解释Y时作用的重要性，可以用变量投影重要性指标VIP j来测度
VIP j 2=p[Rd(Y; t1) w1j2+ …+ Rd(Y; tm) wmj2]/[Rd(Y; t1) + …+ Rd(Y; tm)]
式中，whj是轴wh的第j个分量。注意 VIP1 2+ …+ VIP p2=p
3 特异点的发现
定义第i个样本点对第h成分th的贡献率Thi2，用它来发现样本点集合中的特异点，即
（8-10） Thi2=thi2/((n-1)s h2)
式中，s h2是成分th的方差。
由此，还可以测算样本点i对成分t1，…，tm的累计贡献率
（8-11） Ti2= T1i2+ …+ Tmi2
当
Ti2≥m(n2-1)F0.05(m,n-m)/(n2 (n-m))
时，可以认为在95%的检验水平上，样本点i对成分t1，…，tm的贡献过大。
单因变量的偏最小二乘回归模型
1 简化算法
第一步已知数据E0，F0，由于u 1= F0，可得
w1= E0'F0/|| E0'F0||
t 1= E0w1
p1= E0' t 1/|| t 1||2
E1= E0-t 1 p1'
检验交叉有效性。若有效，继续计算；否则只提取一个成分t 1。
第h步(h=2,…,m) 已知数据Eh-1，F0，有
wh= Eh-1'F0/|| Eh-1'F0||
t h= Eh-1wh
ph= Eh-1' t h/|| t h||2
Eh= Eh-1-th ph'
检验交叉有效性。若有效，继续计算h+1步；否则停止求成分的计算。
这时，得到m个成分t1，…，t m，实施F0在t1，…，t m上的回归，得
F0^= r1t 1+ …+ rmt m
由于t1，…，t m均是E0的线性组合，即
t h= Eh-1wh= E0wh*
所以F0^可写成E0的线性组合形式，即
F0^= r1 E0w1*+ …+ rm E0wm*= E0[r1 w1*+ …+ rm wm*]
最后，也可以变换成y对x1，…，x p的回归方程
y^= α0+α1x1+ …+αp xp

温馨提示：内容为网友见解，仅供参考

当前网址：https://aolonic.com/aa/angk55d3n.html

其他看法

第1个回答 2010-04-04

偏最小二乘法是一种新型的多元统计数据分析方法，它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首提示来的,偏最小二乘法有机的结合起来了，在一个算法下，可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。这是多元统计数据分析中的一个飞跃。

偏最小二乘法在统计应用中的重要性体现在以下几个方面：
偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。
偏最小二乘法之所以被称为第二代回归方法，还由于它可以实现多种数据分析方法的综合应用。
主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息，然后用于预测变量Y的值。这种做法可以保证让我们只使用那些独立变量，噪音将被消除，从而达到改善预测模型质量的目的。但是，主成分回归仍然有一定的缺陷，当一些有用变量的相关性很小时，我们在选取主成分时就很容易把它们漏掉，使得最终的预测模型可靠性下降，如果我们对每一个成分进行挑选，那样又太困难了。

偏最小二乘回归可以解决这个问题。它采用对变量X和Y都进行分解的方法，从变量X和Y中同时提取成分(通常称为因子)，再将因子按照它们之间的相关性从大到小排列。现在，我们要建立一个模型，我们只要决定选择几个因子参与建模就可以了
基本概念
偏最小二乘回归是对多元线性回归模型的一种扩展，在其最简单的形式中，只用一个线性模型来描述独立变量Y与预测变量组X之间的关系:
Y = b0 + b1X1 + b2X2 + ... + bpXp
在方程中，b0是截距，bi的值是数据点1到p的回归系数。
例如，我们可以认为人的体重是他的身高、性别的函数，并且从各自的样本点中估计出回归系数，之后，我们从测得的身高及性别中可以预测出某人的大致体重。对许多的数据分析方法来说，最大的问题莫过于准确的描述观测数据并且对新的观测数据作出合理的预测。

多元线性回归模型为了处理更复杂的数据分析问题，扩展了一些其他算法，象判别式分析，主成分回归，相关性分析等等，都是以多元线性回归模型为基础的多元统计方法。这些多元统计方法有两点重要特点，即对数据的约束性：

变量X和变量Y的因子都必须分别从X\'X和Y\'Y矩阵中提取，这些因子就无法同时表示变量X和Y的相关性。
预测方程的数量永远不能多于变量Y跟变量X的数量。
偏最小二乘回归从多元线性回归扩展而来时却不需要这些对数据的约束。在偏最小二乘回归中，预测方程将由从矩阵Y\'XX\'Y中提取出来的因子来描述；为了更具有代表性，提取出来的预测方程的数量可能大于变量X与Y的最大数。

简而言之，偏最小二乘回归可能是所有多元校正方法里对变量约束最少的方法，这种灵活性让它适用于传统的多元校正方法所不适用的许多场合，例如一些观测数据少于预测变量数时。并且，偏最小二乘回归可以作为一种探索性的分析工具，在使用传统的线性回归模型之前，先对所需的合适的变量数进行预测并去除噪音干扰。
因此，偏最小二乘回归被广泛用于许多领域来进行建模，象化学，经济学，医药，心理学和制药科学等等，尤其是它可以根据需要而任意设置变量这个优点更加突出。在化学计量学上，偏最小二乘回归已作为一种标准的多元建模工具。
如果在Eviews中消除异方差性用wls,就够了,如果不知道异方差的形式,就用HAC

第2个回答 2010-04-06

O(∩_∩)O~，看了你的资料，理工大学毕业是吧？不知道你是什么专业，我还是列出一些你需要看的吧。

偏最小二乘法一般是计算机专业的选修课程，需要一些基础课做铺垫：线性代数（也有地方叫高等代数），高等数学（数学专业的叫数学分析），数据结构（偏最小二乘法实际就是对数据结构的优化），图论基础（不需要太高深，优化思想能看懂就行，至于pascal定理不懂就跳过吧，用不上）

BLESS，O(∩_∩)O~本回答被提问者采纳

第3个回答 2010-04-05

百度百科上有

参考资料：http://baike.baidu.com/view/1378714.html?wtp=tt

偏最小二乘法
偏最小二乘回归（英语：Partial least squares regression， PLS回归）是一种统计学方法，与主成分回归有关系，但不是寻找响应变量和自变量之间最大方差的超平面，而是通过投影分别将预测变量和观测变量投影到一个新空间，来寻找一个线性回归模型。∑（X--X平）（Y--Y平）=∑X^2--nX平^2（针对y=a...

如何学习偏最小二乘法
偏最小二乘回归分别在X与Y中提取出t和u,要求:(1)t和u应尽可能大地携带它们各自数据表中的变异信息;(2)t和u的相关程度能够达到最大。在第一个成分被提取后,偏最小二乘回归分别实施X对t的回归以及Y对t的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用X被t解释后的残余信息以及Y被t解释后的...

什么是偏最小二乘法
偏最小二乘法的定义：偏最小二乘法是一种数学优化技术，它通过最小化误差的平方和找到一组数据的最佳函数匹配，用最简的方法求得一些绝对不可知的真值，而令误差平方之和为最小，很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。与传统多元线性回归模型相比，偏最小二乘法的特...

如何使用偏二乘最小回归来分析数据?
评估模型：使用交叉验证或其他评估方法来评估模型的性能。如果模型性能不佳，可以尝试调整模型参数或使用其他方法进行分析。总之，偏最小二乘回归是一种强大的统计学方法，可以有效地处理多重共线性问题。通过将预测变量投影到较低维度的新变量空间，同时考虑响应变量的信息，偏最小二乘回归能够提供稳定且准确...

偏最小二乘法建模的思想与步骤是什么?
偏最小二乘法回归是对多元线性回归模型的一种扩展,其主要目的是要建立一个线性模型。其建模思路是:分别在自变量集合x和因变量集合y中提取t和u1两个主成分,要最大程度地携带原数据系统中的变异信息,同时相关程度也要达到最大,即t1和u1的协方差在取最大值。提取第一主成分t1和u1后,分别实施X对t的...

偏最小二乘法的原理与实现
以转录组数据为例，特征量个数通常为基因个数，达到万级，而样本数一般是几十到几百例。当我们基于转录组数据去研究基因表达与其他性状之间的联系时，对于这种自变量大于观察个数的情况，无法直接使用传统的统计分析模型。这时，有一种相当有效的方法—偏最小二乘回归(partial least squares regreesion, ...

偏最小二乘回归分析
偏最小二乘回归法(PLSR:partial least squares regression):是一种新型的多元统计数据分析方法，它主要研究的是多因变量对多自变量的回归建模，特别当各变量内部高度线性相关时，用偏最小二乘回归法更有效。另外，偏最小二乘回归较好地解决了样本个数少于变量个数等问题。偏最小二乘法是集主成分分析、...

偏最小二乘法建模方法
若不满足精度要求，则利用X在t解释后剩下的残余信息和Y在t解释后剩下的残余信息进行第二轮成分提取。如此循环，直至达到满意精度。最终，如果对X提取了多个成分，偏最小二乘回归法将通过将yk回归至这些X的成分，然后再转化为关于原始自变量的回归方程。通过这种迭代过程，偏最小二乘回归法有效地在高维...

偏最小二乘法的基本内容
（4）偏最小二乘回归模型更易于辨识系统信息与噪声（甚至一些非随机性的噪声）；（5）在偏最小二乘回归模型中，每一个自变量的回归系数将更容易解释。在计算方差和协方差时，求和号前面的系数有两种取法：当样本点集合是随机抽取得到时，应该取1\/(n-1)；如果不是随机抽取的，这个系数可取1\/n。

最小二乘法公式
最小二乘法公式详解最小二乘法是一种常用的数据拟合方法，其核心思想是找到一条直线，使得所有观测点到这条直线的垂直距离平方和最小。以下是该方法的公式推导：1. 计算直线的斜率k，公式为:k = (平均乘积XY - X的平均值乘以Y的平均值) \/ (X的平方和平均值 - X的平均值的平方)其中，X的平均...

相似回答

大家正在搜