偏最小二乘回归:理论、方法与实证分析
在数据分析与建模的实践领域,变量间的相互关系研究始终是核心议题之一。尤其是当面临两组多重相关变量,且需要通过一组变量(自变量或预测变量)对另一组变量(因变量或响应变量)进行预测时,选择合适的分析方法显得至关重要。传统的分析方法中,经典多元线性回归分析以最小二乘准则为基础,能够构建自变量与因变量间的线性关系模型,但在变量存在多重共线性、样本量较少而变量个数较多的场景下,模型精度会大幅下降,甚至出现参数估计不稳定的问题。主成分回归分析通过提取自变量组的主成分,将回归问题转化为基于主成分的线性回归,一定程度上缓解了多重共线性的影响,但该方法仅聚焦于自变量组的信息提取,未充分考虑自变量与因变量间的关联关系,可能导致提取的主成分对因变量的解释力不足。为此,偏最小二乘回归方法应运而生,作为一种兼具多重优势的多对多线性回归建模方法,它在解决上述传统方法的局限性方面表现出显著优势,已被广泛应用于经济、医疗、环境、工程等多个领域。
偏最小二乘回归的核心价值的在于其整合性与适用性,它不仅能够处理多自变量、多因变量的建模问题,更能在变量存在严重多重相关性、样本量小于变量个数的极端场景下,构建出稳定且具有良好预测能力的回归模型。与经典多元线性回归、主成分回归等传统方法相比,偏最小二乘回归在建模过程中巧妙融合了主成分分析、典型相关分析和线性回归分析的核心特点:借鉴主成分分析的思想,通过提取成分来浓缩变量信息,降低数据维度;沿用典型相关分析的思路,注重自变量组与因变量组之间的整体关联,最大化两组变量的相关性;最终以线性回归分析为基础,构建成分与因变量、自变量与因变量的回归关系。这种整合性使得偏最小二乘回归在输出回归模型的同时,还能完成类似主成分分析的变量信息提取、类似典型相关分析的两组变量关联分析,为研究者提供更丰富、更深