Skip to content

决策树回归模型公式与原理说明

在本研究中,为了刻画孕妇 BMI 对胎儿 Y 染色体浓度最早达标孕周的影响规律,我们采用 CART(Classification and Regression Tree)回归树模型。该模型能够将复杂的非线性关系转化为一系列“如果–那么”的分裂规则,从而在解释性和预测性之间取得较好的平衡。

决策树回归的基本形式为:

f^(x)=∑m=1Mcm 1{x∈Rm},\hat{f}(x) = \sum_{m=1}^{M} c_m , \mathbf{1}{x \in R_m},f^​(x)=m=1∑M​cm​1{x∈Rm​},

其中,输入空间 Rp\mathbb{R}^pRp 被划分为 MMM 个互不重叠的区域 {R1,R2,…,RM}{R_1, R_2, \dots, R_M}{R1​,R2​,…,RM​},每个区域对应树的一个叶节点;当观测值 xxx 落入区域 RmR_mRm​ 时,其预测值即为该区域的常数 cmc_mcm​。

对于每个区域 RmR_mRm​,最优常数 cmc_mcm​ 通过最小化残差平方和(SSE)得到:

cm=arg⁡min⁡c∑xi∈Rm(yi−c)2=1∣Rm∣∑xi∈Rmyi,c_m = \arg\min_{c} \sum_{x_i \in R_m} (y_i - c)^2 = \frac{1}{|R_m|} \sum_{x_i \in R_m} y_i,cm​=argcmin​xi​∈Rm​∑​(yi​−c)2=∣Rm​∣1​xi​∈Rm​∑​yi​,

即区域内目标变量 yiy_iyi​(此处为最早达标孕周)的均值。

在树的生长过程中,每次切分都会选择最优的特征 jjj 与切分点 sss,使得:

RL(j,s)={x:xj<s},RR(j,s)={x:xj≥s},R_{\text{L}}(j, s) = {x : x_j < s}, \quad R_{\text{R}}(j, s) = {x : x_j \geq s},RL​(j,s)={x:xj​<s},RR​(j,s)={x:xj​≥s},

并最小化以下目标函数:

min⁡j,s[∑xi∈RL(j,s)(yi−y‾RL)2+∑xi∈RR(j,s)(yi−y‾RR)2],\min_{j, s} \Bigg[ \sum_{x_i \in R_{\text{L}}(j,s)} (y_i - \overline{y}{R{\text{L}}})^2 + \sum_{x_i \in R_{\text{R}}(j,s)} (y_i - \overline{y}{R{\text{R}}})^2 \Bigg],j,smin​[xi​∈RL​(j,s)∑​(yi​−y​RL​​)2+xi​∈RR​(j,s)∑​(yi​−y​RR​​)2],

其中,y‾RL\overline{y}{R{\text{L}}}y​RL​​ 与 y‾RR\overline{y}{R{\text{R}}}y​RR​​ 分别表示左右子区域内的均值。该过程通过递归分裂,不断最小化残差平方和,从而得到一棵最优的回归树。

最终,整个决策树回归模型的损失函数为:

R(T)=∑m=1M∑xi∈Rm(yi−y‾Rm)2,R(\mathcal{T}) = \sum_{m=1}^M \sum_{x_i \in R_m} (y_i - \overline{y}_{R_m})^2,R(T)=m=1∑M​xi​∈Rm​∑​(yi​−y​Rm​​)2,

其中 T\mathcal{T}T 表示树的结构。

在本题中,我们选取孕妇 BMI 作为自变量,最早达标孕周作为因变量,通过决策树回归对 BMI 进行监督分箱。该方法能够自动确定分割点并形成区间分组,避免了人为分组的主观性,同时保证了组间差异的显著性和组内方差的最小化。因此,该模型特别适合于探究 BMI 对 NIPT(无创产前检测)最佳检测时点的分层作用。