Pressidian

决策树回归模型公式与原理说明

在本研究中，为了刻画孕妇 BMI 对胎儿 Y 染色体浓度最早达标孕周的影响规律，我们采用 CART（Classification and Regression Tree）回归树模型。该模型能够将复杂的非线性关系转化为一系列“如果–那么”的分裂规则，从而在解释性和预测性之间取得较好的平衡。

决策树回归的基本形式为：

f^(x)=∑m=1Mcm 1{x∈Rm},\hat{f}(x) = \sum_{m=1}^{M} c_m , \mathbf{1}{x \in R_m},f^(x)=m=1∑Mcm1{x∈Rm},

其中，输入空间 Rp\mathbb{R}^pRp 被划分为 MMM 个互不重叠的区域 {R1,R2,…,RM}{R_1, R_2, \dots, R_M}{R1,R2,…,RM}，每个区域对应树的一个叶节点；当观测值 xxx 落入区域 RmR_mRm 时，其预测值即为该区域的常数 cmc_mcm。

对于每个区域 RmR_mRm，最优常数 cmc_mcm 通过最小化残差平方和（SSE）得到：

cm=arg⁡min⁡c∑xi∈Rm(yi−c)2=1∣Rm∣∑xi∈Rmyi,c_m = \arg\min_{c} \sum_{x_i \in R_m} (y_i - c)^2 = \frac{1}{|R_m|} \sum_{x_i \in R_m} y_i,cm=argcminxi∈Rm∑(yi−c)2=∣Rm∣1xi∈Rm∑yi,

即区域内目标变量 yiy_iyi（此处为最早达标孕周）的均值。

在树的生长过程中，每次切分都会选择最优的特征 jjj 与切分点 sss，使得：

RL(j,s)={x:xj<s},RR(j,s)={x:xj≥s},R_{\text{L}}(j, s) = {x : x_j < s}, \quad R_{\text{R}}(j, s) = {x : x_j \geq s},RL(j,s)={x:xj<s},RR(j,s)={x:xj≥s},

并最小化以下目标函数：

min⁡j,s[∑xi∈RL(j,s)(yi−y‾RL)2+∑xi∈RR(j,s)(yi−y‾RR)2],\min_{j, s} \Bigg[ \sum_{x_i \in R_{\text{L}}(j,s)} (y_i - \overline{y}{R{\text{L}}})^2 + \sum_{x_i \in R_{\text{R}}(j,s)} (y_i - \overline{y}{R{\text{R}}})^2 \Bigg],j,smin[xi∈RL(j,s)∑(yi−yRL)2+xi∈RR(j,s)∑(yi−yRR)2],

其中，y‾RL\overline{y}{R{\text{L}}}yRL 与 y‾RR\overline{y}{R{\text{R}}}yRR 分别表示左右子区域内的均值。该过程通过递归分裂，不断最小化残差平方和，从而得到一棵最优的回归树。

最终，整个决策树回归模型的损失函数为：

R(T)=∑m=1M∑xi∈Rm(yi−y‾Rm)2,R(\mathcal{T}) = \sum_{m=1}^M \sum_{x_i \in R_m} (y_i - \overline{y}_{R_m})^2,R(T)=m=1∑Mxi∈Rm∑(yi−yRm)2,

其中 T\mathcal{T}T 表示树的结构。

在本题中，我们选取孕妇 BMI 作为自变量，最早达标孕周作为因变量，通过决策树回归对 BMI 进行监督分箱。该方法能够自动确定分割点并形成区间分组，避免了人为分组的主观性，同时保证了组间差异的显著性和组内方差的最小化。因此，该模型特别适合于探究 BMI 对 NIPT（无创产前检测）最佳检测时点的分层作用。

1基础

2进阶

3工程

css

优化

廖雪峰教程

2历史背景

3快速入门

4函数

5标准对象

6对象

7浏览器

8错误处理

手写代码

现代JS教程与阮一峰ES6

0基础简介

1数据类型与变量

2函数

3错误处理

4原型与类

5特殊内建对象

6异步编程

7模块

1Describing the UI

2Adding Interactivity

3Managing Sate

4Escape Hatches

内置组件

组件库开发

DOM

事件

网络请求

课程知识

会议

申报

Vue

YOLO

决策树回归模型公式与原理说明 ​

决策树回归模型公式与原理说明