第二题

公式1：最早达标孕周 ( \text{EW}_j )

公式内容：以阈值 ( \tau ) 定义孕妇 ( j ) 的最早达标孕周，( \text{EW}_j = \min{ g: Y_j^{\max}(g) \geq \tau } )；若不存在满足条件的 ( g )，则 ( \text{EW}_j ) 记为缺失并在后续分割样本中剔除。
变量说明：
- ( \tau )：用于定义最早达标孕周的阈值。
- ( j )：孕妇的索引。
- ( g )：孕周相关变量。
- ( Y_j^{\max}(g) )：孕妇 ( j ) 在孕周 ( g ) 时的某一指标（文中未明确，结合上下文推测与达标相关）的最大值。
- ( \text{EW}_j )：孕妇 ( j ) 的最早达标孕周。
LaTeX 代码：

latex

\text{EW}_j = \min\{ g: Y_j^{\max}(g) \geq \tau \}

公式2：学习集 ( \mathcal{D} )

公式内容：学习集 ( \mathcal{D} = { (x_j, \text{EW}j) }^n )（剔除缺失后）。
变量说明：
- ( \mathcal{D} )：学习集。
- ( x_j )：孕妇 ( j ) 的 BMI 等特征变量。
- ( \text{EW}_j )：孕妇 ( j ) 剔除缺失后的最早达标孕周。
- ( n )：学习集中样本的数量。
LaTeX 代码：

latex

\mathcal{D} = \{ (x_j, \text{EW}_j) \}_{j=1}^n

公式3：分裂候选集 ( L(t) ) 和 ( R(t) )

公式内容：对任意阈值 ( t )，把数据分为 ( L(t) = { j: x_j < t } ) 和 ( R(t) = { j: x_j \geq t } )。
变量说明：
- ( t )：用于分裂数据的阈值。
- ( L(t) )：特征 ( x_j ) 小于阈值 ( t ) 的样本索引集合。
- ( R(t) )：特征 ( x_j ) 大于等于阈值 ( t ) 的样本索引集合。
- ( x_j )：孕妇 ( j ) 的特征变量（如 BMI）。
- ( j )：样本索引。
LaTeX 代码：

latex

L(t) = \{ j: x_j &lt; t \}, \quad R(t) = \{ j: x_j \geq t \}

公式4：叶结点内预测 ( \hat{\mu}(S) )

公式内容：叶结点内预测为该叶的样本均值，( \hat{\mu}(S) = \frac{1}{|S|} \sum_{j \in S} \text{EW}_j )。
变量说明：
- ( \hat{\mu}(S) )：叶结点 ( S ) 内的预测值。
- ( S )：叶结点包含的样本索引集合。
- ( |S| )：叶结点 ( S ) 内样本的数量。
- ( \text{EW}_j )：样本 ( j ) 的最早达标孕周。
- ( j )：样本索引。
LaTeX 代码：

latex

\hat{\mu}(S) = \frac{1}{|S|} \sum_{j \in S} \text{EW}_j

公式5：平方误差代价 ( \text{SSE}(S) )

公式内容：平方误差代价 ( \text{SSE}(S) = \sum_{j \in S} (\text{EW}_j - \hat{\mu}(S))^2 )。
变量说明：
- ( \text{SSE}(S) )：叶结点 ( S ) 内的平方误差代价。
- ( S )：叶结点包含的样本索引集合。
- ( \text{EW}_j )：样本 ( j ) 的最早达标孕周。
- ( \hat{\mu}(S) )：叶结点 ( S ) 内的预测值。
- ( j )：样本索引。
LaTeX 代码：

latex

\text{SSE}(S) = \sum_{j \in S} (\text{EW}_j - \hat{\mu}(S))^2

公式6：最优分裂阈值 ( t^* )

公式内容：最优分裂阈值 ( t^* \in \arg\min_t \left[ \text{SSE}(L(t)) + \text{SSE}(R(t)) \right] )，递归执行直至达到“最大叶结点数”或继续分裂无法显著降低代价。
变量说明：
- ( t^* )：最优的分裂阈值。
- ( \arg\min_t )：使后面表达式取得最小值的 ( t ) 的集合。
- ( \text{SSE}(L(t)) )：分裂后左子集 ( L(t) ) 的平方误差代价。
- ( \text{SSE}(R(t)) )：分裂后右子集 ( R(t) ) 的平方误差代价。
- ( t )：分裂阈值。
LaTeX 代码：

latex

t^* \in \arg\min_t \left[ \text{SSE}(L(t)) + \text{SSE}(R(t)) \right]

（5）阈值圆整与 BMI 区间构造相关

公式1：阈值圆整

公式内容：设从树中抽取的所有有效阈值集合为 ( \mathcal{C} = { c_1, \dots, c_K } )（升序），按固定步长 ( s )（代码中 ( s = 0.5 )）做“就近取整”并去重，( \tilde{c}_k = \text{round}\left( \frac{c_k}{s} \right) \cdot s )，并确保 ( \tilde{c}_1 < \tilde{c}_2 < \dots < \tilde{c}_K )。
变量说明：
- ( \mathcal{C} )：从树中抽取的有效阈值集合。
- ( c_k )：集合 ( \mathcal{C} ) 中的第 ( k ) 个阈值。
- ( K )：阈值集合 ( \mathcal{C} ) 中元素的个数。
- ( s )：固定步长，代码中为 ( 0.5 )。
- ( \tilde{c}_k )：对 ( c_k ) 进行圆整后得到的阈值。
- ( \text{round}(\cdot) )：取整函数，将括号内的值四舍五入取整。
LaTeX 代码：

latex

\tilde{c}_k = \text{round}\left( \frac{c_k}{s} \right) \cdot s

并确保 ( \tilde{c}_1 < \tilde{c}_2 < \dots < \tilde{c}_K )，LaTeX 表示为：

latex

\tilde{c}_1 &lt; \tilde{c}_2 &lt; \dots &lt; \tilde{c}_K

公式2：BMI 分组区间

公式内容：最终 BMI 分组为左闭右开区间 ( (-\infty, \tilde{c}_1), [\tilde{c}_1, \tilde{c}_2), \dots, [\tilde{c}_K, +\infty) )（与 ( \text{pd.cut}(..., \text{right=False}) ) 一致）。
变量说明：
- ( \tilde{c}_k )：经过圆整后的阈值，用于划分 BMI 区间。
- ( K )：阈值的个数，决定区间的数量。
LaTeX 代码：

latex

(-\infty, \tilde{c}_1), [\tilde{c}_1, \tilde{c}_2), \dots, [\tilde{c}_K, +\infty)

（6）组内统计量与建议时点相关

公式1：样本量 ( n_g )

公式内容：对任一 BMI 组 ( g )，样本量 ( n_g = |g| )。
变量说明：
- ( g )：某一 BMI 组。
- ( n_g )：BMI 组 ( g ) 内的样本量。
- ( |g| )：表示集合 ( g ) 中元素的个数，即该组的样本数量。
LaTeX 代码：

latex

n_g = |g|

公式2：均值 ( \overline{\text{EW}}_g )

公式内容：均值 ( \overline{\text{EW}}g = \frac{1}{n_g} \sum{j \in g} \text{EW}_j )。
变量说明：
- ( \overline{\text{EW}}_g )：BMI 组 ( g ) 内“最早达标孕周”的均值。
- ( n_g )：BMI 组 ( g ) 内的样本量。
- ( \text{EW}_j )：样本 ( j ) 的“最早达标孕周”。
- ( j )：样本索引，( j \in g ) 表示样本 ( j ) 属于 BMI 组 ( g )。
LaTeX 代码：

latex

\overline{\text{EW}}_g = \frac{1}{n_g} \sum_{j \in g} \text{EW}_j

公式3：中位数 ( \text{Med}_g )

公式内容：中位数 ( \text{Med}g = \text{EW}{\left( \lceil n_g / 2 \rceil \right)} )。
变量说明：
- ( \text{Med}_g )：BMI 组 ( g ) 内“最早达标孕周”的中位数。
- ( \text{EW}_{\left( \lceil n_g / 2 \rceil \right)} )：将组内“最早达标孕周”排序后，位于第 ( \lceil n_g / 2 \rceil ) 位的数值，其中 ( \lceil \cdot \rceil ) 是向上取整函数。
- ( n_g )：BMI 组 ( g ) 内的样本量。
LaTeX 代码：

latex

\text{Med}_g = \text{EW}_{\left( \lceil n_g / 2 \rceil \right)}

公式4：最小值 ( \min_g ) 和最大值 ( \max_g )

公式内容：最小值 ( \min_g = \text{EW}{(1)} )，最大值 ( \max_g = \text{EW} )。
变量说明：
- ( \min_g )：BMI 组 ( g ) 内“最早达标孕周”的最小值。
- ( \max_g )：BMI 组 ( g ) 内“最早达标孕周”的最大值。
- ( \text{EW}_{(1)} )：组内“最早达标孕周”排序后第 1 位的数值（即最小值）。
- ( \text{EW}_{(n_g)} )：组内“最早达标孕周”排序后第 ( n_g ) 位的数值（即最大值）。
- ( n_g )：BMI 组 ( g ) 内的样本量。
LaTeX 代码：

latex

\min_g = \text{EW}_{(1)}, \quad \max_g = \text{EW}_{(n_g)}

公式5：( p )-分位数 ( Q_p(g) )

公式内容：( p )-分位数（经验分位）( Q_p(g) = \text{EW}_{\left( \lceil p \cdot n_g \rceil \right)} )（( p = 0.90, 0.95 )）。
变量说明：
- ( Q_p(g) )：BMI 组 ( g ) 内“最早达标孕周”的 ( p )-分位数。
- ( p )：分位数的比例，这里取 ( 0.90 ) 和 ( 0.95 )。
- ( \text{EW}_{\left( \lceil p \cdot n_g \rceil \right)} )：将组内“最早达标孕周”排序后，位于第 ( \lceil p \cdot n_g \rceil ) 位的数值。
- ( n_g )：BMI 组 ( g ) 内的样本量。
- ( \lceil \cdot \rceil )：向上取整函数。
LaTeX 代码：

latex

Q_p(g) = \text{EW}_{\left( \lceil p \cdot n_g \rceil \right)}

（( p = 0.90, 0.95 ) 可表示为 ( p \in { 0.90, 0.95 } )，LaTeX 为 ( p = 0.90,\ 0.95 )）

公式6：建议首检时点 ( T_g^{(1)} ) 和建议复检时点 ( T_g^{(2)} )

公式内容：建议首检时点 ( T_g^{(1)} = Q_{0.90}(g) )，建议复检时点 ( T_g^{(2)} = Q_{0.95}(g) )。
变量说明：
- ( T_g^{(1)} )：BMI 组 ( g ) 对应的建议首检时点。
- ( T_g^{(2)} )：BMI 组 ( g ) 对应的建议复检时点。
- ( Q_{0.90}(g) )：BMI 组 ( g ) 内“最早达标孕周”的 ( 0.90 )-分位数。
- ( Q_{0.95}(g) )：BMI 组 ( g ) 内“最早达标孕周”的 ( 0.95 )-分位数。
LaTeX 代码：

latex

T_g^{(1)} = Q_{0.90}(g)

latex

T_g^{(2)} = Q_{0.95}(g)

第三题

数据预处理相关

公式1：孕周统一（周 + 天转换）

公式内容：若原始孕周为“周 + 天”，记为 ( GA = w + \frac{d}{7} )；若为小数，直接取值；仅保留合理时窗 ([10, 25])。
变量说明：
- ( GA )：统一后的孕周。
- ( w )：原始孕周的“周”部分。
- ( d )：原始孕周的“天”部分。
LaTeX 代码：

latex

GA = w + \frac{d}{7}

公式2：同孕周汇总（取最大值）

公式内容：对同一孕妇、同一孕周的多次检测，取 ( Y^{\max}(g) = \max Y )。
变量说明：
- ( Y^{\max}(g) )：同一孕妇、孕周 ( g ) 下检测指标的最大值。
- ( Y )：该孕妇、孕周 ( g ) 下的检测指标值。
- ( g )：孕周。
LaTeX 代码：

latex

Y^{\max}(g) = \max Y

公式3：事件时间（监督信号）

公式内容：( \text{EW} = \min{ g: Y^{\max}(g) \geq \tau } )（( \tau = 4% )）。
变量说明：
- ( \text{EW} )：事件时间（最早达标孕周）。
- ( g )：孕周。
- ( Y^{\max}(g) )：同一孕妇、孕周 ( g ) 下检测指标的最大值。
- ( \tau )：阈值，这里为 ( 4% )。
LaTeX 代码：

latex

\text{EW} = \min\{ g: Y^{\max}(g) \geq \tau \}

公式4：BMI 分箱（CART 最优阈值）

公式内容：内部结点阈值 ( c^* ) 由最小化组内平方误差和得到，( c^* \in \arg\min_{c} \sum_{x < c} (\text{EW} - \overline{\text{EW}}L)^2 + \sum{x \geq c} (\text{EW} - \overline{\text{EW}}_R)^2 )。
变量说明：
- ( c^* )：最优的内部结点阈值。
- ( \arg\min_{c} )：使后面表达式取得最小值的 ( c ) 的集合。
- ( \text{EW} )：事件时间（最早达标孕周）。
- ( \overline{\text{EW}}_L )：阈值 ( c ) 左侧样本的 ( \text{EW} ) 均值。
- ( \overline{\text{EW}}_R )：阈值 ( c ) 右侧样本的 ( \text{EW} ) 均值。
- ( x )：样本的 BMI 等特征值。
LaTeX 代码：

latex

c^* \in \arg\min_{c} \sum_{x &lt; c} (\text{EW} - \overline{\text{EW}}_L)^2 + \sum_{x \geq c} (\text{EW} - \overline{\text{EW}}_R)^2

公式5：区间中点（人 - 区间构造）

公式内容：区间特征含 ( \text{interval_mid} = \frac{t_k + t_{k+1}}{2} )。
变量说明：
- ( \text{interval_mid} )：相邻孕周点 ( [t_k, t_{k+1}) ) 区间的中点。
- ( t_k )、( t_{k+1} )：相邻的孕周点。
LaTeX 代码：

latex

\text{interval\_mid} = \frac{t_k + t_{k+1}}{2}

生存森林相关

公式1：区间危险度 ( \hat{h}_i(t) )

公式内容：用随机森林分类器估计区间危险度 ( \hat{h}_i(t) = \Pr(\text{event} = 1 \mid \text{features at } t) )，并用等距网格 ( t = 10, 10.2, \dots, 25 ) 逐点预测。
变量说明：
- ( \hat{h}_i(t) )：第 ( i ) 个样本在孕周 ( t ) 时的区间危险度估计值。
- ( \Pr(\text{event} = 1 \mid \text{features at } t) )：在孕周 ( t ) 时特征下，事件（首次达标发生在右端点）发生的概率。
- ( t )：孕周，取值为等距网格 ( 10, 10.2, \dots, 25 )。
- ( i )：样本索引。
LaTeX 代码：

latex

\hat{h}_i(t) = \Pr(\text{event} = 1 \mid \text{features at } t)

公式2：递推个体生存 ( \hat{S}_i(t) ) 和累计达标 ( \hat{F}_i(t) )

公式内容：( \hat{S}i(t) = \prod{u \leq t} (1 - \hat{h}_i(u)) )，( \hat{F}_i(t) = 1 - \hat{S}_i(t) )。
变量说明：
- ( \hat{S}_i(t) )：第 ( i ) 个样本在孕周 ( t ) 时的生存函数估计值（未达标概率）。
- ( \hat{F}_i(t) )：第 ( i ) 个样本在孕周 ( t ) 时的累计达标函数估计值（达标概率）。
- ( \hat{h}_i(u) )：第 ( i ) 个样本在孕周 ( u ) 时的区间危险度估计值。
- ( u )：孕周，( u \leq t )。
- ( t )：孕周。
- ( i )：样本索引。
LaTeX 代码：

latex

\hat{S}_i(t) = \prod_{u \leq t} (1 - \hat{h}_i(u))

latex

\hat{F}_i(t) = 1 - \hat{S}_i(t)

公式3：组内平均 ( \hat{F}_{\text{group}}(t) )

公式内容：( \hat{F}{\text{group}}(t) = \frac{1}{|G|} \sum{i \in G} \hat{F}_i(t) )。
变量说明：
- ( \hat{F}_{\text{group}}(t) )：某一组在孕周 ( t ) 时的累计达标函数组内平均值。
- ( |G| )：组 ( G ) 内样本的数量。
- ( \hat{F}_i(t) )：组 ( G ) 内第 ( i ) 个样本在孕周 ( t ) 时的累计达标函数估计值。
- ( i )：样本索引，( i \in G ) 表示样本 ( i ) 属于组 ( G )。
- ( t )：孕周。
LaTeX 代码：

latex

\hat{F}_{\text{group}}(t) = \frac{1}{|G|} \sum_{i \in G} \hat{F}_i(t)

机会约束优化相关

公式：最早满足目标的孕周 ( t^*(p) )

公式内容：对给定目标 ( p \in { 0.90, 0.95 } )，求最早满足的孕周 ( t^*(p) = \min{ t \in [10, 25] : \hat{F}_{\text{group}}(t) \geq p } )。
变量说明：
- ( t^*(p) )：满足累计达标概率至少为 ( p ) 的最早孕周。
- ( p )：目标累计达标概率，取 ( 0.90 ) 或 ( 0.95 )。
- ( \hat{F}_{\text{group}}(t) )：某一组在孕周 ( t ) 时的累计达标函数组内平均值。
- ( t )：孕周，范围为 ( [10, 25] )。
LaTeX 代码：

latex

t^*(p) = \min\{ t \in [10, 25] : \hat{F}_{\text{group}}(t) \geq p \}

第四题

S2 质控门（QC gate）相关

（2.1）孕周窗口约束

公式内容：( \mathbb{I}_{\text{week}}(i) = \mathbb{I}{ 10 \leq GA_i \leq 25 } )
变量说明：
- ( \mathbb{I}_{\text{week}}(i) )：指示函数，当样本 ( i ) 的孕周 ( GA_i ) 在 ([10, 25]) 范围内时，值为 ( 1 )，否则为 ( 0 )。
- ( GA_i )：样本 ( i ) 的孕周。
- ( \mathbb{I}{\cdot} )：示性函数，括号内条件满足时取 ( 1 )，不满足时取 ( 0 )。
LaTeX 代码：

latex

\mathbb{I}_{\text{week}}(i) = \mathbb{I}\{ 10 \leq GA_i \leq 25 \}

（2.2）质量稳健带（分位裁剪）

公式内容：( \mathbb{I}{\text{qc}}(i) = \prod{m \in \mathcal{M}} \mathbb{I}\left{ q_L^{(m)} \leq x_i^{(m)} \leq q_U^{(m)} \right} )
变量说明：
- ( \mathbb{I}_{\text{qc}}(i) )：指示函数，当样本 ( i ) 的所有特征 ( x_i^{(m)} )（( m \in \mathcal{M} )）都在对应分位区间 ([q_L^{(m)}, q_U^{(m)}]) 内时，值为 ( 1 )，否则为 ( 0 )。
- ( \mathcal{M} )：特征的索引集合。
- ( x_i^{(m)} )：样本 ( i ) 的第 ( m ) 个特征。
- ( q_L^{(m)} )：第 ( m ) 个特征的下分位数。
- ( q_U^{(m)} )：第 ( m ) 个特征的上分位数。
- ( \mathbb{I}{\cdot} )：示性函数。
LaTeX 代码：

latex

\mathbb{I}_{\text{qc}}(i) = \prod_{m \in \mathcal{M}} \mathbb{I}\left\{ q_L^{(m)} \leq x_i^{(m)} \leq q_U^{(m)} \right\}

（2.3）质控门通过指示

公式内容：( \mathbb{I}{\text{pass}}(i) = \mathbb{I}{\text{week}}(i) \cdot \mathbb{I}_{\text{qc}}(i) )
变量说明：
- ( \mathbb{I}_{\text{pass}}(i) )：指示函数，当样本 ( i ) 同时满足孕周窗口约束和质量稳健带约束时，值为 ( 1 )（即通过质控门），否则为 ( 0 )。
- ( \mathbb{I}_{\text{week}}(i) )：孕周窗口约束的指示函数。
- ( \mathbb{I}_{\text{qc}}(i) )：质量稳健带约束的指示函数。
LaTeX 代码：

latex

\mathbb{I}_{\text{pass}}(i) = \mathbb{I}_{\text{week}}(i) \cdot \mathbb{I}_{\text{qc}}(i)

S3 特征装配与缺失填补相关

（3.1）数值化与中位数填补

公式内容：( \tilde{x}{ij} = \begin{cases} x, & x_{ij} \text{ 非缺失} \ \text{median}{ x_{\ell j}: \mathbb{I}_{\text{pass}}(\ell) = 1 }, & \text{否则} \end{cases} )
变量说明：
- ( \tilde{x}_{ij} )：填补后样本 ( i ) 的第 ( j ) 个特征值。
- ( x_{ij} )：样本 ( i ) 第 ( j ) 个特征的原始值。
- ( \text{median}{\cdot} )：取中位数函数，这里取通过质控门（( \mathbb{I}_{\text{pass}}(\ell) = 1 )）的样本 ( \ell ) 第 ( j ) 个特征的中位数。
- ( \ell )：样本索引。
- ( \mathbb{I}_{\text{pass}}(\ell) )：样本 ( \ell ) 质控门通过的指示函数。
LaTeX 代码：

latex

\tilde{x}_{ij} = \begin{cases} x_{ij}, & x_{ij} \text{ 非缺失} \\ \text{median}\{ x_{\ell j}: \mathbb{I}_{\text{pass}}(\ell) = 1 \}, & \text{否则} \end{cases}

S4 成本敏感 LightGBM（概率模型）相关

（4.1）逻辑概率映射

公式内容：( \hat{p}{\theta}(x) = \sigma(f{\theta}(x)) = \frac{1}{1 + e^{-f_{\theta}(x)}} )
变量说明：
- ( \hat{p}_{\theta}(x) )：模型对样本 ( x ) 的预测概率。
- ( \sigma(\cdot) )：Sigmoid 函数，用于将模型输出 ( f_{\theta}(x) ) 映射到 ((0, 1)) 区间，代表概率。
- ( f_{\theta}(x) )：LightGBM 模型的输出（未经过 Sigmoid 变换）。
- ( \theta )：模型参数。
- ( x )：输入样本。
LaTeX 代码：

latex

\hat{p}_{\theta}(x) = \sigma(f_{\theta}(x)) = \frac{1}{1 + e^{-f_{\theta}(x)}}

S4 成本敏感 LightGBM（概率模型）相关

（4.1）逻辑概率映射

公式内容：( \hat{p}{\theta}(x) = \sigma(f{\theta}(x)) = \frac{1}{1 + e^{-f_{\theta}(x)}} )
变量说明：
- ( \hat{p}_{\theta}(x) )：模型对样本 ( x ) 的预测异常概率。
- ( \sigma(\cdot) )：Sigmoid 函数，将梯度提升树的加性打分 ( f_{\theta}(x) ) 映射到 ((0, 1)) 区间表示概率。
- ( f_{\theta}(x) )：LightGBM 模型的加性输出打分。
- ( \theta )：模型参数。
- ( x )：输入样本。
LaTeX 代码：

latex

\hat{p}_{\theta}(x) = \sigma(f_{\theta}(x)) = \frac{1}{1 + e^{-f_{\theta}(x)}}

（4.2）类别权重（阳性稀缺）

公式内容：( w_1 = \frac{N_0}{\max(1, N_1)}, \quad w_0 = 1 )
变量说明：
- ( w_1 )：阳性类别（类别 ( 1 )）的权重。
- ( w_0 )：阴性类别（类别 ( 0 )）的权重（固定为 ( 1 )）。
- ( N_0 )：阴性类别（类别 ( 0 )）的训练样本数。
- ( N_1 )：阳性类别（类别 ( 1 )）的训练样本数。
- ( \max(1, N_1) )：取 ( 1 ) 和 ( N_1 ) 中的较大值，避免分母过小。
LaTeX 代码：

latex

w_1 = \frac{N_0}{\max(1, N_1)}, \quad w_0 = 1

（4.3）加权交叉熵目标（带正则）

公式内容：( \min_{\theta} \sum_{(x_i, y_i) \in \mathcal{D}{\text{tr}}} w \left[ - y_i \log \hat{p}{\theta}(x_i) - (1 - y_i) \log \left( 1 - \hat{p}{\theta}(x_i) \right) \right] + \lambda |\theta|_2^2 )
变量说明：
- ( \theta )：模型参数，需最小化目标函数来学习。
- ( \mathcal{D}_{\text{tr}} )：训练数据集。
- ( (x_i, y_i) )：训练集中的样本（特征 ( x_i )，标签 ( y_i )）。
- ( w_{y_i} )：根据样本标签 ( y_i ) 确定的类别权重（( y_i = 1 ) 时为 ( w_1 )，( y_i = 0 ) 时为 ( w_0 )）。
- ( \hat{p}_{\theta}(x_i) )：模型对样本 ( x_i ) 的预测概率。
- ( \lambda )：正则化系数，控制模型复杂度，避免过拟合。
- ( |\theta|_2^2 )：模型参数 ( \theta ) 的 ( L_2 ) 范数的平方，起正则化作用。
LaTeX 代码：

latex

\min_{\theta} \sum_{(x_i, y_i) \in \mathcal{D}_{\text{tr}}} w_{y_i} \left[ - y_i \log \hat{p}_{\theta}(x_i) - (1 - y_i) \log \left( 1 - \hat{p}_{\theta}(x_i) \right) \right] + \lambda \|\theta\|_2^2

S5 概率校准（等温回归 Isotonic）相关

（5.1）单调校准映射

公式内容：( \hat{p}(x) = g(\hat{p}{\text{raw}}(x)), \quad g = \arg\min{g \text{ 单调非降}} \sum_{(x_i, y_i) \in \mathcal{D}{\text{cal}}} \left( g(\hat{p}{\text{raw}}(x_i)) - y_i \right)^2 )
变量说明：
- ( \hat{p}(x) )：校准后样本 ( x ) 的预测概率。
- ( g(\cdot) )：单调非降的校准映射函数，通过最小化校准数据集上的平方误差学习得到。
- ( \hat{p}_{\text{raw}}(x) )：模型原始的未校准预测概率。
- ( \arg\min_{g \text{ 单调非降}} )：寻找满足“单调非降”约束的函数 ( g )，使后面的平方误差和最小。
- ( \mathcal{D}_{\text{cal}} )：校准数据集。
- ( (x_i, y_i) )：校准集中的样本（特征 ( x_i )，标签 ( y_i )）。
LaTeX 代码：

latex

\hat{p}(x) = g(\hat{p}_{\text{raw}}(x)), \quad g = \arg\min_{g \text{ 单调非降}} \sum_{(x_i, y_i) \in \mathcal{D}_{\text{cal}}} \left( g(\hat{p}_{\text{raw}}(x_i)) - y_i \right)^2

S6 分割式 Conformal 选择性/拒判相关

（6.1）校准集非一致性分数（二分类）

公式内容：( s_i = 1 - \left[ y_i \hat{p}_i + (1 - y_i)(1 - \hat{p}_i) \right] = \min{\hat{p}_i, 1 - \hat{p}_i} )（其中 ( \hat{p}_i = \hat{p}(x_i) )）
变量说明：
- ( s_i )：校准集样本 ( i ) 的非一致性分数。
- ( y_i )：校准集样本 ( i ) 的真实标签（二分类，取值 ( 0 ) 或 ( 1 )）。
- ( \hat{p}_i )：模型对校准集样本 ( i ) 的预测概率，( \hat{p}(x_i) ) 表示模型对样本 ( x_i ) 的预测概率。
LaTeX 代码：

latex

s_i = 1 - \left[ y_i \hat{p}_i + (1 - y_i)(1 - \hat{p}_i) \right] = \min\{\hat{p}_i, 1 - \hat{p}_i\}

（6.2）“higher”分位阈值（有限样本保覆盖）

公式内容：( q_{\alpha} = Q_{1 - \alpha}^{\text{higher}}({ s_i }{\mathcal{D}{\text{cal}}}) )
变量说明：
- ( q_{\alpha} )：“higher”分位阈值，用于后续预测集的确定。
- ( Q_{1 - \alpha}^{\text{higher}}(\cdot) )：取集合中第 ( (1 - \alpha) ) 分位的“higher”分位数函数。
- ( { s_i }{\mathcal{D}{\text{cal}}} )：校准集 ( \mathcal{D}_{\text{cal}} ) 中所有样本的非一致性分数集合。
LaTeX 代码：

latex

q_{\alpha} = Q_{1 - \alpha}^{\text{higher}}(\{ s_i \}_{\mathcal{D}_{\text{cal}}})

（6.3）候选标签的非一致性

公式内容：( s_1(x) = 1 - \hat{p}(x), \quad s_0(x) = \hat{p}(x) )
变量说明：
- ( s_1(x) )：候选标签为 ( 1 ) 时的非一致性分数。
- ( s_0(x) )：候选标签为 ( 0 ) 时的非一致性分数。
- ( \hat{p}(x) )：模型对样本 ( x ) 的预测概率。
LaTeX 代码：

latex

s_1(x) = 1 - \hat{p}(x), \quad s_0(x) = \hat{p}(x)

（6.4）预测集与决策（预测集）

公式内容：( S(x) = { y \in {0, 1} : s_y(x) \leq q_{\alpha} } )
变量说明：
- ( S(x) )：样本 ( x ) 的预测集，包含满足非一致性分数不超过阈值 ( q_{\alpha} ) 的候选标签。
- ( y )：候选标签（取值 ( 0 ) 或 ( 1 )）。
- ( s_y(x) )：候选标签 ( y ) 对应的非一致性分数。
- ( q_{\alpha} )：“higher”分位阈值。
LaTeX 代码：

latex

S(x) = \{ y \in \{0, 1\} : s_y(x) \leq q_{\alpha} \}

（6.5）预测集与决策（决策规则）

公式内容：( |S(x)| = \begin{cases} 1, & \text{接受（直接出报告）} \ 0 \text{ 或 } 2, & \text{拒判（建议复检）} \end{cases} )
变量说明：
- ( |S(x)| )：预测集 ( S(x) ) 的大小（元素个数）。
- “接受（直接出报告）”：当预测集大小为 ( 1 ) 时，给出确定类别，直接出报告。
- “拒判（建议复检）”：当预测集大小为 ( 0 ) 或 ( 2 ) 时，拒绝判定，建议复检。
LaTeX 代码：

latex

|S(x)| = \begin{cases} 1, & \text{接受（直接出报告）} \\ 0 \text{ 或 } 2, & \text{拒判（建议复检）} \end{cases}

S7 选择性评价与风险 - 覆盖曲线相关

（7.1）选择性覆盖率（接受比例）

公式内容：( \text{Coverage} = \frac{1}{|\mathcal{D}{\text{te}}|} \sum{x \in \mathcal{D}_{\text{te}}} \mathbb{I}(|S(x)| = 1) )
变量说明：
- ( \text{Coverage} )：选择性覆盖率，即测试集 ( \mathcal{D}_{\text{te}} ) 中被“接受（直接出报告）”的样本比例。
- ( |\mathcal{D}{\text{te}}| )：测试集 ( \mathcal{D}{\text{te}} ) 的样本数量。
- ( \mathbb{I}(|S(x)| = 1) )：示性函数，当样本 ( x ) 的预测集大小 ( |S(x)| = 1 ) 时，值为 ( 1 )，否则为 ( 0 )。
- ( x )：测试集 ( \mathcal{D}_{\text{te}} ) 中的样本。
LaTeX 代码：

latex

\text{Coverage} = \frac{1}{|\mathcal{D}_{\text{te}}|} \sum_{x \in \mathcal{D}_{\text{te}}} \mathbb{I}(|S(x)| = 1)

（7.2）选择性错误率（在被接受样本上）

公式内容：( \text{SelErr} = \Pr(\hat{y} \neq y \mid |S(x)| = 1) = \frac{\sum_{x: |S(x)| = 1} \mathbb{I}(\hat{y} \neq y)}{\sum_{x} \mathbb{I}(|S(x)| = 1)} )
变量说明：
- ( \text{SelErr} )：选择性错误率，即在被接受（( |S(x)| = 1 )）的样本上，预测标签 ( \hat{y} ) 与真实标签 ( y ) 不相等的概率。
- ( \Pr(\hat{y} \neq y \mid |S(x)| = 1) )：条件概率，表示在 ( |S(x)| = 1 ) 的条件下，( \hat{y} \neq y ) 的概率。
- ( \hat{y} )：模型对样本 ( x ) 的预测标签。
- ( y )：样本 ( x ) 的真实标签。
- ( \mathbb{I}(\hat{y} \neq y) )：示性函数，当 ( \hat{y} \neq y ) 时，值为 ( 1 )，否则为 ( 0 )。
LaTeX 代码：

latex

\text{SelErr} = \Pr(\hat{y} \neq y \mid |S(x)| = 1) = \frac{\sum_{x: |S(x)| = 1} \mathbb{I}(\hat{y} \neq y)}{\sum_{x} \mathbb{I}(|S(x)| = 1)}

（7.3）AUC（阈值无关评估）

公式内容：( \text{AUC} = \Pr\left( \hat{p}(x^+) > \hat{p}(x^-) \right) )
变量说明：
- ( \text{AUC} )：曲线下面积，衡量模型对正样本（( x^+ )）和负样本（( x^- )）的区分能力，即正样本预测概率大于负样本预测概率的概率。
- ( \hat{p}(x^+) )：模型对正样本 ( x^+ ) 的预测概率。
- ( \hat{p}(x^-) )：模型对负样本 ( x^- ) 的预测概率。
- ( \Pr\left( \hat{p}(x^+) > \hat{p}(x^-) \right) )：正样本预测概率大于负样本预测概率的概率。
LaTeX 代码：

latex

\text{AUC} = \Pr\left( \hat{p}(x^+) &gt; \hat{p}(x^-) \right)

（7.4）AP（阈值无关评估）

公式内容：( \text{AP} = \sum_{k} \text{Prec}@k \cdot \Delta \text{Rec}@k )
变量说明：
- ( \text{AP} )：平均精度，衡量在不同召回率下的平均精度，与拒判阈值解耦。
- ( \text{Prec}@k )：第 ( k ) 个位置的精度（ Precision）。
- ( \Delta \text{Rec}@k )：第 ( k ) 个位置召回率（ Recall）的增量。
- ( k )：排序位置索引。
LaTeX 代码：

latex

\text{AP} = \sum_{k} \text{Prec}@k \cdot \Delta \text{Rec}@k

（7.5）风险 - 覆盖曲线（参数 ( \alpha )）

公式内容：( \left( \text{Coverage}(\alpha), \text{SelErr} \downarrow \right), \quad q_{\alpha} = Q_{1 - \alpha}^{\text{higher}}({ s_i }) )
变量说明：
- ( \text{Coverage}(\alpha) )：对应参数 ( \alpha ) 下的选择性覆盖率。
- ( \text{SelErr} \downarrow )：随着 ( \alpha ) 等参数变化，选择性错误率下降。
- ( q_{\alpha} = Q_{1 - \alpha}^{\text{higher}}({ s_i }) )：“higher”分位阈值，由校准集非一致性分数集合 ( { s_i } ) 确定。
LaTeX 代码：

latex

\left( \text{Coverage}(\alpha), \text{SelErr} \downarrow \right), \quad q_{\alpha} = Q_{1 - \alpha}^{\text{higher}}(\{ s_i \})

S8 工作点选择与 SOP 映射相关

（8.1）以覆盖为硬约束最小化错误

公式内容：( \alpha^{\star} = \arg\min_{\alpha} \text{SelErr}(\alpha) \quad \text{s.t.} \ \text{Coverage}(\alpha) \geq \tau )
变量说明：
- ( \alpha^{\star} )：最优的参数 ( \alpha )。
- ( \arg\min_{\alpha} )：寻找使 ( \text{SelErr}(\alpha) ) 最小的 ( \alpha )。
- ( \text{SelErr}(\alpha) )：对应参数 ( \alpha ) 的选择性错误率。
- ( \text{Coverage}(\alpha) )：对应参数 ( \alpha ) 的选择性覆盖率。
- ( \tau )：覆盖阈值，作为硬约束要求覆盖率不低于 ( \tau )。
LaTeX 代码：

latex

\alpha^{\star} = \arg\min_{\alpha} \text{SelErr}(\alpha) \quad \text{s.t.} \ \text{Coverage}(\alpha) \geq \tau

（8.2）以错误为硬约束最大化覆盖

公式内容：( \alpha^{\star} = \arg\max_{\alpha} \text{Coverage}(\alpha) \quad \text{s.t.} \ \text{SelErr}(\alpha) \leq \varepsilon )
变量说明：
- ( \alpha^{\star} )：最优的参数 ( \alpha )。
- ( \arg\max_{\alpha} )：寻找使 ( \text{Coverage}(\alpha) ) 最大的 ( \alpha )。
- ( \text{Coverage}(\alpha) )：对应参数 ( \alpha ) 的选择性覆盖率。
- ( \text{SelErr}(\alpha) )：对应参数 ( \alpha ) 的选择性错误率。
- ( \varepsilon )：最大可接受错误，作为硬约束要求选择性错误率不超过 ( \varepsilon )。
LaTeX 代码：

latex

\alpha^{\star} = \arg\max_{\alpha} \text{Coverage}(\alpha) \quad \text{s.t.} \ \text{SelErr}(\alpha) \leq \varepsilon

1基础

2进阶

3工程

css

优化

廖雪峰教程

2历史背景

3快速入门

4函数

5标准对象

6对象

7浏览器

8错误处理

手写代码

现代JS教程与阮一峰ES6

0基础简介

1数据类型与变量

2函数

3错误处理

4原型与类

5特殊内建对象

6异步编程

7模块

1Describing the UI

2Adding Interactivity

3Managing Sate

4Escape Hatches

内置组件

组件库开发

DOM

事件

网络请求

课程知识

会议

申报

Vue

YOLO

第二题 ​

公式1：最早达标孕周 ( \text{EW}_j ) ​

公式2：学习集 ( \mathcal{D} ) ​

公式3：分裂候选集 ( L(t) ) 和 ( R(t) ) ​

公式4：叶结点内预测 ( \hat{\mu}(S) ) ​

公式5：平方误差代价 ( \text{SSE}(S) ) ​

公式6：最优分裂阈值 ( t^* ) ​

（5）阈值圆整与 BMI 区间构造相关 ​

公式1：阈值圆整 ​

公式2：BMI 分组区间 ​

（6）组内统计量与建议时点相关 ​

公式1：样本量 ( n_g ) ​

公式2：均值 ( \overline{\text{EW}}_g ) ​

公式3：中位数 ( \text{Med}_g ) ​

公式4：最小值 ( \min_g ) 和最大值 ( \max_g ) ​

公式5：( p )-分位数 ( Q_p(g) ) ​

公式6：建议首检时点 ( T_g^{(1)} ) 和建议复检时点 ( T_g^{(2)} ) ​

第三题 ​

数据预处理相关 ​

公式1：孕周统一（周 + 天转换） ​

公式2：同孕周汇总（取最大值） ​

公式3：事件时间（监督信号） ​

公式4：BMI 分箱（CART 最优阈值） ​

公式5：区间中点（人 - 区间构造） ​

生存森林相关 ​

公式1：区间危险度 ( \hat{h}_i(t) ) ​

公式2：递推个体生存 ( \hat{S}_i(t) ) 和累计达标 ( \hat{F}_i(t) ) ​

公式3：组内平均 ( \hat{F}_{\text{group}}(t) ) ​

机会约束优化相关 ​

公式：最早满足目标的孕周 ( t^*(p) ) ​

第四题 ​

S2 质控门（QC gate）相关 ​

（2.1）孕周窗口约束 ​

（2.2）质量稳健带（分位裁剪） ​

（2.3）质控门通过指示 ​

S3 特征装配与缺失填补相关 ​

（3.1）数值化与中位数填补 ​

S4 成本敏感 LightGBM（概率模型）相关 ​

（4.1）逻辑概率映射 ​

S4 成本敏感 LightGBM（概率模型）相关 ​

（4.1）逻辑概率映射 ​

（4.2）类别权重（阳性稀缺） ​

（4.3）加权交叉熵目标（带正则） ​

第二题

公式1：最早达标孕周 ( \text{EW}_j )

公式2：学习集 ( \mathcal{D} )

公式3：分裂候选集 ( L(t) ) 和 ( R(t) )

公式4：叶结点内预测 ( \hat{\mu}(S) )

公式5：平方误差代价 ( \text{SSE}(S) )

公式6：最优分裂阈值 ( t^* )

（5）阈值圆整与 BMI 区间构造相关

公式1：阈值圆整

公式2：BMI 分组区间

（6）组内统计量与建议时点相关

公式1：样本量 ( n_g )

公式2：均值 ( \overline{\text{EW}}_g )

公式3：中位数 ( \text{Med}_g )

公式4：最小值 ( \min_g ) 和最大值 ( \max_g )

公式5：( p )-分位数 ( Q_p(g) )

公式6：建议首检时点 ( T_g^{(1)} ) 和建议复检时点 ( T_g^{(2)} )

第三题

数据预处理相关

公式1：孕周统一（周 + 天转换）

公式2：同孕周汇总（取最大值）

公式3：事件时间（监督信号）

公式4：BMI 分箱（CART 最优阈值）

公式5：区间中点（人 - 区间构造）

生存森林相关

公式1：区间危险度 ( \hat{h}_i(t) )

公式2：递推个体生存 ( \hat{S}_i(t) ) 和累计达标 ( \hat{F}_i(t) )

公式3：组内平均 ( \hat{F}_{\text{group}}(t) )

机会约束优化相关

公式：最早满足目标的孕周 ( t^*(p) )

第四题

S2 质控门（QC gate）相关

（2.1）孕周窗口约束

（2.2）质量稳健带（分位裁剪）

（2.3）质控门通过指示

S3 特征装配与缺失填补相关

（3.1）数值化与中位数填补

S4 成本敏感 LightGBM（概率模型）相关

（4.1）逻辑概率映射

S4 成本敏感 LightGBM（概率模型）相关

（4.1）逻辑概率映射

（4.2）类别权重（阳性稀缺）

（4.3）加权交叉熵目标（带正则）

S5 概率校准（等温回归 Isotonic）相关

（5.1）单调校准映射

S6 分割式 Conformal 选择性/拒判相关

（6.1）校准集非一致性分数（二分类）

（6.2）“higher”分位阈值（有限样本保覆盖）

（6.3）候选标签的非一致性

（6.4）预测集与决策（预测集）

（6.5）预测集与决策（决策规则）

S7 选择性评价与风险 - 覆盖曲线相关

（7.1）选择性覆盖率（接受比例）

（7.2）选择性错误率（在被接受样本上）

（7.3）AUC（阈值无关评估）