Skip to content

第二题


公式1:最早达标孕周 ( \text{EW}_j )

  • 公式内容:以阈值 ( \tau ) 定义孕妇 ( j ) 的最早达标孕周,( \text{EW}_j = \min{ g: Y_j^{\max}(g) \geq \tau } );若不存在满足条件的 ( g ),则 ( \text{EW}_j ) 记为缺失并在后续分割样本中剔除。
  • 变量说明
    • ( \tau ):用于定义最早达标孕周的阈值。
    • ( j ):孕妇的索引。
    • ( g ):孕周相关变量。
    • ( Y_j^{\max}(g) ):孕妇 ( j ) 在孕周 ( g ) 时的某一指标(文中未明确,结合上下文推测与达标相关)的最大值。
    • ( \text{EW}_j ):孕妇 ( j ) 的最早达标孕周。
  • LaTeX 代码
latex
\text{EW}_j = \min\{ g: Y_j^{\max}(g) \geq \tau \}

公式2:学习集 ( \mathcal{D} )

  • 公式内容:学习集 ( \mathcal{D} = { (x_j, \text{EW}j) }^n )(剔除缺失后)。
  • 变量说明
    • ( \mathcal{D} ):学习集。
    • ( x_j ):孕妇 ( j ) 的 BMI 等特征变量。
    • ( \text{EW}_j ):孕妇 ( j ) 剔除缺失后的最早达标孕周。
    • ( n ):学习集中样本的数量。
  • LaTeX 代码
latex
\mathcal{D} = \{ (x_j, \text{EW}_j) \}_{j=1}^n

公式3:分裂候选集 ( L(t) ) 和 ( R(t) )

  • 公式内容:对任意阈值 ( t ),把数据分为 ( L(t) = { j: x_j < t } ) 和 ( R(t) = { j: x_j \geq t } )。
  • 变量说明
    • ( t ):用于分裂数据的阈值。
    • ( L(t) ):特征 ( x_j ) 小于阈值 ( t ) 的样本索引集合。
    • ( R(t) ):特征 ( x_j ) 大于等于阈值 ( t ) 的样本索引集合。
    • ( x_j ):孕妇 ( j ) 的特征变量(如 BMI)。
    • ( j ):样本索引。
  • LaTeX 代码
latex
L(t) = \{ j: x_j &lt; t \}, \quad R(t) = \{ j: x_j \geq t \}

公式4:叶结点内预测 ( \hat{\mu}(S) )

  • 公式内容:叶结点内预测为该叶的样本均值,( \hat{\mu}(S) = \frac{1}{|S|} \sum_{j \in S} \text{EW}_j )。
  • 变量说明
    • ( \hat{\mu}(S) ):叶结点 ( S ) 内的预测值。
    • ( S ):叶结点包含的样本索引集合。
    • ( |S| ):叶结点 ( S ) 内样本的数量。
    • ( \text{EW}_j ):样本 ( j ) 的最早达标孕周。
    • ( j ):样本索引。
  • LaTeX 代码
latex
\hat{\mu}(S) = \frac{1}{|S|} \sum_{j \in S} \text{EW}_j

公式5:平方误差代价 ( \text{SSE}(S) )

  • 公式内容:平方误差代价 ( \text{SSE}(S) = \sum_{j \in S} (\text{EW}_j - \hat{\mu}(S))^2 )。
  • 变量说明
    • ( \text{SSE}(S) ):叶结点 ( S ) 内的平方误差代价。
    • ( S ):叶结点包含的样本索引集合。
    • ( \text{EW}_j ):样本 ( j ) 的最早达标孕周。
    • ( \hat{\mu}(S) ):叶结点 ( S ) 内的预测值。
    • ( j ):样本索引。
  • LaTeX 代码
latex
\text{SSE}(S) = \sum_{j \in S} (\text{EW}_j - \hat{\mu}(S))^2

公式6:最优分裂阈值 ( t^* )

  • 公式内容:最优分裂阈值 ( t^* \in \arg\min_t \left[ \text{SSE}(L(t)) + \text{SSE}(R(t)) \right] ),递归执行直至达到“最大叶结点数”或继续分裂无法显著降低代价。
  • 变量说明
    • ( t^* ):最优的分裂阈值。
    • ( \arg\min_t ):使后面表达式取得最小值的 ( t ) 的集合。
    • ( \text{SSE}(L(t)) ):分裂后左子集 ( L(t) ) 的平方误差代价。
    • ( \text{SSE}(R(t)) ):分裂后右子集 ( R(t) ) 的平方误差代价。
    • ( t ):分裂阈值。
  • LaTeX 代码
latex
t^* \in \arg\min_t \left[ \text{SSE}(L(t)) + \text{SSE}(R(t)) \right]

(5)阈值圆整与 BMI 区间构造相关

公式1:阈值圆整

  • 公式内容:设从树中抽取的所有有效阈值集合为 ( \mathcal{C} = { c_1, \dots, c_K } )(升序),按固定步长 ( s )(代码中 ( s = 0.5 ))做“就近取整”并去重,( \tilde{c}_k = \text{round}\left( \frac{c_k}{s} \right) \cdot s ),并确保 ( \tilde{c}_1 < \tilde{c}_2 < \dots < \tilde{c}_K )。
  • 变量说明
    • ( \mathcal{C} ):从树中抽取的有效阈值集合。
    • ( c_k ):集合 ( \mathcal{C} ) 中的第 ( k ) 个阈值。
    • ( K ):阈值集合 ( \mathcal{C} ) 中元素的个数。
    • ( s ):固定步长,代码中为 ( 0.5 )。
    • ( \tilde{c}_k ):对 ( c_k ) 进行圆整后得到的阈值。
    • ( \text{round}(\cdot) ):取整函数,将括号内的值四舍五入取整。
  • LaTeX 代码
latex
\tilde{c}_k = \text{round}\left( \frac{c_k}{s} \right) \cdot s

并确保 ( \tilde{c}_1 < \tilde{c}_2 < \dots < \tilde{c}_K ),LaTeX 表示为:

latex
\tilde{c}_1 &lt; \tilde{c}_2 &lt; \dots &lt; \tilde{c}_K

公式2:BMI 分组区间

  • 公式内容:最终 BMI 分组为左闭右开区间 ( (-\infty, \tilde{c}_1), [\tilde{c}_1, \tilde{c}_2), \dots, [\tilde{c}_K, +\infty) )(与 ( \text{pd.cut}(..., \text{right=False}) ) 一致)。
  • 变量说明
    • ( \tilde{c}_k ):经过圆整后的阈值,用于划分 BMI 区间。
    • ( K ):阈值的个数,决定区间的数量。
  • LaTeX 代码
latex
(-\infty, \tilde{c}_1), [\tilde{c}_1, \tilde{c}_2), \dots, [\tilde{c}_K, +\infty)

(6)组内统计量与建议时点相关

公式1:样本量 ( n_g )

  • 公式内容:对任一 BMI 组 ( g ),样本量 ( n_g = |g| )。
  • 变量说明
    • ( g ):某一 BMI 组。
    • ( n_g ):BMI 组 ( g ) 内的样本量。
    • ( |g| ):表示集合 ( g ) 中元素的个数,即该组的样本数量。
  • LaTeX 代码
latex
n_g = |g|

公式2:均值 ( \overline{\text{EW}}_g )

  • 公式内容:均值 ( \overline{\text{EW}}g = \frac{1}{n_g} \sum{j \in g} \text{EW}_j )。
  • 变量说明
    • ( \overline{\text{EW}}_g ):BMI 组 ( g ) 内“最早达标孕周”的均值。
    • ( n_g ):BMI 组 ( g ) 内的样本量。
    • ( \text{EW}_j ):样本 ( j ) 的“最早达标孕周”。
    • ( j ):样本索引,( j \in g ) 表示样本 ( j ) 属于 BMI 组 ( g )。
  • LaTeX 代码
latex
\overline{\text{EW}}_g = \frac{1}{n_g} \sum_{j \in g} \text{EW}_j

公式3:中位数 ( \text{Med}_g )

  • 公式内容:中位数 ( \text{Med}g = \text{EW}{\left( \lceil n_g / 2 \rceil \right)} )。
  • 变量说明
    • ( \text{Med}_g ):BMI 组 ( g ) 内“最早达标孕周”的中位数。
    • ( \text{EW}_{\left( \lceil n_g / 2 \rceil \right)} ):将组内“最早达标孕周”排序后,位于第 ( \lceil n_g / 2 \rceil ) 位的数值,其中 ( \lceil \cdot \rceil ) 是向上取整函数。
    • ( n_g ):BMI 组 ( g ) 内的样本量。
  • LaTeX 代码
latex
\text{Med}_g = \text{EW}_{\left( \lceil n_g / 2 \rceil \right)}

公式4:最小值 ( \min_g ) 和最大值 ( \max_g )

  • 公式内容:最小值 ( \min_g = \text{EW}{(1)} ),最大值 ( \max_g = \text{EW} )。
  • 变量说明
    • ( \min_g ):BMI 组 ( g ) 内“最早达标孕周”的最小值。
    • ( \max_g ):BMI 组 ( g ) 内“最早达标孕周”的最大值。
    • ( \text{EW}_{(1)} ):组内“最早达标孕周”排序后第 1 位的数值(即最小值)。
    • ( \text{EW}_{(n_g)} ):组内“最早达标孕周”排序后第 ( n_g ) 位的数值(即最大值)。
    • ( n_g ):BMI 组 ( g ) 内的样本量。
  • LaTeX 代码
latex
\min_g = \text{EW}_{(1)}, \quad \max_g = \text{EW}_{(n_g)}

公式5:( p )-分位数 ( Q_p(g) )

  • 公式内容:( p )-分位数(经验分位)( Q_p(g) = \text{EW}_{\left( \lceil p \cdot n_g \rceil \right)} )(( p = 0.90, 0.95 ))。
  • 变量说明
    • ( Q_p(g) ):BMI 组 ( g ) 内“最早达标孕周”的 ( p )-分位数。
    • ( p ):分位数的比例,这里取 ( 0.90 ) 和 ( 0.95 )。
    • ( \text{EW}_{\left( \lceil p \cdot n_g \rceil \right)} ):将组内“最早达标孕周”排序后,位于第 ( \lceil p \cdot n_g \rceil ) 位的数值。
    • ( n_g ):BMI 组 ( g ) 内的样本量。
    • ( \lceil \cdot \rceil ):向上取整函数。
  • LaTeX 代码
latex
Q_p(g) = \text{EW}_{\left( \lceil p \cdot n_g \rceil \right)}

(( p = 0.90, 0.95 ) 可表示为 ( p \in { 0.90, 0.95 } ),LaTeX 为 ( p = 0.90,\ 0.95 ))

公式6:建议首检时点 ( T_g^{(1)} ) 和建议复检时点 ( T_g^{(2)} )

  • 公式内容:建议首检时点 ( T_g^{(1)} = Q_{0.90}(g) ),建议复检时点 ( T_g^{(2)} = Q_{0.95}(g) )。
  • 变量说明
    • ( T_g^{(1)} ):BMI 组 ( g ) 对应的建议首检时点。
    • ( T_g^{(2)} ):BMI 组 ( g ) 对应的建议复检时点。
    • ( Q_{0.90}(g) ):BMI 组 ( g ) 内“最早达标孕周”的 ( 0.90 )-分位数。
    • ( Q_{0.95}(g) ):BMI 组 ( g ) 内“最早达标孕周”的 ( 0.95 )-分位数。
  • LaTeX 代码
latex
T_g^{(1)} = Q_{0.90}(g)
latex
T_g^{(2)} = Q_{0.95}(g)

第三题


数据预处理相关

公式1:孕周统一(周 + 天转换)

  • 公式内容:若原始孕周为“周 + 天”,记为 ( GA = w + \frac{d}{7} );若为小数,直接取值;仅保留合理时窗 ([10, 25])。
  • 变量说明
    • ( GA ):统一后的孕周。
    • ( w ):原始孕周的“周”部分。
    • ( d ):原始孕周的“天”部分。
  • LaTeX 代码
latex
GA = w + \frac{d}{7}

公式2:同孕周汇总(取最大值)

  • 公式内容:对同一孕妇、同一孕周的多次检测,取 ( Y^{\max}(g) = \max Y )。
  • 变量说明
    • ( Y^{\max}(g) ):同一孕妇、孕周 ( g ) 下检测指标的最大值。
    • ( Y ):该孕妇、孕周 ( g ) 下的检测指标值。
    • ( g ):孕周。
  • LaTeX 代码
latex
Y^{\max}(g) = \max Y

公式3:事件时间(监督信号)

  • 公式内容:( \text{EW} = \min{ g: Y^{\max}(g) \geq \tau } )(( \tau = 4% ))。
  • 变量说明
    • ( \text{EW} ):事件时间(最早达标孕周)。
    • ( g ):孕周。
    • ( Y^{\max}(g) ):同一孕妇、孕周 ( g ) 下检测指标的最大值。
    • ( \tau ):阈值,这里为 ( 4% )。
  • LaTeX 代码
latex
\text{EW} = \min\{ g: Y^{\max}(g) \geq \tau \}

公式4:BMI 分箱(CART 最优阈值)

  • 公式内容:内部结点阈值 ( c^* ) 由最小化组内平方误差和得到,( c^* \in \arg\min_{c} \sum_{x < c} (\text{EW} - \overline{\text{EW}}L)^2 + \sum{x \geq c} (\text{EW} - \overline{\text{EW}}_R)^2 )。
  • 变量说明
    • ( c^* ):最优的内部结点阈值。
    • ( \arg\min_{c} ):使后面表达式取得最小值的 ( c ) 的集合。
    • ( \text{EW} ):事件时间(最早达标孕周)。
    • ( \overline{\text{EW}}_L ):阈值 ( c ) 左侧样本的 ( \text{EW} ) 均值。
    • ( \overline{\text{EW}}_R ):阈值 ( c ) 右侧样本的 ( \text{EW} ) 均值。
    • ( x ):样本的 BMI 等特征值。
  • LaTeX 代码
latex
c^* \in \arg\min_{c} \sum_{x &lt; c} (\text{EW} - \overline{\text{EW}}_L)^2 + \sum_{x \geq c} (\text{EW} - \overline{\text{EW}}_R)^2

公式5:区间中点(人 - 区间构造)

  • 公式内容:区间特征含 ( \text{interval_mid} = \frac{t_k + t_{k+1}}{2} )。
  • 变量说明
    • ( \text{interval_mid} ):相邻孕周点 ( [t_k, t_{k+1}) ) 区间的中点。
    • ( t_k )、( t_{k+1} ):相邻的孕周点。
  • LaTeX 代码
latex
\text{interval\_mid} = \frac{t_k + t_{k+1}}{2}

生存森林相关

公式1:区间危险度 ( \hat{h}_i(t) )

  • 公式内容:用随机森林分类器估计区间危险度 ( \hat{h}_i(t) = \Pr(\text{event} = 1 \mid \text{features at } t) ),并用等距网格 ( t = 10, 10.2, \dots, 25 ) 逐点预测。
  • 变量说明
    • ( \hat{h}_i(t) ):第 ( i ) 个样本在孕周 ( t ) 时的区间危险度估计值。
    • ( \Pr(\text{event} = 1 \mid \text{features at } t) ):在孕周 ( t ) 时特征下,事件(首次达标发生在右端点)发生的概率。
    • ( t ):孕周,取值为等距网格 ( 10, 10.2, \dots, 25 )。
    • ( i ):样本索引。
  • LaTeX 代码
latex
\hat{h}_i(t) = \Pr(\text{event} = 1 \mid \text{features at } t)

公式2:递推个体生存 ( \hat{S}_i(t) ) 和累计达标 ( \hat{F}_i(t) )

  • 公式内容:( \hat{S}i(t) = \prod{u \leq t} (1 - \hat{h}_i(u)) ),( \hat{F}_i(t) = 1 - \hat{S}_i(t) )。
  • 变量说明
    • ( \hat{S}_i(t) ):第 ( i ) 个样本在孕周 ( t ) 时的生存函数估计值(未达标概率)。
    • ( \hat{F}_i(t) ):第 ( i ) 个样本在孕周 ( t ) 时的累计达标函数估计值(达标概率)。
    • ( \hat{h}_i(u) ):第 ( i ) 个样本在孕周 ( u ) 时的区间危险度估计值。
    • ( u ):孕周,( u \leq t )。
    • ( t ):孕周。
    • ( i ):样本索引。
  • LaTeX 代码
latex
\hat{S}_i(t) = \prod_{u \leq t} (1 - \hat{h}_i(u))
latex
\hat{F}_i(t) = 1 - \hat{S}_i(t)

公式3:组内平均 ( \hat{F}_{\text{group}}(t) )

  • 公式内容:( \hat{F}{\text{group}}(t) = \frac{1}{|G|} \sum{i \in G} \hat{F}_i(t) )。
  • 变量说明
    • ( \hat{F}_{\text{group}}(t) ):某一组在孕周 ( t ) 时的累计达标函数组内平均值。
    • ( |G| ):组 ( G ) 内样本的数量。
    • ( \hat{F}_i(t) ):组 ( G ) 内第 ( i ) 个样本在孕周 ( t ) 时的累计达标函数估计值。
    • ( i ):样本索引,( i \in G ) 表示样本 ( i ) 属于组 ( G )。
    • ( t ):孕周。
  • LaTeX 代码
latex
\hat{F}_{\text{group}}(t) = \frac{1}{|G|} \sum_{i \in G} \hat{F}_i(t)

机会约束优化相关

公式:最早满足目标的孕周 ( t^*(p) )

  • 公式内容:对给定目标 ( p \in { 0.90, 0.95 } ),求最早满足的孕周 ( t^*(p) = \min{ t \in [10, 25] : \hat{F}_{\text{group}}(t) \geq p } )。
  • 变量说明
    • ( t^*(p) ):满足累计达标概率至少为 ( p ) 的最早孕周。
    • ( p ):目标累计达标概率,取 ( 0.90 ) 或 ( 0.95 )。
    • ( \hat{F}_{\text{group}}(t) ):某一组在孕周 ( t ) 时的累计达标函数组内平均值。
    • ( t ):孕周,范围为 ( [10, 25] )。
  • LaTeX 代码
latex
t^*(p) = \min\{ t \in [10, 25] : \hat{F}_{\text{group}}(t) \geq p \}

第四题


S2 质控门(QC gate)相关

(2.1)孕周窗口约束

  • 公式内容:( \mathbb{I}_{\text{week}}(i) = \mathbb{I}{ 10 \leq GA_i \leq 25 } )
  • 变量说明
    • ( \mathbb{I}_{\text{week}}(i) ):指示函数,当样本 ( i ) 的孕周 ( GA_i ) 在 ([10, 25]) 范围内时,值为 ( 1 ),否则为 ( 0 )。
    • ( GA_i ):样本 ( i ) 的孕周。
    • ( \mathbb{I}{\cdot} ):示性函数,括号内条件满足时取 ( 1 ),不满足时取 ( 0 )。
  • LaTeX 代码
latex
\mathbb{I}_{\text{week}}(i) = \mathbb{I}\{ 10 \leq GA_i \leq 25 \}

(2.2)质量稳健带(分位裁剪)

  • 公式内容:( \mathbb{I}{\text{qc}}(i) = \prod{m \in \mathcal{M}} \mathbb{I}\left{ q_L^{(m)} \leq x_i^{(m)} \leq q_U^{(m)} \right} )
  • 变量说明
    • ( \mathbb{I}_{\text{qc}}(i) ):指示函数,当样本 ( i ) 的所有特征 ( x_i^{(m)} )(( m \in \mathcal{M} ))都在对应分位区间 ([q_L^{(m)}, q_U^{(m)}]) 内时,值为 ( 1 ),否则为 ( 0 )。
    • ( \mathcal{M} ):特征的索引集合。
    • ( x_i^{(m)} ):样本 ( i ) 的第 ( m ) 个特征。
    • ( q_L^{(m)} ):第 ( m ) 个特征的下分位数。
    • ( q_U^{(m)} ):第 ( m ) 个特征的上分位数。
    • ( \mathbb{I}{\cdot} ):示性函数。
  • LaTeX 代码
latex
\mathbb{I}_{\text{qc}}(i) = \prod_{m \in \mathcal{M}} \mathbb{I}\left\{ q_L^{(m)} \leq x_i^{(m)} \leq q_U^{(m)} \right\}

(2.3)质控门通过指示

  • 公式内容:( \mathbb{I}{\text{pass}}(i) = \mathbb{I}{\text{week}}(i) \cdot \mathbb{I}_{\text{qc}}(i) )
  • 变量说明
    • ( \mathbb{I}_{\text{pass}}(i) ):指示函数,当样本 ( i ) 同时满足孕周窗口约束和质量稳健带约束时,值为 ( 1 )(即通过质控门),否则为 ( 0 )。
    • ( \mathbb{I}_{\text{week}}(i) ):孕周窗口约束的指示函数。
    • ( \mathbb{I}_{\text{qc}}(i) ):质量稳健带约束的指示函数。
  • LaTeX 代码
latex
\mathbb{I}_{\text{pass}}(i) = \mathbb{I}_{\text{week}}(i) \cdot \mathbb{I}_{\text{qc}}(i)

S3 特征装配与缺失填补相关

(3.1)数值化与中位数填补

  • 公式内容:( \tilde{x}{ij} = \begin{cases} x, & x_{ij} \text{ 非缺失} \ \text{median}{ x_{\ell j}: \mathbb{I}_{\text{pass}}(\ell) = 1 }, & \text{否则} \end{cases} )
  • 变量说明
    • ( \tilde{x}_{ij} ):填补后样本 ( i ) 的第 ( j ) 个特征值。
    • ( x_{ij} ):样本 ( i ) 第 ( j ) 个特征的原始值。
    • ( \text{median}{\cdot} ):取中位数函数,这里取通过质控门(( \mathbb{I}_{\text{pass}}(\ell) = 1 ))的样本 ( \ell ) 第 ( j ) 个特征的中位数。
    • ( \ell ):样本索引。
    • ( \mathbb{I}_{\text{pass}}(\ell) ):样本 ( \ell ) 质控门通过的指示函数。
  • LaTeX 代码
latex
\tilde{x}_{ij} = \begin{cases} x_{ij}, & x_{ij} \text{ 非缺失} \\ \text{median}\{ x_{\ell j}: \mathbb{I}_{\text{pass}}(\ell) = 1 \}, & \text{否则} \end{cases}

S4 成本敏感 LightGBM(概率模型)相关

(4.1)逻辑概率映射

  • 公式内容:( \hat{p}{\theta}(x) = \sigma(f{\theta}(x)) = \frac{1}{1 + e^{-f_{\theta}(x)}} )
  • 变量说明
    • ( \hat{p}_{\theta}(x) ):模型对样本 ( x ) 的预测概率。
    • ( \sigma(\cdot) ):Sigmoid 函数,用于将模型输出 ( f_{\theta}(x) ) 映射到 ((0, 1)) 区间,代表概率。
    • ( f_{\theta}(x) ):LightGBM 模型的输出(未经过 Sigmoid 变换)。
    • ( \theta ):模型参数。
    • ( x ):输入样本。
  • LaTeX 代码
latex
\hat{p}_{\theta}(x) = \sigma(f_{\theta}(x)) = \frac{1}{1 + e^{-f_{\theta}(x)}}

S4 成本敏感 LightGBM(概率模型)相关

(4.1)逻辑概率映射

  • 公式内容:( \hat{p}{\theta}(x) = \sigma(f{\theta}(x)) = \frac{1}{1 + e^{-f_{\theta}(x)}} )
  • 变量说明
    • ( \hat{p}_{\theta}(x) ):模型对样本 ( x ) 的预测异常概率。
    • ( \sigma(\cdot) ):Sigmoid 函数,将梯度提升树的加性打分 ( f_{\theta}(x) ) 映射到 ((0, 1)) 区间表示概率。
    • ( f_{\theta}(x) ):LightGBM 模型的加性输出打分。
    • ( \theta ):模型参数。
    • ( x ):输入样本。
  • LaTeX 代码
latex
\hat{p}_{\theta}(x) = \sigma(f_{\theta}(x)) = \frac{1}{1 + e^{-f_{\theta}(x)}}

(4.2)类别权重(阳性稀缺)

  • 公式内容:( w_1 = \frac{N_0}{\max(1, N_1)}, \quad w_0 = 1 )
  • 变量说明
    • ( w_1 ):阳性类别(类别 ( 1 ))的权重。
    • ( w_0 ):阴性类别(类别 ( 0 ))的权重(固定为 ( 1 ))。
    • ( N_0 ):阴性类别(类别 ( 0 ))的训练样本数。
    • ( N_1 ):阳性类别(类别 ( 1 ))的训练样本数。
    • ( \max(1, N_1) ):取 ( 1 ) 和 ( N_1 ) 中的较大值,避免分母过小。
  • LaTeX 代码
latex
w_1 = \frac{N_0}{\max(1, N_1)}, \quad w_0 = 1

(4.3)加权交叉熵目标(带正则)

  • 公式内容:( \min_{\theta} \sum_{(x_i, y_i) \in \mathcal{D}{\text{tr}}} w \left[ - y_i \log \hat{p}{\theta}(x_i) - (1 - y_i) \log \left( 1 - \hat{p}{\theta}(x_i) \right) \right] + \lambda |\theta|_2^2 )
  • 变量说明
    • ( \theta ):模型参数,需最小化目标函数来学习。
    • ( \mathcal{D}_{\text{tr}} ):训练数据集。
    • ( (x_i, y_i) ):训练集中的样本(特征 ( x_i ),标签 ( y_i ))。
    • ( w_{y_i} ):根据样本标签 ( y_i ) 确定的类别权重(( y_i = 1 ) 时为 ( w_1 ),( y_i = 0 ) 时为 ( w_0 ))。
    • ( \hat{p}_{\theta}(x_i) ):模型对样本 ( x_i ) 的预测概率。
    • ( \lambda ):正则化系数,控制模型复杂度,避免过拟合。
    • ( |\theta|_2^2 ):模型参数 ( \theta ) 的 ( L_2 ) 范数的平方,起正则化作用。
  • LaTeX 代码
latex
\min_{\theta} \sum_{(x_i, y_i) \in \mathcal{D}_{\text{tr}}} w_{y_i} \left[ - y_i \log \hat{p}_{\theta}(x_i) - (1 - y_i) \log \left( 1 - \hat{p}_{\theta}(x_i) \right) \right] + \lambda \|\theta\|_2^2

S5 概率校准(等温回归 Isotonic)相关

(5.1)单调校准映射

  • 公式内容:( \hat{p}(x) = g(\hat{p}{\text{raw}}(x)), \quad g = \arg\min{g \text{ 单调非降}} \sum_{(x_i, y_i) \in \mathcal{D}{\text{cal}}} \left( g(\hat{p}{\text{raw}}(x_i)) - y_i \right)^2 )
  • 变量说明
    • ( \hat{p}(x) ):校准后样本 ( x ) 的预测概率。
    • ( g(\cdot) ):单调非降的校准映射函数,通过最小化校准数据集上的平方误差学习得到。
    • ( \hat{p}_{\text{raw}}(x) ):模型原始的未校准预测概率。
    • ( \arg\min_{g \text{ 单调非降}} ):寻找满足“单调非降”约束的函数 ( g ),使后面的平方误差和最小。
    • ( \mathcal{D}_{\text{cal}} ):校准数据集。
    • ( (x_i, y_i) ):校准集中的样本(特征 ( x_i ),标签 ( y_i ))。
  • LaTeX 代码
latex
\hat{p}(x) = g(\hat{p}_{\text{raw}}(x)), \quad g = \arg\min_{g \text{ 单调非降}} \sum_{(x_i, y_i) \in \mathcal{D}_{\text{cal}}} \left( g(\hat{p}_{\text{raw}}(x_i)) - y_i \right)^2

S6 分割式 Conformal 选择性/拒判相关

(6.1)校准集非一致性分数(二分类)

  • 公式内容:( s_i = 1 - \left[ y_i \hat{p}_i + (1 - y_i)(1 - \hat{p}_i) \right] = \min{\hat{p}_i, 1 - \hat{p}_i} )(其中 ( \hat{p}_i = \hat{p}(x_i) ))
  • 变量说明
    • ( s_i ):校准集样本 ( i ) 的非一致性分数。
    • ( y_i ):校准集样本 ( i ) 的真实标签(二分类,取值 ( 0 ) 或 ( 1 ))。
    • ( \hat{p}_i ):模型对校准集样本 ( i ) 的预测概率,( \hat{p}(x_i) ) 表示模型对样本 ( x_i ) 的预测概率。
  • LaTeX 代码
latex
s_i = 1 - \left[ y_i \hat{p}_i + (1 - y_i)(1 - \hat{p}_i) \right] = \min\{\hat{p}_i, 1 - \hat{p}_i\}

(6.2)“higher”分位阈值(有限样本保覆盖)

  • 公式内容:( q_{\alpha} = Q_{1 - \alpha}^{\text{higher}}({ s_i }{\mathcal{D}{\text{cal}}}) )
  • 变量说明
    • ( q_{\alpha} ):“higher”分位阈值,用于后续预测集的确定。
    • ( Q_{1 - \alpha}^{\text{higher}}(\cdot) ):取集合中第 ( (1 - \alpha) ) 分位的“higher”分位数函数。
    • ( { s_i }{\mathcal{D}{\text{cal}}} ):校准集 ( \mathcal{D}_{\text{cal}} ) 中所有样本的非一致性分数集合。
  • LaTeX 代码
latex
q_{\alpha} = Q_{1 - \alpha}^{\text{higher}}(\{ s_i \}_{\mathcal{D}_{\text{cal}}})

(6.3)候选标签的非一致性

  • 公式内容:( s_1(x) = 1 - \hat{p}(x), \quad s_0(x) = \hat{p}(x) )
  • 变量说明
    • ( s_1(x) ):候选标签为 ( 1 ) 时的非一致性分数。
    • ( s_0(x) ):候选标签为 ( 0 ) 时的非一致性分数。
    • ( \hat{p}(x) ):模型对样本 ( x ) 的预测概率。
  • LaTeX 代码
latex
s_1(x) = 1 - \hat{p}(x), \quad s_0(x) = \hat{p}(x)

(6.4)预测集与决策(预测集)

  • 公式内容:( S(x) = { y \in {0, 1} : s_y(x) \leq q_{\alpha} } )
  • 变量说明
    • ( S(x) ):样本 ( x ) 的预测集,包含满足非一致性分数不超过阈值 ( q_{\alpha} ) 的候选标签。
    • ( y ):候选标签(取值 ( 0 ) 或 ( 1 ))。
    • ( s_y(x) ):候选标签 ( y ) 对应的非一致性分数。
    • ( q_{\alpha} ):“higher”分位阈值。
  • LaTeX 代码
latex
S(x) = \{ y \in \{0, 1\} : s_y(x) \leq q_{\alpha} \}

(6.5)预测集与决策(决策规则)

  • 公式内容:( |S(x)| = \begin{cases} 1, & \text{接受(直接出报告)} \ 0 \text{ 或 } 2, & \text{拒判(建议复检)} \end{cases} )
  • 变量说明
    • ( |S(x)| ):预测集 ( S(x) ) 的大小(元素个数)。
    • “接受(直接出报告)”:当预测集大小为 ( 1 ) 时,给出确定类别,直接出报告。
    • “拒判(建议复检)”:当预测集大小为 ( 0 ) 或 ( 2 ) 时,拒绝判定,建议复检。
  • LaTeX 代码
latex
|S(x)| = \begin{cases} 1, & \text{接受(直接出报告)} \\ 0 \text{ 或 } 2, & \text{拒判(建议复检)} \end{cases}

S7 选择性评价与风险 - 覆盖曲线相关

(7.1)选择性覆盖率(接受比例)

  • 公式内容:( \text{Coverage} = \frac{1}{|\mathcal{D}{\text{te}}|} \sum{x \in \mathcal{D}_{\text{te}}} \mathbb{I}(|S(x)| = 1) )
  • 变量说明
    • ( \text{Coverage} ):选择性覆盖率,即测试集 ( \mathcal{D}_{\text{te}} ) 中被“接受(直接出报告)”的样本比例。
    • ( |\mathcal{D}{\text{te}}| ):测试集 ( \mathcal{D}{\text{te}} ) 的样本数量。
    • ( \mathbb{I}(|S(x)| = 1) ):示性函数,当样本 ( x ) 的预测集大小 ( |S(x)| = 1 ) 时,值为 ( 1 ),否则为 ( 0 )。
    • ( x ):测试集 ( \mathcal{D}_{\text{te}} ) 中的样本。
  • LaTeX 代码
latex
\text{Coverage} = \frac{1}{|\mathcal{D}_{\text{te}}|} \sum_{x \in \mathcal{D}_{\text{te}}} \mathbb{I}(|S(x)| = 1)

(7.2)选择性错误率(在被接受样本上)

  • 公式内容:( \text{SelErr} = \Pr(\hat{y} \neq y \mid |S(x)| = 1) = \frac{\sum_{x: |S(x)| = 1} \mathbb{I}(\hat{y} \neq y)}{\sum_{x} \mathbb{I}(|S(x)| = 1)} )
  • 变量说明
    • ( \text{SelErr} ):选择性错误率,即在被接受(( |S(x)| = 1 ))的样本上,预测标签 ( \hat{y} ) 与真实标签 ( y ) 不相等的概率。
    • ( \Pr(\hat{y} \neq y \mid |S(x)| = 1) ):条件概率,表示在 ( |S(x)| = 1 ) 的条件下,( \hat{y} \neq y ) 的概率。
    • ( \hat{y} ):模型对样本 ( x ) 的预测标签。
    • ( y ):样本 ( x ) 的真实标签。
    • ( \mathbb{I}(\hat{y} \neq y) ):示性函数,当 ( \hat{y} \neq y ) 时,值为 ( 1 ),否则为 ( 0 )。
  • LaTeX 代码
latex
\text{SelErr} = \Pr(\hat{y} \neq y \mid |S(x)| = 1) = \frac{\sum_{x: |S(x)| = 1} \mathbb{I}(\hat{y} \neq y)}{\sum_{x} \mathbb{I}(|S(x)| = 1)}

(7.3)AUC(阈值无关评估)

  • 公式内容:( \text{AUC} = \Pr\left( \hat{p}(x^+) > \hat{p}(x^-) \right) )
  • 变量说明
    • ( \text{AUC} ):曲线下面积,衡量模型对正样本(( x^+ ))和负样本(( x^- ))的区分能力,即正样本预测概率大于负样本预测概率的概率。
    • ( \hat{p}(x^+) ):模型对正样本 ( x^+ ) 的预测概率。
    • ( \hat{p}(x^-) ):模型对负样本 ( x^- ) 的预测概率。
    • ( \Pr\left( \hat{p}(x^+) > \hat{p}(x^-) \right) ):正样本预测概率大于负样本预测概率的概率。
  • LaTeX 代码
latex
\text{AUC} = \Pr\left( \hat{p}(x^+) &gt; \hat{p}(x^-) \right)

(7.4)AP(阈值无关评估)

  • 公式内容:( \text{AP} = \sum_{k} \text{Prec}@k \cdot \Delta \text{Rec}@k )
  • 变量说明
    • ( \text{AP} ):平均精度,衡量在不同召回率下的平均精度,与拒判阈值解耦。
    • ( \text{Prec}@k ):第 ( k ) 个位置的精度( Precision)。
    • ( \Delta \text{Rec}@k ):第 ( k ) 个位置召回率( Recall)的增量。
    • ( k ):排序位置索引。
  • LaTeX 代码
latex
\text{AP} = \sum_{k} \text{Prec}@k \cdot \Delta \text{Rec}@k

(7.5)风险 - 覆盖曲线(参数 ( \alpha ))

  • 公式内容:( \left( \text{Coverage}(\alpha), \text{SelErr} \downarrow \right), \quad q_{\alpha} = Q_{1 - \alpha}^{\text{higher}}({ s_i }) )
  • 变量说明
    • ( \text{Coverage}(\alpha) ):对应参数 ( \alpha ) 下的选择性覆盖率。
    • ( \text{SelErr} \downarrow ):随着 ( \alpha ) 等参数变化,选择性错误率下降。
    • ( q_{\alpha} = Q_{1 - \alpha}^{\text{higher}}({ s_i }) ):“higher”分位阈值,由校准集非一致性分数集合 ( { s_i } ) 确定。
  • LaTeX 代码
latex
\left( \text{Coverage}(\alpha), \text{SelErr} \downarrow \right), \quad q_{\alpha} = Q_{1 - \alpha}^{\text{higher}}(\{ s_i \})

S8 工作点选择与 SOP 映射相关

(8.1)以覆盖为硬约束最小化错误

  • 公式内容:( \alpha^{\star} = \arg\min_{\alpha} \text{SelErr}(\alpha) \quad \text{s.t.} \ \text{Coverage}(\alpha) \geq \tau )
  • 变量说明
    • ( \alpha^{\star} ):最优的参数 ( \alpha )。
    • ( \arg\min_{\alpha} ):寻找使 ( \text{SelErr}(\alpha) ) 最小的 ( \alpha )。
    • ( \text{SelErr}(\alpha) ):对应参数 ( \alpha ) 的选择性错误率。
    • ( \text{Coverage}(\alpha) ):对应参数 ( \alpha ) 的选择性覆盖率。
    • ( \tau ):覆盖阈值,作为硬约束要求覆盖率不低于 ( \tau )。
  • LaTeX 代码
latex
\alpha^{\star} = \arg\min_{\alpha} \text{SelErr}(\alpha) \quad \text{s.t.} \ \text{Coverage}(\alpha) \geq \tau

(8.2)以错误为硬约束最大化覆盖

  • 公式内容:( \alpha^{\star} = \arg\max_{\alpha} \text{Coverage}(\alpha) \quad \text{s.t.} \ \text{SelErr}(\alpha) \leq \varepsilon )
  • 变量说明
    • ( \alpha^{\star} ):最优的参数 ( \alpha )。
    • ( \arg\max_{\alpha} ):寻找使 ( \text{Coverage}(\alpha) ) 最大的 ( \alpha )。
    • ( \text{Coverage}(\alpha) ):对应参数 ( \alpha ) 的选择性覆盖率。
    • ( \text{SelErr}(\alpha) ):对应参数 ( \alpha ) 的选择性错误率。
    • ( \varepsilon ):最大可接受错误,作为硬约束要求选择性错误率不超过 ( \varepsilon )。
  • LaTeX 代码
latex
\alpha^{\star} = \arg\max_{\alpha} \text{Coverage}(\alpha) \quad \text{s.t.} \ \text{SelErr}(\alpha) \leq \varepsilon