下面把你这份“第一题:变量分布→相关性→Gamma 回归”脚本改写成论文/报告可用的方法描述,并逐段解释“为什么要这么做”。
研究目的与数据对象
目标:刻画男胎样本中 Y 染色体浓度(下称 Y 浓度)与若干候选影响因子(孕周、BMI、年龄、染色体 Z 值、测序质量指标等)的关系,完成从分布检验 → 相关结构 → 回归建模的分析闭环,输出可解释的统计证据与可视化结果。
对象与预处理
- 从原始表格读取男胎数据(以“Y 染色体浓度”非空作为男胎判据),并将“检测孕周”统一解析为浮点周(支持
16w+2 / 16+2 / 16周+2天 / 16.5等格式),仅保留 [10, 25] 周合法时窗内记录。 - 指定候选变量集合:母体特征(年龄、BMI)、检测孕周、染色体相关指标(X/Y/13/18/21 的 Z 值与 GC 含量)、测序质量(读段数、比对率、重复率、唯一比对读段、过滤比例等)。
为什么:
- 统一孕周刻度是时间相关分析的前提;限定 10–25 周避免窗口外的分布偏移。
- 候选变量覆盖母体因素、遗传信号与测序质量三类信息,基本囊括对 Y 浓度 可能的主导与混杂来源。
步骤一:变量分布与正态性检验
做法
- 对每个变量执行 Shapiro–Wilk 正态性检验(报告统计量 W 与 p 值)。
- 同时绘制**直方图 + 核密度曲线(KDE)**与 Q–Q 图,并给出均值、标准差、偏度与峰度等描述性统计;在图中对“是否近似正态”进行视觉与数理双重判断。
为什么先做正态检验:
- 选择合适的相关性度量与建模族:如果变量/残差明显偏离正态,直接使用皮尔逊相关或 OLS 线性回归的前提将受损。先检验分布,有助于后续决定采用皮尔逊 vs 斯皮尔曼相关、是否做变换/稳健回归,或直接转向**广义线性模型(GLM)**族。
- 识别重尾/偏态与异常值:偏度、峰度与 Q–Q 图能提示右偏/长尾与极端点,指导后续是否需要对数变换或更换误差分布。
- 保障可解释性:直方图/KDE 与 Q–Q 图把“统计检验结果”转化为可视证据,便于和临床/实验团队沟通。
步骤二:相关结构——相关系数矩阵与热力图
做法
- 基于清洗后的数据计算变量间的相关系数矩阵,并绘制热力图(带数值标注)。
- 重点关注各变量与 Y 浓度 的相关程度,以初步筛查线性相关或强共线(例如 GC、比对率、读段等质量指标之间)。
为什么把热力图放在正态检验之后:
相关系数(默认皮尔逊)本质上度量线性关系且受分布与异常值影响较大。先做分布与异常识别,能帮助:
- 判断“皮尔逊是否合适”,或是否需要补做斯皮尔曼(秩相关)以刻画单调但非线性的关联;
- 结合分布形态解释“为什么同样的相关数值在不同变量上可靠性不同”(如一侧重尾导致的虚高/虚低)。
热力图是变量缩减与多重共线预警的入口,为后续回归的变量选择与解释做准备。
步骤三:**Gamma 回归(GLM,log 链接)**建模 Y 浓度
做法
以 Y 浓度 为因变量(正且连续),分别用四个自变量(检测孕周、BMI、年龄、18 号染色体 Z 值)单变量地拟合 Gamma–Log GLM:
$$ \mathbb{E}(Y\mid X)=\mu,\quad \log\mu=\beta_0+\beta_1 X,\quad Y\sim\text{Gamma}(\mu,\phi) $$
输出每个模型的系数、p 值、显著性与回归诊断摘要;绘制散点 + Gamma 回归曲线以展示拟合趋势。
进一步计算“自变量 vs 该模型预测值”的斯皮尔曼相关,验证回归给出的单调性与排序一致性。
为什么选 Gamma 回归而不是 OLS/Poisson/Lognormal 等:
- 数据类型匹配:Y 浓度 为正值、右偏、方差随均值增大的连续量。Gamma 分布的均值–方差关系(Var ∝ μ²)正好匹配这类异方差、比例型数据特征。
- 非负与比例的自然约束:Gamma–log 保证 μ>0,不产生负预测,且 log 链接提供乘法效应解释(自变量每增加 1 单位,期望值按 $e^{\beta_1}$ 倍变化),对“比率/浓度”类对象更贴近生物学与测序过程。
- 比“log 变换 + OLS”更规范:对数变换后做 OLS 在误差分布/回到原尺度的偏差修正上往往不严谨;GLM 直接在原尺度下以合适的似然与连接函数建模,更易获得一致的估计与稳健的推断。
- 相对 Poisson/负二项:它们用于计数或离散非负整数,不适合连续浓度。
- 相对 Beta 回归:Beta 适合**(0,1)** 区间内的比例且靠近 0/1 时需特殊处理;本数据虽可视作比例,但更贴近正的连续测量且可能存在少量等于 0 的情形,Gamma–log 更稳妥。
- 诊断与可解释性:Gamma–log 的残差与 Brier/标定曲线(若做概率化)等指标能更好地反映均值–方差耦合下的拟合优劣;曲线可视化直观展示非线性单调趋势。
> 小结:Gamma–log = 正值 + 右偏 + 随均值增大的方差 + 乘法效应解释 —— 与 Y 浓度 的统计属性和机理假设高度吻合。
结果解读与报告建议
分布层:给出每个变量的 W 与 p 值、偏度/峰度,以及直方图+KDE与 Q–Q 图的要点解读(例如“孕周近似单峰右偏,偏度>0;Y 浓度显著右偏,Shapiro-Wilk p<0.05,不服从正态”)。
相关层:热力图中标注与 Y 浓度 相关性绝对值较高的变量,并指出质量指标间可能共线(为多元建模做准备)。必要时补充斯皮尔曼矩阵对比。
回归层:逐个自变量的 Gamma–log 拟合结果(系数、标准误、p 值、显著性),配合“散点+拟合曲线”图解释方向与强度(如“孕周系数显著为正,呈加速增长趋势”“BMI 为轻度负相关且显著性边缘”等——以你实际跑出的结果为准)。
稳健性与局限:
- 若发现严重异方差或极端点,记录在分布与残差图中,并说明对估计的潜在影响;
- 指出本步骤系单变量 GLM,后续可扩展为多变量 Gamma–log 或分层/混合效应模型(如按批次/平台随机截距)以处理批间差异与潜在混杂。
流程一图流(便于写在方法概览)
- 清洗与统一刻度(孕周解析为 10–25 的浮点周;筛掉缺失/异常)。
- 正态性与分布可视化(Shapiro–Wilk + 直方图/KDE + Q–Q)。
- 相关结构(相关矩阵 + 热力图;必要时补斯皮尔曼)。
- Gamma–log 回归(单变量,输出统计检验与拟合曲线)。
- 相关性与预测一致性(自变量与模型预测值的斯皮尔曼相关,检验单调性)。
一句话总结
先用正态性检验确保我们选择合适的相关度量与模型族,再用热力图把相关结构与多重共线直观看清,最后以Gamma–log 回归建模一个正值、右偏、异方差的浓度型因变量,从统计假设与生物学机理两端同时保证合理性、稳健性与可解释性。