四参数非线形回归

典型四参数Logistic拟合（4PL, Four-Parameter Logistic）里的“四个参数”是什么。

这是生物分析（ELISA、ADA、PK桥式法）里最常用的非线性回归模型。

一、4PL标准公式

最常见形式是：

其中四个参数分别是：

A、B、C、D

二、四个参数分别代表什么？

① A —— 上平台（Top, Upper Asymptote）

当浓度趋近于 0 时，理论最大信号。

在 ELISA 里通常是：

👉 最高 OD

👉 或最大响应值

② D —— 下平台（Bottom, Lower Asymptote）

当浓度趋近于无穷大时的最小信号。

在 ELISA 里通常是：

👉 背景信号

👉 接近 blank OD

③ C —— EC50（拐点，半最大效应浓度）

这是核心参数。

定义：

当响应值位于 (A + D)/2 时对应的浓度。

也就是说：

产生一半最大信号的浓度。

这就是：

👉 EC50

👉 或 IC50（抑制曲线）

在 log 坐标下它是曲线的中心点。

④ B —— Hill slope（曲线斜率）

决定曲线陡峭程度。

B 大 → 曲线陡
B 小 → 曲线平缓

在免疫分析里通常接近 1

但不一定等于 1

三、图形直观理解

想象一个 S 型曲线：

上端平台 = A

下端平台 = D

中间拐点 = C

斜率陡峭程度 = B

四、为什么用4PL而不是线性？

因为免疫反应本质是：

抗原-抗体结合动力学
饱和效应

浓度和信号不是线性关系：

低浓度区 → 信号缓慢上升

中间区 → 快速上升

高浓度区 → 平台

典型 Sigmoid 曲线。

五、在ADA方法里EC50有什么用？

在 ADA validation 里：

EC50 常用于：

评价曲线一致性
评估 assay robustness
比较不同 run 的曲线平移

但在 screening assay 里：

最终判断通常用 S/N 或 cut point

而不是用 4PL 反推浓度。

六、再补充一个进阶点

有时会看到：

5PL（五参数模型）

它在4PL基础上加一个：

E —— 非对称参数

用于处理曲线左右不对称的情况。

七、总结一句话

四参数是：

A：上平台

D：下平台

C：EC50（半最大浓度）

B：Hill slope（斜率）

公式：

数据分析中的”曲线拟合“和”统计检验“

EC50

曲线拟合（性能表征）	统计比较（检验）
比如： “我开发了一支检测抗体，我想知道它 bind antigen 的能力怎么样。” 你做： binding ELISA serial dilution 4PL fit 得到 EC50 这里： EC50 是一个“拟合得到的性能参数”。本质是： assay characterization / antibody characterization。这里通常：不需要正态分布不需要 Shapiro-Wilk 不需要 t-test 因为你只是： “用曲线描述这个抗体”。就像：测 Tm 测 SPR KD 测酶活曲线属于： parameter estimation。	比如：你有： WT antibody： 3 次独立实验 EC50： 1.1 0.9 1.0 Mutant antibody： 8 10 12 现在你想证明： “Mutant binding 显著变差”。这里：你开始比较“组间差异”。才进入： inferential statistics。这里： t-test ANOVA Mann-Whitney 才会涉及：正态分布。因为你现在分析的是： “多个独立 replicate 的参数分布”。不是原始 ELISA 曲线。

曲线拟合（性能表征）

统计比较（检验）

比如： “我开发了一支检测抗体，我想知道它 bind antigen 的能力怎么样。” 你做： binding ELISA serial dilution 4PL fit 得到 EC50 这里： EC50 是一个“拟合得到的性能参数”。本质是： assay characterization / antibody characterization。这里通常：不需要正态分布不需要 Shapiro-Wilk 不需要 t-test 因为你只是： “用曲线描述这个抗体”。就像：测 Tm 测 SPR KD 测酶活曲线属于： parameter estimation。

比如：你有： WT antibody： 3 次独立实验 EC50： 1.1 0.9 1.0 Mutant antibody： 8 10 12 现在你想证明： “Mutant binding 显著变差”。这里：你开始比较“组间差异”。才进入： inferential statistics。这里： t-test ANOVA Mann-Whitney 才会涉及：正态分布。因为你现在分析的是： “多个独立 replicate 的参数分布”。不是原始 ELISA 曲线。

为什么parametric 的分析方法要求数据呈正态分布?

这是一个很核心的统计学问题。简单来说，参数检验的核心是通过样本的统计数据（比如均值和标准差）来推断总体的特征，而这个过程依赖于数据分布符合某种特定假设（通常是正态分布）。

如果不满足这个假设，用参数检验得出的结论（如P值、置信区间）可能就不准确了。可以从以下几个关键点来理解：

1. 参数检验的公式建立在正态分布之上

以最常用的t检验为例，它的核心公式是计算t统计量。这个公式背后有一个重要假设：样本均值的抽样分布是正态分布。

无论原始数据长什么样，根据统计学中的中心极限定理，当样本量足够大时，样本均值的分布都会接近正态分布。

但是，如果原始数据严重偏离正态（比如严重偏态、有极端异常值），就需要很大的样本量才能让中心极限定理“生效”。

在样本量不大的情况下（这在生物医学实验中很常见），如果原始数据不服从正态分布，那么样本均值的分布也会偏离正态。此时，继续用基于正态分布理论的t检验公式来计算P值，得到的P值就可能偏大或偏小，导致错误地认为有效果（假阳性）或漏掉真实效果（假阴性）。

2. 最小二乘法与误差项的正态性要求

像方差分析（ANOVA）和线性回归这类参数方法，用的是最小二乘法来估计参数。最小二乘法本身不要求原始数据是正态的，但它对残差有要求。

可以把模型理解为：数据 = 预测值 + 残差。其中，残差就是模型无法解释的随机误差。参数检验要求这些残差服从正态分布，主要原因是：

显著性检验的基础：F检验和t检验都假设误差项服从正态分布。如果残差严重偏离正态，F检验和t检验的结果就会失真。

最佳的线性无偏估计：在高斯-马尔可夫定理中，如果残差满足“独立、同方差”但不满足正态性，最小二乘法估计出的参数虽然不是“最佳”的（因为最大似然估计可能更优），但仍然是线性和无偏的。不过，一旦要进行假设检验（计算P值）或构建置信区间，就必须依赖正态性假设，否则区间估计就不准确了。

3. 标准差在非正态数据中的意义会打折扣

参数检验广泛使用均值和标准差来描述数据。但这两个指标在非正态数据中并不能很好地代表数据特征：

均值：在偏态分布中，均值容易受到极端值的影响，不能很好地代表“典型情况”。

标准差：同样会受极端值影响，而且在非钟形曲线下，“均值 ± 标准差”这个范围所包含的数据比例并不固定，没有像正态分布那样的68-95-99.7规律。

如果强行用均值和标准差来描述一个偏态分布，并进行参数检验，就像是试图用直线去拟合一条曲线，拟合效果可能不理想。

4. 检验功效与犯错误的概率

参数检验的一大优势是，在满足条件时，它的检验功效比非参数检验更高。也就是说，当数据确实存在差异时，参数检验更容易发现这种差异。

但如果不满足正态分布假设，这个优势就不存在了，甚至可能产生反效果：

增大假阴性风险：如果数据是厚尾分布，参数检验会低估方差，导致置信区间过窄，更容易错误地拒绝原假设（假阳性）。

增大假阳性风险：如果数据是偏态分布，样本均值可能不再代表分布的中心，检验结果可能严重偏离真实情况。

总结

要求数据呈正态分布，并不是为了满足公式的“书面要求”，而是为了确保：

计算的P值准确：保证犯第一类错误（假阳性）的概率控制在设定的水平（如0.05）。
区间估计可靠：保证置信区间覆盖真实值的概率是准确的。
检验效能最大化：用最少的样本发现最真实的差异。

因此，当你看到你发的那段文本中，分析人员先用夏皮洛-威尔克检验数据，发现不是正态后，进行对数转换使数据变正态，然后再进行参数分析，这正是为了满足参数检验的前提条件，从而使后续计算临界值的结果可靠。如果转换后仍不满足正态，他们可能就需要考虑使用非参数方法了。

具体怎么操作

第一步：直接拟合，然后进行“事后检验”

你不需要自己去算每个点的残差。在常规的生物分析软件（如 GraphPad Prism 或 Origin）中，你只需要在拟合 4PL 模型时，勾选对应的统计选项。

看残差图（Residual Plot，最直观）：拟合完成后，软件会生成一张残差图（横坐标是浓度或拟合值，纵坐标是残差值）。
运行正态性检验（Normality Test）：在软件中可以对残差这一列数据直接运行 Shapiro-Wilk 检验或 Kolmogorov-Smirnov 检验。如果 $P > 0.05$ ，说明残差符合正态分布。

第二步：如果残差不符合正态分布，该怎么处理数据？

如果在拟合完后，你发现残差图很难看，或者正态性检验没通过，通常有以下三种标准处理方法：

1. 剔除离群值（Outliers）—— 最常见的原因

免疫学实验（尤其是手工加样的 ELISA）中，某一个重复孔因为气泡、洗板不干净或移液误差，可能会出现一个严重的“跳点”。这个跳点会把整条曲线拉偏，导致残差严重偏离正态。

处理方法：利用软件自带的离群值自动检测（如 GraphPad 的 ROUT 方法，设置 Q = 1%），或者人工检查重复孔的变异系数（CV%）。剔除明显的异常孔后，重新进行拟合，残差通常就会恢复正态。

2. 使用“加权拟合”（Weighted 4PL）—— 解决异方差

抗体结合实验中，高浓度（大信号）处的绝对误差通常远大于低浓度（底物背景）。这种“信号越高，波动越大”的特征会破坏残差的齐性和正态性。

处理方法：不要直接改动原始数据，而是在拟合设置里，将权重（Weight）从“无（No weighting）”改为 1/Y^2 或 1/Y。
原理：加权后，软件在计算残差时会考虑信号的大小。你会发现，加权后的相对残差就会变得非常符合正态分布，且拟合出的 EC50 在生物学上更准确。

3. 因变量的数据转换（Data Transformation）

如果信号由于检测器饱和或放大效应，呈现出严重的右偏态（大值极大，小值极小）。

处理方法：可以在拟合前，将 Y 值（信号值）整体进行对数转换（log10Y），然后再运行 4PL 拟合。

一个案例

我们在评估一款抗 payload（小分子毒素）单克隆抗体的结合性能。实验使用的是竞争 ELISA 或直接 ELISA。

自变量（X轴）：抗体浓度（ $\text{ng/mL}$ ），从 $10000$ 开始进行 3 倍比稀释，共 8 个浓度点。
因变量（Y轴）： OD 450 光吸收值，每个浓度做双重复孔（Duplicate）。

第一步：在 GraphPad Prism 中输入数据

打开 GraphPad Prism，在弹出的新建项目窗口中：
点击 Create（创建）。
将以下实验数据复制粘贴到表格中：

X (浓度, ng/mL)	Y1 (孔A)	Y2 (孔B)	备注
10000	2.850	2.910	高浓度饱和区
3333.3	2.720	2.800
1111.1	2.350	2.410
370.4	1.650	2.150	注意：这个孔由于气泡跳点了
123.5	0.950	0.910	线性区/特征区
41.2	0.420	0.450
13.7	0.180	0.160
4.6	0.080	0.090	低浓度背景区

第二步：进行常规四参数拟合（初次尝试）

点击上方工具栏的 Analyze（分析）按钮。
在弹出的窗口中，选择 XY analyses $\rightarrow$ Nonlinear regression (curve fit)（非线性回归），点击 OK。
选择模型：在 Equation（方程）下拉菜单中，选择 Dose-response - Special $\rightarrow$ $\text{log(agonist) vs. response -- Variable slope (Four parameters)}$ （或者在简易版里直接找 4PL）。
调整X轴（重要）：因为我们的浓度 X 是原始数值（10000, 3333…），而模型通常要求 X 是对数 $\log$ ，点击右侧的 Transform X 勾选框，选择 $\text{X = log(X)}$ 。
先不要修改其他设置，点击 OK。

初拟合结果诊断：

回到图表或数据结果页，你会发现：

$R^2$ 只有 0.96 左右，对于 ELISA 来说这并不理想。
看残差图（Residual Plot）：

第三步：完美处理数据的“高级操作”

既然发现了问题（有跳点，且误差不均匀），我们重新分析，把残差正态化和加权拟合一次性做对。

再次点击左侧导航栏的 Results（结果），或者直接双击你画出的曲线，重新打开分析设置。
解决跳点（离群值）：
解决异方差（加权）：
点击 OK 重新计算。

第四步：最终成果验收

现在检查重新拟合后的数据结果，你会看到质的飞跃：

$R^2$ 提升： $R^2$ 飙升到了 0.998 以上。
参数更准：软件计算出的 $EC_{50}$ （代表抗体结合亲和力的核心指标）置信区间变得非常窄，说明结果极度可信。
残差完美：切换到软件生成的 Residual plot（残差图）。你会发现，除了解除锁定的那个跳点，其他所有数据点的残差都规规矩矩、极其随机地分布在 $0$ 线的上下两侧，大小相近。这就是完美的、符合统计学假设的残差正态分布与方差齐性状态。

通过这个案例，你会发现处理数据的核心不是去手动修改数字，而是利用正确的统计工具（自动剔除离群值 + $1/Y^2$ 加权拟合）来纠正残差的偏态。