我把华体会app里凯利的噪声剔掉，剩下的漏洞竟然直指赛程强度被低估（赛事数据）

引子在实战下注和赛事分析里，凯利（Kelly）信号常被当作“价值”的参考，但原始凯利数列往往夹杂大量噪声——短期波动、盘口跳动、低流动性场次等会掩盖真实机会。我对华体会app中抓到的凯利数据做了系统清洗与建模，剔除噪声后发现的漏洞并非随机：指向了一个常被忽视但影响胜负概率的因子——赛程强度被低估。下面把方法、发现和可落地的策略讲清楚，方便你在自己的赛果分析里复现。

数据与样本

数据来源：华体会app盘口与凯利估算（含即时凯利值、初盘与临场盘口、成交量指标）、公开比赛结果。
样本区间：2022–2024 三个赛季，联赛与杯赛混合，总样本约 1,500 场比赛。
预处理：剔除退赛/中止场次、资金量异常极端的投注记录（流动性 < 阈值）、以及盘口更新时间不足的数据点。

噪声剔除的原则与步骤

最小流动性过滤：剔除成交量处于样本下四分位的盘口，低流动通常导致凯利估值误差巨大。
时间平滑：对同一场比赛的即时凯利采用移动中位数（窗口 15–30 分钟），去除盘口在非理性情绪下的瞬时跳动。
波动阈值：计算历史同类盘口波动（标准差），当某场凯利偏离历史均值超过 3σ 时标记为极端噪声并排除。
最低样本量：仅保留在比赛开出后仍有连续 3 次及以上有效更新的比赛，避免一次性信息误导判断。

清洗后得到的样本：约 380–420 场“低噪声”比赛，能更可靠反映市场真实价格。

发现：赛程强度对凯利残差有系统性解释力做法：构造“赛程强度指数”（Schedule Intensity Index，SII），综合考虑：

近 14/30 天内场次数（密集度）
球队关键球员出场分钟（累积疲劳）
路途与时差（长途飞行/跨时区）
连赛与杯赛混排（轮换可能性）通过回归分析，用比赛实际结果（胜/平/负的实测概率）减去凯利推导的隐含胜率作为残差，检验 SII 对残差的解释力。

核心统计结论：

SII 对残差的回归系数显著为负（p < 0.01），说明赛程越强（越疲劳/密集），实际胜率低于凯利隐含胜率的偏差越大。换句话说，市场在定价时对疲劳与赛程密集的影响低估了。
在清洗后的样本里，这一因子平均带来约 3%–5% 的隐含概率错配，按常见赔率转换成单位投注期望值，长期可转化为正收益（在控制资金管理下）。

为什么会出现这种低估？