首个「万亿级时间点」预训练,清华发布生成式时序大模型日晷
日期:2025-06-20 22:52:20 / 人气:23
清华大学软件学院近日发布了生成式时序大模型 —— 日晷(Sundial),该成果被 ICML 2025 接收为 Oral 文章(Top 1%),引发学界和业界广泛关注。日晷凭借 “万亿级时间点预训练”“原生连续值处理”“生成式概率预测” 等创新,为时序预测领域开辟了新方向。
核心突破:告别离散化,开启生成式时序预测新范式
传统时序模型常面临两大痛点:离散化导致的信息损失,以及参数化分布假设引发的 “模式坍塌”。日晷通过三大创新实现突破:

TimeFlow Loss:基于流匹配的生成式预测
提出基于流匹配(Flow-Matching)的时间流预测损失函数,无需离散化 token,直接在连续值时序上训练。该方法通过学习 “速度场” 将简单高斯分布变换为复杂目标分布,使模型能生成多条可能的预测轨迹。例如,给定历史气象数据,日晷可生成未来一周温度的多种可能变化路径,而非单一确定性预测。这种生成式机制有效缓解了预训练中的模式坍塌,让预测结果更贴合真实场景的不确定性。
原生连续编码:无损处理时序数据
采用分块嵌入(Patch Embedding)和重归一化(Re-Normalization)技术,直接对连续值时序进行编码。相比 Chronos 等模型的离散化处理,日晷避免了词表外(OOV)问题,保留了时序数据的完整精度。例如,在金融股价预测中,能捕捉 0.01 元级别的细微波动,而离散化模型可能因量化区间设置丢失此类信息。
万亿级数据预训练:解锁规模效应
构建了首个万亿时间点规模的时序数据集 TimeBench,包含气象、金融、交通等多领域数据,覆盖小时至季度等多种频率。在 TimeBench 上预训练的日晷模型,展现出显著的 “规模定律”:随着参数从 32M 扩展至 444M,其在零样本预测任务上的 MSE 平均降低 15.38%,验证了大数据驱动的模型泛化能力。
架构创新:Transformer 与流匹配的深度融合
日晷的技术架构兼具效率与性能:
适配时序特性的 Transformer
采用解码器 - only Transformer 架构,融入 RoPE 位置编码、Pre-LN 层归一化、FlashAttention 加速机制及 KV Cache 技术。例如,KV Cache 使模型在处理 2880 长度的历史序列时,推理速度提升 43.6%,实现毫秒级响应(如预测 720 步仅需 510ms)。
多 patch 预测:平衡精度与效率
创新引入多 patch 预测机制,允许模型一次生成多个时间块的预测结果。以 720 步预测为例,传统自回归需 720 次迭代,而日晷通过多 patch 预测将迭代次数降至 10 次以内,大幅降低计算开销。
生成式推理:动态风险评估
推理时可通过多次采样生成多条预测轨迹,基于轨迹集合计算均值、分位数(如 90% 置信区间)等统计量。例如,在供应链需求预测中,日晷不仅能给出平均需求量,还能评估需求波动的风险范围,为库存决策提供更全面的支持。
性能验证:零样本预测超越主流模型
日晷在三大权威榜单中展现出领先性能:
GIFT-Eval:零样本预测首超监督模型
在包含 23 个数据集、1.77 亿数据点的 GIFT-Eval 榜单上,日晷的零样本 MASE 指标达 0.673,超越此前最优的 Chronos(0.748)和 Moirai(0.786),甚至超过部分分布内训练的监督模型(如 N-BEATS 的 0.842)。其概率预测 CRPS 指标为 0.472,较 Moirai 提升 14.3%。
FEV Leaderboard:速度与精度双优
在 27 个数据集的 FEV 榜单上,日晷的 WQL 指标与 Chronos 相当,但推理速度提升 35 倍。例如,处理 1440 长度序列的预测时,日晷仅需 789ms,而 Chronos 需 28 秒,这种效率优势使其更适合实时决策场景。
Time-Series-Library:规模驱动性能跃升
在长期预测任务中,日晷 Large 模型的 MSE 较 Time-MoE Ultra 降低 23.1%,且随着参数规模扩大,性能持续提升。例如,在 ETTm1 数据集上,444M 参数的日晷 Large 较 128M 参数的 Base 版本,MSE 进一步降低 7.5%。
开源与落地:毫秒级推理赋能多领域应用
目前,日晷基础模型(128M 参数)已在 HuggingFace 开源,支持 CPU 快速推理:
开箱即用的零样本预测
仅需 10 行代码即可调用,例如输入 2880 点历史股价数据,模型可在 949ms 内生成 20 条未来 96 点的预测轨迹,并计算出 80% 置信区间。这种 “无训练、高泛化” 特性,使其适用于数据稀缺场景(如新兴市场汇率预测)。
多领域落地探索
在气象领域,日晷已用于北京未来 7 天降水概率预测,较传统数值模式提前 24 小时捕捉极端天气概率;在金融领域,其生成的股价波动置信区间被用于量化交易止损策略设计;在物联网领域,毫秒级推理能力使其能实时预测工业设备故障概率,支持预防性维护。
未来方向:多变量融合与机理增强
日晷团队透露,下一步将聚焦两大方向:
多变量时序建模
目前日晷以单变量预训练为主,未来将探索多变量协同建模,例如同时融合气温、湿度、风速等变量预测城市用电量,提升复杂系统的预测精度。
机理知识嵌入
计划将领域机理(如物理学中的热传导方程、经济学中的供需理论)融入生成式框架,通过 “数据驱动 + 机理约束” 提升模型可控性,尤其适用于航空航天等对预测可靠性要求极高的场景。
日晷的问世,标志着时序大模型从 “确定性预测” 向 “生成式概率预测” 的重要转型。随着万亿级数据预训练和毫秒级推理技术的成熟,这类模型有望成为金融风控、能源调度、灾害预警等关键领域的核心决策工具。
作者:恒耀平台
新闻资讯 News
- 谁能撬动自动驾驶汽车落地:技术...07-01
- 彩票店倒闭潮:高增长背后的商业...07-01
- 从 6 倍疯涨到高管套现,多邻国跌...07-01
- 如何获得自由:打破束缚,追寻内...07-01