Education11 min read

量化交易里的 AI:很强,也很危险

AI 会同时放大能力与错误。为什么机器比人更会过拟合,以及如何负责任地使用它。

Published April 10, 2026

半年前,我看到 AI 生成的一条策略:三年历史数据里把 1 万美元「变成」24 万美元。资金曲线漂亮得过分:盈利因子约 2.8,最大回撤低于 12%,夏普接近 1.5——回测里你想要的一切它都有。

实盘第一周就亏钱。

这不是 AI「坏了」,而是我没弄清 AI 能做什么永远不能做什么——这决定你是把它当工具,还是当「听起来很专业」的骰子。

过去两年我大量试验大语言模型、机器学习与神经网络在量化里的用法。AI 确实能:秒级综合研报、生成代码一夜跑一万组参数、在人类需要数周的相关性扫描上提速。但它也会为纯噪音构造统计上很体面的叙事,而且比任何人都更自信

本文论点很简单:AI 不是量化圣杯,是放大器。 像任何放大器一样,输出取决于你输入了什么。

为什么 AI 在回测里看起来特别好

我给最先进的 LLM 一份数据集:某中盘股五年 OHLCV,让它生成五条策略、写回测代码并优化参数。结果是:

  • 策略 1:年化约 47%,夏普约 0.89,最大回撤约 8%
  • 策略 2:年化约 52%,夏普约 1.2,最大回撤约 11%
  • 策略 3:年化约 41%,夏普约 0.76,最大回撤约 6%
  • 策略 4:年化约 38%,夏普约 0.65,最大回撤约 9%
  • 策略 5:年化约 45%,夏普约 0.98,最大回撤约 10%

五条都盈利、回撤都「合理」、看起来都像真的。

然后我做三件事:

  1. 把时间向前延长两年(在 2019–2021 上复测,而不是 2021–2026)
  2. 对每个参数做 ±2% 微扰
  3. 换同板块另一只相似股票

结果近乎灾难:样本外没有一条仍稳定盈利,多数夏普转负,两条最大回撤超过 40%。

这并不罕见,原因也不神秘——只是不舒服。

核心问题:信号 vs 噪音

成熟交易者心里都隐约知道,但很少说清楚:历史数据里只有两样东西——信号与噪音。AI 无法可靠区分它们。

信号是可重复、可跨时段与相似资产迁移的结构;噪音是巧合、随机与「看得够多总会碰到好看子样本」的产物。

AI 被训练来拟合数据,而不是判断真假。 它不关心规律是否偶然,只关心在你给的样本上把误差压下去。

这不是 AI 的 bug,而是它的 job:机器学习本质是曲线拟合;神经网络在给定灵活度下会找到「能拟合的一切」,包括噪音。

人类还有一层粗糙的直觉过滤:当我看到「73 日均线上穿 127 日均线且价格在 47 期唐奇安通道上轨之上且 RSI 在 43–68」这种规则,大脑会嘀咕:太具体了,像过拟合。 AI 往往相反——它会主动把噪音优化成看似信号的东西。

为什么 AI 比人更会过拟合

参数压力: 模型参数可以是成千上万甚至百万级——自由度够多,随机数也能拟合成正弦。

没有直觉惩罚: 人类写规则有摩擦:要讲微观结构或行为金融的故事,要过「常识安检」。AI 可以组合出人类无法解释但样本内完美的逻辑门。

优化成瘾: AI 会为夏普再多 0.1% 微调一千次;人常说「够了」。每一次微调,往往都在往过拟合的局部极值爬。

逻辑自洽的胡说: 更糟的是,AI 不仅会拟合噪音,还会解释噪音——「在波动抬升阶段捕捉均值回归」「在反转前锁定动量突破」——听起来像研究,常常只是对你那段样本里偶然结构的文学描写

LLM 从零生成策略的特有风险

LLM 在海量金融文本上训练,极其擅长生成「像真的」策略叙述。你让它「生成盈利策略」,它并不是理解市场,而是在复刻训练语料里高频出现的写法与概念组合

例如:「IV 分位超过 75 且标的负 Gamma 时卖看涨价差」——术语都对,听起来高级。但 LLM 并没有在你数据上完成可信回测;它只是把概念排列成统计上「像论文」的句子。

最危险的是它像专家——语气、结构、词汇都对,但可能是高度自信的错误

心智模型:放大器,不是神谕

两年实验后我的结论:把 AI 当作你自身理解的放大器,而不是替代你判断的神谕。

若你真的懂市场——价格如何动、哪些模式有机制支撑——AI 让你快 5 倍、10 倍:写代码、批量回测、整理多源数据。

反过来:若你不懂市场,AI 会让你以 10 倍速度、10 倍确信地错下去——生成策略、回测、画漂亮曲线、配一套听起来合理的故事,然后你在实盘前夜高信念入场。

粗略公式:

你的结果 ≈ 你对市场的理解 × AI 带来的速度

理解扎实 ×10,你可能卓越;理解薄弱 ×10,你是更快的错误

如何负责任地用 AI

1. 加速验证,而不是代替你提出假设。 想法来自你的市场逻辑;AI 负责编码、回测脚手架与批量实验。

2. 把样本内「过于完美」当红旗。 内部标准示例:夏普长期 >2、年化长期 >60% 要极度怀疑。真实世界里「无聊」的策略更常见:夏普约 0.5–1.2,年化约 15%–25%。

3. 样本外与滚动检验非可选。 walk-forward:在更早块优化,在更晚块检验;打不过简单基准就别上线。

4. 给优化加摩擦: 限制参数组合数量、限制小数位数、偏好「圆整」参数(50 日均线而非 47 日)——减少针对噪音的微调。

5. 上线前要有机制叙述: 「为什么这条规则在真实市场里该成立?」若你或 AI 都说不清,多半是噪音。

6. 多样化提示与思路: 让 AI 基于不同前提生成多类策略并交叉检验——只有一条在样本外成立,更像运气;多条不同逻辑同时成立,才可能有信号。

机构怎么做(不一样)

成熟量化机构很少用 ML 从零发明信号。更常见的是:

  1. 用严格研究流程提出多源假设
  2. 把 ML 当加权与组合工具,而不是唯一大脑
  3. 尽量保持每条信号可解释
  4. 在真正样本外上设硬门槛
  5. 把模型当组合件,配熔断、限额与备用方案

他们假设模型会衰减;追求的多是分散后 1%–2% 量级的边缘,而不是一条「圣杯曲线」。

案例:怎样不要用 AI

有位交易者(叫他 Alex)用 LLM 生成五条「机器学习驱动」策略,三年回测全正,纸交易一个月也继续赚。他给每条配 5 万美元实盘。

第一周三条下水;第二周五条全亏;两个月后账户约亏 37%。

原因并不玄:参数被焊死在他给的那三年行情上;2026 年轻微的制度漂移就足以让系统崩盘。他把统计巧合当成了市场规律,而 AI 只是帮他更精密地优化了虚无

若他先做 2020–2023 样本外、做 walk-forward、限制优化规模并要求参数稳定性,很可能在亏真钱前就发现问题。

正确姿势:工具,不是拐杖

我现在的用法包括:用 AI 写回测脚手架(我审查与改逻辑)、一夜筛 20 个假设(多数扔掉,少数严检)、多源数据对齐与假设辅助有上限的参数空间探索(例如最多 500 组而非 5 万组)、策略文档化(逼自己写清机制与预期区间)。

每一步里,批判性思维必须是我的

不舒服的真相

没有捷径可以替代真正的市场洞察。 AI 不能替你完成「深度理解」,只能加速你在正确方向上的迭代。若跳过学习与检验直接部署,你只是更快地失败

真正用 AI 赚到钱的人,往往不是「问 ChatGPT 要策略」的人,而是已经懂市场、用 AI 提效、并坚持区分信号与噪音的人。

结论

AI 会改变量化交易,但红利属于明白边界的人:放大器而非神谕;工具而非替代判断;加速工作而非跳过工作。

下一代赢家不一定是「用得最多」的人,而是用得最谨慎的人——真洞察 + 严测试 + 对完美回测的怀疑 + 记住 10 倍速亏钱仍是亏钱

若你刚开始,别从 AI 开始;先从价格、波动、相关性与结构力量建立直觉,用小资金交学费。

然后再用 AI 放大那份理解。

圣杯不存在;但「真洞察 + 严测试 + 正确用 AI」——已经接近真实世界里能长期玩下去的样子。

Ready to trade with an edge?

VM Genius runs 6+ quant strategies simultaneously and delivers a complete personalized trading plan.

Get Access