半年前,我看到 AI 生成的一条策略:三年历史数据里把 1 万美元「变成」24 万美元。资金曲线漂亮得过分:盈利因子约 2.8,最大回撤低于 12%,夏普接近 1.5——回测里你想要的一切它都有。
实盘第一周就亏钱。
这不是 AI「坏了」,而是我没弄清 AI 能做什么与永远不能做什么——这决定你是把它当工具,还是当「听起来很专业」的骰子。
过去两年我大量试验大语言模型、机器学习与神经网络在量化里的用法。AI 确实能:秒级综合研报、生成代码一夜跑一万组参数、在人类需要数周的相关性扫描上提速。但它也会为纯噪音构造统计上很体面的叙事,而且比任何人都更自信。
本文论点很简单:AI 不是量化圣杯,是放大器。 像任何放大器一样,输出取决于你输入了什么。
为什么 AI 在回测里看起来特别好
我给最先进的 LLM 一份数据集:某中盘股五年 OHLCV,让它生成五条策略、写回测代码并优化参数。结果是:
- 策略 1:年化约 47%,夏普约 0.89,最大回撤约 8%
- 策略 2:年化约 52%,夏普约 1.2,最大回撤约 11%
- 策略 3:年化约 41%,夏普约 0.76,最大回撤约 6%
- 策略 4:年化约 38%,夏普约 0.65,最大回撤约 9%
- 策略 5:年化约 45%,夏普约 0.98,最大回撤约 10%
五条都盈利、回撤都「合理」、看起来都像真的。
然后我做三件事:
- 把时间向前延长两年(在 2019–2021 上复测,而不是 2021–2026)
- 对每个参数做 ±2% 微扰
- 换同板块另一只相似股票
结果近乎灾难:样本外没有一条仍稳定盈利,多数夏普转负,两条最大回撤超过 40%。
这并不罕见,原因也不神秘——只是不舒服。
核心问题:信号 vs 噪音
成熟交易者心里都隐约知道,但很少说清楚:历史数据里只有两样东西——信号与噪音。AI 无法可靠区分它们。
信号是可重复、可跨时段与相似资产迁移的结构;噪音是巧合、随机与「看得够多总会碰到好看子样本」的产物。
AI 被训练来拟合数据,而不是判断真假。 它不关心规律是否偶然,只关心在你给的样本上把误差压下去。
这不是 AI 的 bug,而是它的 job:机器学习本质是曲线拟合;神经网络在给定灵活度下会找到「能拟合的一切」,包括噪音。
人类还有一层粗糙的直觉过滤:当我看到「73 日均线上穿 127 日均线且价格在 47 期唐奇安通道上轨之上且 RSI 在 43–68」这种规则,大脑会嘀咕:太具体了,像过拟合。 AI 往往相反——它会主动把噪音优化成看似信号的东西。
为什么 AI 比人更会过拟合
参数压力: 模型参数可以是成千上万甚至百万级——自由度够多,随机数也能拟合成正弦。
没有直觉惩罚: 人类写规则有摩擦:要讲微观结构或行为金融的故事,要过「常识安检」。AI 可以组合出人类无法解释但样本内完美的逻辑门。
优化成瘾: AI 会为夏普再多 0.1% 微调一千次;人常说「够了」。每一次微调,往往都在往过拟合的局部极值爬。
逻辑自洽的胡说: 更糟的是,AI 不仅会拟合噪音,还会解释噪音——「在波动抬升阶段捕捉均值回归」「在反转前锁定动量突破」——听起来像研究,常常只是对你那段样本里偶然结构的文学描写。
LLM 从零生成策略的特有风险
LLM 在海量金融文本上训练,极其擅长生成「像真的」策略叙述。你让它「生成盈利策略」,它并不是理解市场,而是在复刻训练语料里高频出现的写法与概念组合。
例如:「IV 分位超过 75 且标的负 Gamma 时卖看涨价差」——术语都对,听起来高级。但 LLM 并没有在你数据上完成可信回测;它只是把概念排列成统计上「像论文」的句子。
最危险的是它像专家——语气、结构、词汇都对,但可能是高度自信的错误。
心智模型:放大器,不是神谕
两年实验后我的结论:把 AI 当作你自身理解的放大器,而不是替代你判断的神谕。
若你真的懂市场——价格如何动、哪些模式有机制支撑——AI 让你快 5 倍、10 倍:写代码、批量回测、整理多源数据。
反过来:若你不懂市场,AI 会让你以 10 倍速度、10 倍确信地错下去——生成策略、回测、画漂亮曲线、配一套听起来合理的故事,然后你在实盘前夜高信念入场。
粗略公式:
你的结果 ≈ 你对市场的理解 × AI 带来的速度
理解扎实 ×10,你可能卓越;理解薄弱 ×10,你是更快的错误。
如何负责任地用 AI
1. 加速验证,而不是代替你提出假设。 想法来自你的市场逻辑;AI 负责编码、回测脚手架与批量实验。
2. 把样本内「过于完美」当红旗。 内部标准示例:夏普长期 >2、年化长期 >60% 要极度怀疑。真实世界里「无聊」的策略更常见:夏普约 0.5–1.2,年化约 15%–25%。
3. 样本外与滚动检验非可选。 walk-forward:在更早块优化,在更晚块检验;打不过简单基准就别上线。
4. 给优化加摩擦: 限制参数组合数量、限制小数位数、偏好「圆整」参数(50 日均线而非 47 日)——减少针对噪音的微调。
5. 上线前要有机制叙述: 「为什么这条规则在真实市场里该成立?」若你或 AI 都说不清,多半是噪音。
6. 多样化提示与思路: 让 AI 基于不同前提生成多类策略并交叉检验——只有一条在样本外成立,更像运气;多条不同逻辑同时成立,才可能有信号。
机构怎么做(不一样)
成熟量化机构很少用 ML 从零发明信号。更常见的是:
- 用严格研究流程提出多源假设
- 把 ML 当加权与组合工具,而不是唯一大脑
- 尽量保持每条信号可解释
- 在真正样本外上设硬门槛
- 把模型当组合件,配熔断、限额与备用方案
他们假设模型会衰减;追求的多是分散后 1%–2% 量级的边缘,而不是一条「圣杯曲线」。
案例:怎样不要用 AI
有位交易者(叫他 Alex)用 LLM 生成五条「机器学习驱动」策略,三年回测全正,纸交易一个月也继续赚。他给每条配 5 万美元实盘。
第一周三条下水;第二周五条全亏;两个月后账户约亏 37%。
原因并不玄:参数被焊死在他给的那三年行情上;2026 年轻微的制度漂移就足以让系统崩盘。他把统计巧合当成了市场规律,而 AI 只是帮他更精密地优化了虚无。
若他先做 2020–2023 样本外、做 walk-forward、限制优化规模并要求参数稳定性,很可能在亏真钱前就发现问题。
正确姿势:工具,不是拐杖
我现在的用法包括:用 AI 写回测脚手架(我审查与改逻辑)、一夜筛 20 个假设(多数扔掉,少数严检)、多源数据对齐与假设辅助、有上限的参数空间探索(例如最多 500 组而非 5 万组)、策略文档化(逼自己写清机制与预期区间)。
每一步里,批判性思维必须是我的。
不舒服的真相
没有捷径可以替代真正的市场洞察。 AI 不能替你完成「深度理解」,只能加速你在正确方向上的迭代。若跳过学习与检验直接部署,你只是更快地失败。
真正用 AI 赚到钱的人,往往不是「问 ChatGPT 要策略」的人,而是已经懂市场、用 AI 提效、并坚持区分信号与噪音的人。
结论
AI 会改变量化交易,但红利属于明白边界的人:放大器而非神谕;工具而非替代判断;加速工作而非跳过工作。
下一代赢家不一定是「用得最多」的人,而是用得最谨慎的人——真洞察 + 严测试 + 对完美回测的怀疑 + 记住 10 倍速亏钱仍是亏钱。
若你刚开始,别从 AI 开始;先从价格、波动、相关性与结构力量建立直觉,用小资金交学费。
然后再用 AI 放大那份理解。
圣杯不存在;但「真洞察 + 严测试 + 正确用 AI」——已经接近真实世界里能长期玩下去的样子。