量化交易里的 AI：很强，也很危险

半年前，我看到 AI 生成的一条策略：三年历史数据里把 1 万美元「变成」24 万美元。资金曲线漂亮得过分：盈利因子约 2.8，最大回撤低于 12%，夏普接近 1.5——回测里你想要的一切它都有。

实盘第一周就亏钱。

这不是 AI「坏了」，而是我没弄清 AI 能做什么与永远不能做什么——这决定你是把它当工具，还是当「听起来很专业」的骰子。

过去两年我大量试验大语言模型、机器学习与神经网络在量化里的用法。AI 确实能：秒级综合研报、生成代码一夜跑一万组参数、在人类需要数周的相关性扫描上提速。但它也会为纯噪音构造统计上很体面的叙事，而且比任何人都更自信。

本文论点很简单：AI 不是量化圣杯，是放大器。 像任何放大器一样，输出取决于你输入了什么。

为什么 AI 在回测里看起来特别好

我给最先进的 LLM 一份数据集：某中盘股五年 OHLCV，让它生成五条策略、写回测代码并优化参数。结果是：

策略 1：年化约 47%，夏普约 0.89，最大回撤约 8%
策略 2：年化约 52%，夏普约 1.2，最大回撤约 11%
策略 3：年化约 41%，夏普约 0.76，最大回撤约 6%
策略 4：年化约 38%，夏普约 0.65，最大回撤约 9%
策略 5：年化约 45%，夏普约 0.98，最大回撤约 10%

五条都盈利、回撤都「合理」、看起来都像真的。

然后我做三件事：

把时间向前延长两年（在 2019–2021 上复测，而不是 2021–2026）
对每个参数做 ±2% 微扰
换同板块另一只相似股票

结果近乎灾难：样本外没有一条仍稳定盈利，多数夏普转负，两条最大回撤超过 40%。

这并不罕见，原因也不神秘——只是不舒服。

核心问题：信号 vs 噪音

成熟交易者心里都隐约知道，但很少说清楚：历史数据里只有两样东西——信号与噪音。AI 无法可靠区分它们。

信号是可重复、可跨时段与相似资产迁移的结构；噪音是巧合、随机与「看得够多总会碰到好看子样本」的产物。

AI 被训练来拟合数据，而不是判断真假。 它不关心规律是否偶然，只关心在你给的样本上把误差压下去。

这不是 AI 的 bug，而是它的 job：机器学习本质是曲线拟合；神经网络在给定灵活度下会找到「能拟合的一切」，包括噪音。

人类还有一层粗糙的直觉过滤：当我看到「73 日均线上穿 127 日均线且价格在 47 期唐奇安通道上轨之上且 RSI 在 43–68」这种规则，大脑会嘀咕：太具体了，像过拟合。 AI 往往相反——它会主动把噪音优化成看似信号的东西。

为什么 AI 比人更会过拟合

参数压力： 模型参数可以是成千上万甚至百万级——自由度够多，随机数也能拟合成正弦。

没有直觉惩罚： 人类写规则有摩擦：要讲微观结构或行为金融的故事，要过「常识安检」。AI 可以组合出人类无法解释但样本内完美的逻辑门。

优化成瘾： AI 会为夏普再多 0.1% 微调一千次；人常说「够了」。每一次微调，往往都在往过拟合的局部极值爬。

逻辑自洽的胡说： 更糟的是，AI 不仅会拟合噪音，还会解释噪音——「在波动抬升阶段捕捉均值回归」「在反转前锁定动量突破」——听起来像研究，常常只是对你那段样本里偶然结构的文学描写。

LLM 从零生成策略的特有风险

LLM 在海量金融文本上训练，极其擅长生成「像真的」策略叙述。你让它「生成盈利策略」，它并不是理解市场，而是在复刻训练语料里高频出现的写法与概念组合。

例如：「IV 分位超过 75 且标的负 Gamma 时卖看涨价差」——术语都对，听起来高级。但 LLM 并没有在你数据上完成可信回测；它只是把概念排列成统计上「像论文」的句子。

最危险的是它像专家——语气、结构、词汇都对，但可能是高度自信的错误。

心智模型：放大器，不是神谕

两年实验后我的结论：把 AI 当作你自身理解的放大器，而不是替代你判断的神谕。

若你真的懂市场——价格如何动、哪些模式有机制支撑——AI 让你快 5 倍、10 倍：写代码、批量回测、整理多源数据。

反过来：若你不懂市场，AI 会让你以 10 倍速度、10 倍确信地错下去——生成策略、回测、画漂亮曲线、配一套听起来合理的故事，然后你在实盘前夜高信念入场。

粗略公式：

你的结果 ≈ 你对市场的理解 × AI 带来的速度

理解扎实 ×10，你可能卓越；理解薄弱 ×10，你是更快的错误。

如何负责任地用 AI

1. 加速验证，而不是代替你提出假设。 想法来自你的市场逻辑；AI 负责编码、回测脚手架与批量实验。

2. 把样本内「过于完美」当红旗。 内部标准示例：夏普长期 >2、年化长期 >60% 要极度怀疑。真实世界里「无聊」的策略更常见：夏普约 0.5–1.2，年化约 15%–25%。

3. 样本外与滚动检验非可选。 walk-forward：在更早块优化，在更晚块检验；打不过简单基准就别上线。

4. 给优化加摩擦： 限制参数组合数量、限制小数位数、偏好「圆整」参数（50 日均线而非 47 日）——减少针对噪音的微调。

5. 上线前要有机制叙述： 「为什么这条规则在真实市场里该成立？」若你或 AI 都说不清，多半是噪音。

6. 多样化提示与思路： 让 AI 基于不同前提生成多类策略并交叉检验——只有一条在样本外成立，更像运气；多条不同逻辑同时成立，才可能有信号。

机构怎么做（不一样）

成熟量化机构很少用 ML 从零发明信号。更常见的是：

用严格研究流程提出多源假设
把 ML 当加权与组合工具，而不是唯一大脑
尽量保持每条信号可解释
在真正样本外上设硬门槛
把模型当组合件，配熔断、限额与备用方案

他们假设模型会衰减；追求的多是分散后 1%–2% 量级的边缘，而不是一条「圣杯曲线」。

案例：怎样不要用 AI

有位交易者（叫他 Alex）用 LLM 生成五条「机器学习驱动」策略，三年回测全正，纸交易一个月也继续赚。他给每条配 5 万美元实盘。

第一周三条下水；第二周五条全亏；两个月后账户约亏 37%。

原因并不玄：参数被焊死在他给的那三年行情上；2026 年轻微的制度漂移就足以让系统崩盘。他把统计巧合当成了市场规律，而 AI 只是帮他更精密地优化了虚无。

若他先做 2020–2023 样本外、做 walk-forward、限制优化规模并要求参数稳定性，很可能在亏真钱前就发现问题。

正确姿势：工具，不是拐杖

我现在的用法包括：用 AI 写回测脚手架（我审查与改逻辑）、一夜筛 20 个假设（多数扔掉，少数严检）、多源数据对齐与假设辅助、有上限的参数空间探索（例如最多 500 组而非 5 万组）、策略文档化（逼自己写清机制与预期区间）。

每一步里，批判性思维必须是我的。

不舒服的真相

没有捷径可以替代真正的市场洞察。 AI 不能替你完成「深度理解」，只能加速你在正确方向上的迭代。若跳过学习与检验直接部署，你只是更快地失败。

真正用 AI 赚到钱的人，往往不是「问 ChatGPT 要策略」的人，而是已经懂市场、用 AI 提效、并坚持区分信号与噪音的人。

结论

AI 会改变量化交易，但红利属于明白边界的人：放大器而非神谕；工具而非替代判断；加速工作而非跳过工作。

下一代赢家不一定是「用得最多」的人，而是用得最谨慎的人——真洞察 + 严测试 + 对完美回测的怀疑 + 记住 10 倍速亏钱仍是亏钱。

若你刚开始，别从 AI 开始；先从价格、波动、相关性与结构力量建立直觉，用小资金交学费。

然后再用 AI 放大那份理解。

圣杯不存在；但「真洞察 + 严测试 + 正确用 AI」——已经接近真实世界里能长期玩下去的样子。