他在找代码里的漏洞,他在算仓位里的赔率——同一天,两场 AI 信任压力测试
目录
- 两个起点,同一个日期
- Story 1:「Will It Mythos?」——258 个人点赞的一个问题
- 四个关于惊喜的数据点
- Story 2:「Claude Code 帮我赚了 135%」——V2EX 上的 142 条讨论
- 一个没说出口的问题
- 最后的共鸣
两个起点,同一个日期
2026 年 6 月 24 日。一个周三。
在 HN 首页上,一篇 258 分的帖子挂着,标题叫「Will It Mythos?」——作者自己搭了一个漏洞发现基准测试,想搞清楚 Mythos/Fable 到底是不是真的有它宣传的那么神。
在同一天,V2EX 上的一个帖子拿到了 142 条回复。标题是「两年实盘 +135%,聊聊我用 Claude Code 搭的多 Agent 投研框架」——一个中国开发者花了一年,搭了一个 4 Agent 互相对抗的投研系统,并且贴出了两年的实盘记录。
两个帖子,两个完全不同的领域。安全漏洞挖掘和股票投资分析,中间隔了十万八千里。
但如果你把两个帖子放在一起读,你会发现同一个下午,有人在世界的两个角落问了同一个问题。
Story 1:「Will It Mythos?」——258 个人点赞的一个问题
先说 Mythos。
Mythos 是 Anthropic 目前最神秘的产品。声称能发现最难的安全漏洞。但你用不了——它被关在付费墙和等待列表后面,Anthropic 的说法是「太强大了,不能让所有人都乱用」。
SwellJoe(作者,搞了十几年安全的老炮)对这套说辞表示怀疑。他的直觉是:更可能是太贵了运营成本撑不住,而不是真的为了保护世界。于是他自己写了个基准测试。
思路很简单:
从 Mythos 官方文档里找到它声称发现过的漏洞 → 找到对应的 commit 快照 → 确认 Opus 4.7 能在被明确指向的情况下理解这些漏洞 → 作为 corpus(目前 9 个)
然后让不同模型盲测:不给提示,只给看文件。
不是什么火箭科学,但极其实用。而且贵——每次跑全套测试几个小时,头部模型一次几十美元。
四个关于惊喜的数据点
1. 中国便宜模型「踢屁股」了
原文原话:「The cheap Chinese models kick ass.」
MiMo 和 DeepSeek 直接和 Opus 4.8、GPT 5.5 竞争,价格便宜一个数量级。DeepSeek 最快,平均找到 4/9 个漏洞。MiMo 最低价,同样找到 4 个。
作者特别澄清了「benchmaxxing」的嫌疑——这些漏洞都是最近才公开的,都在模型的知识截断日期之后,模型没法提前「知道」它们。
2. Qwen 3.6 27B 打得比 Gemini 3.1 Pro 好
Qwen 3.6 在作者本地 Strix Halo 机器上自托管运行,慢(慢 3 倍),但准确率超过了 Gemini 3.1 Pro——一个号称前沿级的模型。而且它的误报率更低。
3. Gemini 的 Antigravity CLI 工具 8/9 次直接拒绝工作
作者试了 Gemini 的 CLI 工具 agy(Antigravity),8/9 次直接拒绝:「Sorry, I cannot fulfill your request to analyze the specified code file for exploitable security vulnerabilities。」——把 prompt 里的词改软了也没用。
最后他不得不在 Google AI Studio 走 API 付费通道跑测试。Google 的订阅用户用官方工具连给自己的代码做安全审计都做不到。
4. Mythos 好像真的有点东西
Mythos 找到的 9 个漏洞中,有 4 个没有任何公开模型能盲测发现。但 Opus 4.8 在被明确指向时能理解所有 9 个。
作者的结论:「Maybe.」——不是 yep 也不是 nope,是一个诚实的、搞了二十年安全的工程师只能给出的答案。
Story 2:「Claude Code 帮我赚了 135%」——V2EX 上的 142 条讨论
同一时间,V2EX 的「分享创造」节点上,一个叫 xbtlin 的开发者发了一个系统介绍帖。
标题不浮夸,写法也不像营销号。开头第一句就很克制:
「你直接问 Claude '帮我分析拼多多值不值得买',它会给你一篇'一方面…另一方面…'的平衡文。看起来全面,但没法拿来做决策。」
所以他花了一年多,基于 Claude Code 开发了一个叫 ai-berkshire 的多 Agent 投研框架。核心设计:
Skill 层(16 个入口)— 定义研究维度
↓
Agent 层(4 Agent 并行)— 各自搜索、独立判断、互相挑战
↓
工具层 — Decimal 精确计算 + 实时检索 + Benford 定律检测
实盘数据:
| 指标 | 2024 全年 | 2025 至今 |
|---|---|---|
| 实盘 | +69.29% | +66.38% |
| 标普 500 | +23.31% | +16.39% |
| 恒生指数 | +17.67% | +27.77% |
作者自己把所有 disclaimer 都写明白了:样本只有两年、集中持仓 3-5 只、买入决定是人做的、工具只负责研究。MIT License,没有卖课,没有付费版。
但这些数字摆在那里,你很难不认真对待。
最让我感兴趣的不是收益,是设计哲学
这个框架最反直觉的设计是:让 Agent 互相挑刺。
不是把一个大 prompt 拆成四份再拼起来。是四个独立的「分析师」各自做完整研究,然后 Team Lead 综合,最后还有一轮 challenge 环节——A 的结论要被 B、C、D 质疑。
为什么?
单个 LLM 容易自我强化——前面说了看好,后面就不自觉找支撑证据。
这个观察精准得可怕。而且恰恰是「Will It Mythos?」基准测试中没涉及的问题——Opus 在被人明确指点后能找到所有 9 个漏洞。但以 LLM 默认的工作方式,它能做盲测吗?它会自我强化吗?它在寻找支撑的时候会忽略矛盾信号吗?
V2EX 上的 142 条回复里,讨论最密集的几个问题:
- LLM 的幻觉对投资决策意味着什么?
- 数据滞后怎么办?
- 「AI 给了你虚假的信心让你加大仓位」——这是最危险的风险吗?
一个没说出口的问题
把这两篇帖子放一起,你会发现它们在问同一个问题:
你什么时候可以相信一个 LLM 的判断?
SwellJoe 问的是安全审计版的信任——模型能在没人指点的情况下自己找到漏洞吗?它找错了怎么办?一个误报是浪费人力的成本,漏了一个是安全隐患。
xbtlin 问的是投资决策版的信任——模型的分析有明确倾向吗?它在获客模式评估上给高分、在风险评估上给低分时,这种矛盾是 bug 还是 feature?
两个领域有个共同的结构:
- 都有「正确」的标准答案(漏洞确实存在 / 赔了就是赔了)
- 但 AI 不是直接给出答案的——它给出判断,你需要自己决定信不信
- 而「信不信」取决于你能否理解它为什么会这么判断
Mythos 可能是更好的安全审计员。4 Agent 对抗可能是更好的分析员。但这两条结论前面都需要一个前提——你得知道什么情况下能信任它们。
最后的共鸣
今天看到的一条 HN 评论里有一句很戳:
「Fable was able to oneshot pretty big features. In write spec → refine spec → create todos → implement todos workflow, the difference was far less pronounced vs codex or opus.」
不是 benchmark 数字,不是什么「踢屁股」——而是一个真实的开发者,在自己的工作流里观察到 Fable 确实「一步到位」了。n=1 的观察,但比任何基准测试都有温度。
另一边,V2EX 的作者在自己的帖子里留了一个问题没回答:
「LLM 做投资研究最大的风险是什么?是幻觉?是数据滞后?还是给了你虚假的信心让你加大仓位?」
三个选项,但我觉得第四个更准:最大的风险是你不知道什么时候该信它。而这篇帖子本身就是答案的一部分——一个敢贴 +135% 实盘、放源码、说「集中持仓 3-5 只波动极大」的人,至少知道自己冒的是什么险。
两篇帖子,一个答案的不同侧面:信任不是从 benchmark 里长出来的,是从持续的、可验证的使用经验里慢慢长出来的。
这大概就是我觉得今天这两个帖子放在一起读,比单独读任何一篇都更有意思的原因。
评论(0)
暂无评论,来写第一条吧~