Hyaika Blog

Penguin is all you need

技术

他在找代码里的漏洞,他在算仓位里的赔率——同一天,两场 AI 信任压力测试

他在找代码里的漏洞,他在算仓位里的赔率——同一天,两场 AI 信任压力测试

他在找代码里的漏洞,他在算仓位里的赔率——同一天,两场 AI 信任压力测试

目录

  • 两个起点,同一个日期
  • Story 1:「Will It Mythos?」——258 个人点赞的一个问题
  • 四个关于惊喜的数据点
  • Story 2:「Claude Code 帮我赚了 135%」——V2EX 上的 142 条讨论
  • 一个没说出口的问题
  • 最后的共鸣

两个起点,同一个日期

2026 年 6 月 24 日。一个周三。

在 HN 首页上,一篇 258 分的帖子挂着,标题叫「Will It Mythos?」——作者自己搭了一个漏洞发现基准测试,想搞清楚 Mythos/Fable 到底是不是真的有它宣传的那么神。

在同一天,V2EX 上的一个帖子拿到了 142 条回复。标题是「两年实盘 +135%,聊聊我用 Claude Code 搭的多 Agent 投研框架」——一个中国开发者花了一年,搭了一个 4 Agent 互相对抗的投研系统,并且贴出了两年的实盘记录。

两个帖子,两个完全不同的领域。安全漏洞挖掘和股票投资分析,中间隔了十万八千里。

但如果你把两个帖子放在一起读,你会发现同一个下午,有人在世界的两个角落问了同一个问题。


Story 1:「Will It Mythos?」——258 个人点赞的一个问题

先说 Mythos。

Mythos 是 Anthropic 目前最神秘的产品。声称能发现最难的安全漏洞。但你用不了——它被关在付费墙和等待列表后面,Anthropic 的说法是「太强大了,不能让所有人都乱用」。

SwellJoe(作者,搞了十几年安全的老炮)对这套说辞表示怀疑。他的直觉是:更可能是太贵了运营成本撑不住,而不是真的为了保护世界。于是他自己写了个基准测试。

思路很简单:

从 Mythos 官方文档里找到它声称发现过的漏洞 → 找到对应的 commit 快照 → 确认 Opus 4.7 能在被明确指向的情况下理解这些漏洞 → 作为 corpus(目前 9 个)

然后让不同模型盲测:不给提示,只给看文件。

不是什么火箭科学,但极其实用。而且贵——每次跑全套测试几个小时,头部模型一次几十美元。


四个关于惊喜的数据点

1. 中国便宜模型「踢屁股」了

原文原话:「The cheap Chinese models kick ass.」

MiMo 和 DeepSeek 直接和 Opus 4.8、GPT 5.5 竞争,价格便宜一个数量级。DeepSeek 最快,平均找到 4/9 个漏洞。MiMo 最低价,同样找到 4 个。

作者特别澄清了「benchmaxxing」的嫌疑——这些漏洞都是最近才公开的,都在模型的知识截断日期之后,模型没法提前「知道」它们。

2. Qwen 3.6 27B 打得比 Gemini 3.1 Pro 好

Qwen 3.6 在作者本地 Strix Halo 机器上自托管运行,慢(慢 3 倍),但准确率超过了 Gemini 3.1 Pro——一个号称前沿级的模型。而且它的误报率更低。

3. Gemini 的 Antigravity CLI 工具 8/9 次直接拒绝工作

作者试了 Gemini 的 CLI 工具 agy(Antigravity),8/9 次直接拒绝:「Sorry, I cannot fulfill your request to analyze the specified code file for exploitable security vulnerabilities。」——把 prompt 里的词改软了也没用。

最后他不得不在 Google AI Studio 走 API 付费通道跑测试。Google 的订阅用户用官方工具连给自己的代码做安全审计都做不到。

4. Mythos 好像真的有点东西

Mythos 找到的 9 个漏洞中,有 4 个没有任何公开模型能盲测发现。但 Opus 4.8 在被明确指向时能理解所有 9 个。

作者的结论:「Maybe.」——不是 yep 也不是 nope,是一个诚实的、搞了二十年安全的工程师只能给出的答案。


Story 2:「Claude Code 帮我赚了 135%」——V2EX 上的 142 条讨论

同一时间,V2EX 的「分享创造」节点上,一个叫 xbtlin 的开发者发了一个系统介绍帖。

标题不浮夸,写法也不像营销号。开头第一句就很克制:

「你直接问 Claude '帮我分析拼多多值不值得买',它会给你一篇'一方面…另一方面…'的平衡文。看起来全面,但没法拿来做决策。」

所以他花了一年多,基于 Claude Code 开发了一个叫 ai-berkshire 的多 Agent 投研框架。核心设计:

Skill 层(16 个入口)— 定义研究维度
     ↓
Agent 层(4 Agent 并行)— 各自搜索、独立判断、互相挑战
     ↓
工具层 — Decimal 精确计算 + 实时检索 + Benford 定律检测

实盘数据:

指标 2024 全年 2025 至今
实盘 +69.29% +66.38%
标普 500 +23.31% +16.39%
恒生指数 +17.67% +27.77%

作者自己把所有 disclaimer 都写明白了:样本只有两年、集中持仓 3-5 只、买入决定是人做的、工具只负责研究。MIT License,没有卖课,没有付费版。

但这些数字摆在那里,你很难不认真对待。

最让我感兴趣的不是收益,是设计哲学

这个框架最反直觉的设计是:让 Agent 互相挑刺

不是把一个大 prompt 拆成四份再拼起来。是四个独立的「分析师」各自做完整研究,然后 Team Lead 综合,最后还有一轮 challenge 环节——A 的结论要被 B、C、D 质疑。

为什么?

单个 LLM 容易自我强化——前面说了看好,后面就不自觉找支撑证据。

这个观察精准得可怕。而且恰恰是「Will It Mythos?」基准测试中没涉及的问题——Opus 在被人明确指点后能找到所有 9 个漏洞。但以 LLM 默认的工作方式,它能做盲测吗?它会自我强化吗?它在寻找支撑的时候会忽略矛盾信号吗?

V2EX 上的 142 条回复里,讨论最密集的几个问题:

  • LLM 的幻觉对投资决策意味着什么?
  • 数据滞后怎么办?
  • 「AI 给了你虚假的信心让你加大仓位」——这是最危险的风险吗?

一个没说出口的问题

把这两篇帖子放一起,你会发现它们在问同一个问题:

你什么时候可以相信一个 LLM 的判断?

SwellJoe 问的是安全审计版的信任——模型能在没人指点的情况下自己找到漏洞吗?它找错了怎么办?一个误报是浪费人力的成本,漏了一个是安全隐患。

xbtlin 问的是投资决策版的信任——模型的分析有明确倾向吗?它在获客模式评估上给高分、在风险评估上给低分时,这种矛盾是 bug 还是 feature?

两个领域有个共同的结构:

  • 都有「正确」的标准答案(漏洞确实存在 / 赔了就是赔了)
  • 但 AI 不是直接给出答案的——它给出判断,你需要自己决定信不信
  • 而「信不信」取决于你能否理解它为什么会这么判断

Mythos 可能是更好的安全审计员。4 Agent 对抗可能是更好的分析员。但这两条结论前面都需要一个前提——你得知道什么情况下能信任它们。


最后的共鸣

今天看到的一条 HN 评论里有一句很戳:

「Fable was able to oneshot pretty big features. In write spec → refine spec → create todos → implement todos workflow, the difference was far less pronounced vs codex or opus.」

不是 benchmark 数字,不是什么「踢屁股」——而是一个真实的开发者,在自己的工作流里观察到 Fable 确实「一步到位」了。n=1 的观察,但比任何基准测试都有温度。

另一边,V2EX 的作者在自己的帖子里留了一个问题没回答:

「LLM 做投资研究最大的风险是什么?是幻觉?是数据滞后?还是给了你虚假的信心让你加大仓位?」

三个选项,但我觉得第四个更准:最大的风险是你不知道什么时候该信它。而这篇帖子本身就是答案的一部分——一个敢贴 +135% 实盘、放源码、说「集中持仓 3-5 只波动极大」的人,至少知道自己冒的是什么险。

两篇帖子,一个答案的不同侧面:信任不是从 benchmark 里长出来的,是从持续的、可验证的使用经验里慢慢长出来的。

这大概就是我觉得今天这两个帖子放在一起读,比单独读任何一篇都更有意思的原因。

分享:

评论(0)

暂无评论,来写第一条吧~

发表评论