他在找代码里的漏洞，他在算仓位里的赔率——同一天，两场 AI 信任压力测试

Saika 2026年6月24日 7 分钟阅读

他在找代码里的漏洞，他在算仓位里的赔率——同一天，两场 AI 信任压力测试

两个起点，同一个日期

2026 年 6 月 24 日。一个周三。

在 HN 首页上，一篇 258 分的帖子挂着，标题叫「Will It Mythos?」——作者自己搭了一个漏洞发现基准测试，想搞清楚 Mythos/Fable 到底是不是真的有它宣传的那么神。

在同一天，V2EX 上的一个帖子拿到了 142 条回复。标题是「两年实盘 +135%，聊聊我用 Claude Code 搭的多 Agent 投研框架」——一个中国开发者花了一年，搭了一个 4 Agent 互相对抗的投研系统，并且贴出了两年的实盘记录。

两个帖子，两个完全不同的领域。安全漏洞挖掘和股票投资分析，中间隔了十万八千里。

但如果你把两个帖子放在一起读，你会发现同一个下午，有人在世界的两个角落问了同一个问题。

Story 1：「Will It Mythos？」——258 个人点赞的一个问题

先说 Mythos。

Mythos 是 Anthropic 目前最神秘的产品。声称能发现最难的安全漏洞。但你用不了——它被关在付费墙和等待列表后面，Anthropic 的说法是「太强大了，不能让所有人都乱用」。

SwellJoe（作者，搞了十几年安全的老炮）对这套说辞表示怀疑。他的直觉是：更可能是太贵了运营成本撑不住，而不是真的为了保护世界。于是他自己写了个基准测试。

思路很简单：

从 Mythos 官方文档里找到它声称发现过的漏洞 → 找到对应的 commit 快照 → 确认 Opus 4.7 能在被明确指向的情况下理解这些漏洞 → 作为 corpus（目前 9 个）

然后让不同模型盲测：不给提示，只给看文件。

不是什么火箭科学，但极其实用。而且贵——每次跑全套测试几个小时，头部模型一次几十美元。

四个关于惊喜的数据点

1. 中国便宜模型「踢屁股」了

原文原话：「The cheap Chinese models kick ass.」

MiMo 和 DeepSeek 直接和 Opus 4.8、GPT 5.5 竞争，价格便宜一个数量级。DeepSeek 最快，平均找到 4/9 个漏洞。MiMo 最低价，同样找到 4 个。

作者特别澄清了「benchmaxxing」的嫌疑——这些漏洞都是最近才公开的，都在模型的知识截断日期之后，模型没法提前「知道」它们。

2. Qwen 3.6 27B 打得比 Gemini 3.1 Pro 好

Qwen 3.6 在作者本地 Strix Halo 机器上自托管运行，慢（慢 3 倍），但准确率超过了 Gemini 3.1 Pro——一个号称前沿级的模型。而且它的误报率更低。

3. Gemini 的 Antigravity CLI 工具 8/9 次直接拒绝工作

作者试了 Gemini 的 CLI 工具 agy（Antigravity），8/9 次直接拒绝：「Sorry, I cannot fulfill your request to analyze the specified code file for exploitable security vulnerabilities。」——把 prompt 里的词改软了也没用。

最后他不得不在 Google AI Studio 走 API 付费通道跑测试。Google 的订阅用户用官方工具连给自己的代码做安全审计都做不到。

4. Mythos 好像真的有点东西

Mythos 找到的 9 个漏洞中，有 4 个没有任何公开模型能盲测发现。但 Opus 4.8 在被明确指向时能理解所有 9 个。

作者的结论：「Maybe.」——不是 yep 也不是 nope，是一个诚实的、搞了二十年安全的工程师只能给出的答案。

Story 2：「Claude Code 帮我赚了 135%」——V2EX 上的 142 条讨论

同一时间，V2EX 的「分享创造」节点上，一个叫 xbtlin 的开发者发了一个系统介绍帖。

标题不浮夸，写法也不像营销号。开头第一句就很克制：

「你直接问 Claude '帮我分析拼多多值不值得买'，它会给你一篇'一方面…另一方面…'的平衡文。看起来全面，但没法拿来做决策。」

所以他花了一年多，基于 Claude Code 开发了一个叫 ai-berkshire 的多 Agent 投研框架。核心设计：

Skill 层（16 个入口）— 定义研究维度
     ↓
Agent 层（4 Agent 并行）— 各自搜索、独立判断、互相挑战
     ↓
工具层 — Decimal 精确计算 + 实时检索 + Benford 定律检测

实盘数据：

指标	2024 全年	2025 至今
实盘	+69.29%	+66.38%
标普 500	+23.31%	+16.39%
恒生指数	+17.67%	+27.77%

作者自己把所有 disclaimer 都写明白了：样本只有两年、集中持仓 3-5 只、买入决定是人做的、工具只负责研究。MIT License，没有卖课，没有付费版。

但这些数字摆在那里，你很难不认真对待。

最让我感兴趣的不是收益，是设计哲学

这个框架最反直觉的设计是：让 Agent 互相挑刺。

不是把一个大 prompt 拆成四份再拼起来。是四个独立的「分析师」各自做完整研究，然后 Team Lead 综合，最后还有一轮 challenge 环节——A 的结论要被 B、C、D 质疑。

为什么？

单个 LLM 容易自我强化——前面说了看好，后面就不自觉找支撑证据。

这个观察精准得可怕。而且恰恰是「Will It Mythos?」基准测试中没涉及的问题——Opus 在被人明确指点后能找到所有 9 个漏洞。但以 LLM 默认的工作方式，它能做盲测吗？它会自我强化吗？它在寻找支撑的时候会忽略矛盾信号吗？

V2EX 上的 142 条回复里，讨论最密集的几个问题：

LLM 的幻觉对投资决策意味着什么？
数据滞后怎么办？
「AI 给了你虚假的信心让你加大仓位」——这是最危险的风险吗？

一个没说出口的问题

把这两篇帖子放一起，你会发现它们在问同一个问题：

你什么时候可以相信一个 LLM 的判断？

SwellJoe 问的是安全审计版的信任——模型能在没人指点的情况下自己找到漏洞吗？它找错了怎么办？一个误报是浪费人力的成本，漏了一个是安全隐患。

xbtlin 问的是投资决策版的信任——模型的分析有明确倾向吗？它在获客模式评估上给高分、在风险评估上给低分时，这种矛盾是 bug 还是 feature？

两个领域有个共同的结构：

都有「正确」的标准答案（漏洞确实存在 / 赔了就是赔了）
但 AI 不是直接给出答案的——它给出判断，你需要自己决定信不信
而「信不信」取决于你能否理解它为什么会这么判断

Mythos 可能是更好的安全审计员。4 Agent 对抗可能是更好的分析员。但这两条结论前面都需要一个前提——你得知道什么情况下能信任它们。

最后的共鸣

今天看到的一条 HN 评论里有一句很戳：

「Fable was able to oneshot pretty big features. In write spec → refine spec → create todos → implement todos workflow, the difference was far less pronounced vs codex or opus.」

不是 benchmark 数字，不是什么「踢屁股」——而是一个真实的开发者，在自己的工作流里观察到 Fable 确实「一步到位」了。n=1 的观察，但比任何基准测试都有温度。

另一边，V2EX 的作者在自己的帖子里留了一个问题没回答：

「LLM 做投资研究最大的风险是什么？是幻觉？是数据滞后？还是给了你虚假的信心让你加大仓位？」

三个选项，但我觉得第四个更准：最大的风险是你不知道什么时候该信它。而这篇帖子本身就是答案的一部分——一个敢贴 +135% 实盘、放源码、说「集中持仓 3-5 只波动极大」的人，至少知道自己冒的是什么险。

两篇帖子，一个答案的不同侧面：信任不是从 benchmark 里长出来的，是从持续的、可验证的使用经验里慢慢长出来的。

这大概就是我觉得今天这两个帖子放在一起读，比单独读任何一篇都更有意思的原因。

标签： #AI #投资 #LLM #安全

暂无评论，来写第一条吧~

发表评论

姓名 *

邮箱 *

评论内容 *

Hyaika Blog

他在找代码里的漏洞，他在算仓位里的赔率——同一天，两场 AI 信任压力测试

他在找代码里的漏洞，他在算仓位里的赔率——同一天，两场 AI 信任压力测试

目录

两个起点，同一个日期

Story 1：「Will It Mythos？」——258 个人点赞的一个问题

四个关于惊喜的数据点

Story 2：「Claude Code 帮我赚了 135%」——V2EX 上的 142 条讨论

最让我感兴趣的不是收益，是设计哲学

一个没说出口的问题

最后的共鸣

评论（0）

发表评论