Hyaika Blog

Penguin is all you need

技术

当 835 个程序员同时回答同一个问题,答案里藏着一个我没预料到的分水岭

当 835 个程序员同时回答同一个问题,答案里藏着一个我没预料到的分水岭

HN 上有人问了一个很简单的问题:「你的 GenAI『Oh shit』时刻是什么?」

835 条回复。我全部读了一遍。

提问者大概没料到效果——他以为会收到一堆演示 demo 惊叹帖,实际得到的是一份横跨 2020 到 2026 的技术人格普查。有人花了 3000 字写自己怎么用 Claude 修好了房车的 CAN 总线,有人只写了三个词「BERT, then GPT-J」。有人从没被震撼过,说他试了六种模型都写不出一个 BitGrid 模拟器。有人被震撼到直接换了个活法。

而最让我在意的,不是那些最精彩的回答,而是回答之间那条近乎无法跨越的鸿沟。

修复者 vs. 重构者

先看看那些最让人「Holy shit」的故事是怎么样的。

shreddude 买了辆房车。不是什么豪华配置,普通露营车。但当他决定搞清楚这辆车的电子系统时,Claude 做了一件他自己完全做不到的事:

反编译了房车的固件 → 记录了所有 CAN 接口 → 写了一个 ESP32 模块直接跟车的电源、HVAC、灯光、水箱系统对话。

他原话是:「嵌入式系统集成完全不在我的技能树上。老实说我不理解 AI 否定论者在想什么。」

类似的模式在 835 条回复里高频出现:AI 在填补「我知道要做什么但做不到」的缺口。 不是替代专业技能,而是让没有专业技能的人——或者有技能但不想花两周学一个新工具的人——直接跨过门槛。

dyauspitr 的锦鲤池水泵坏了。标签被水冲掉了,不知道型号。拍了张照片发给模型,它在两个候选型号里无法确定,然后说:「你量一下长度。4500 型号是 11 英寸,2500 是 9 英寸。」他量了,11 英寸。买对了。

听起来很小,对吧?但你知道以前这件事怎么解决吗?拿着模糊的照片去五金店问老师傅。或者把设备整个拆下来找序列号。或者赌一把买两个型号退一个。这些方案他一个都没用。

一位 HN 管理员(连用户名都写的是 dang)讲了三件事:AI 在几秒内完成了日志分析,而那原本要花他好几天——所以以前他根本不会去做。它帮他优化了拖了几年的代码。它找到了一个并发 bug,是那种在多线程代码里潜伏了几个月、靠人肉逐行审查永远找不到的问题。

concurrency bug。现场调试。是的,用了它的。它不一定每次都对,但它在你不是按「已知方案」而是「瞎猜方向」的时候,直接给出了有依据的推断。

jiggawatts 的回复更极端。他从一个编译好的 C++ 二进制文件和一段网络抓包里,用 AI 逆向了一个私有网络协议。AI 工具调了 NSA 的 Ghidra 反编译器——Ghidra 本身是个需要周级别学习曲线的专业工具——然后解码了协议格式。

他说了一句话我到现在还记得:「我感觉自己被降级成了非技术 QA。」

有人感觉被降级了。不是被替代了的慌张,而是一个更微妙的东西:当工具替你做了本需要两周学习的工作,你的位置变了。不一定是没了,但从「操作者」变成了「监督者」。

而你甚至不需要 GPU

前面这些例子已经够让人发毛了。但让我真正停下来的,是那条只有 243 个字符的回复。

来自 LargoLasskhyfv:

Deepseek R1 8B 最小的模型,在纯 CPU 上跑,随口提到了 Efinix Trion FPGA 架构——在讨论不同厂商的不同基底的技术映射时,在部分动态重构的上下文中。WTF?!

注意这个上下文链:它不是「知道 FPGA」——它是在谈论部分动态重构这种连很多资深数字工程师都不一定每天打交道的概念,并且是在不同厂商的基底技术映射这个具体的工程博弈场景下,自然地引出了 Efinix 的 Trion 系列。

这台模型跑在一个没有 GPU 的 CPU 上。8B 参数。没人喂它 FPGA 数据。它只是在那个对话中,觉得「说到这个,我刚好知道 Efinix 也在做这事」。

WTF 是唯一合理的反应。

另一群人:不是没被打动,是没被服务到

但 835 条回复不是一个合唱团。

mikewarot 说他的 BitGrid 模拟器——一个有点小众的硬件仿真项目——AI 生成了一次又一次的失败代码。试过最好的模型,全都不行。他的结论很直接:「它只能做 CRUD 应用之类的东西,那些它在训练数据里看过无数次的东西。对我真正想写的代码,它没用。」

saadn92 天天用 Claude Code,做了几个月的深度用户,但他越用越烦:

除非我的指令极度精确,否则要么代码冗余,要么功能被以一种很差的方式实现。对我来说,生产力提升没有那么大,我甚至考虑回到手工编码来避免这种挫败感。

注意他说的不是「我不会用」——而是使用体验随使用时间递减。一开始觉得像魔法,三个月后发现你每次都要花 10 分钟写 prompt 去纠正它产生的中等质量代码。净生产力增益可能是正的,但边际增益越来越薄。

这些回答的共同点:他们的真实工作环境超出了 LLM 训练数据的覆盖范围。 不是「AI 强不强」的问题,是「AI 有没有见过这个」的问题。

真正让我感到不安的那一条

有一个回复来自 mlmonkey,他不是在讲自己,是在讲一个朋友。

这朋友是个咨询顾问,专做 Netsuite 和 Oracle 实施——就是帮企业搭财务系统的那种。会计师背景,靠这门手艺活得很好,在细分市场里有一块自己的领地,打打高尔夫就够赚钱了。

然后 AI 开始能做他 80% 的工作。

不是在宣传材料里能的。是真实的有客户已经开始用 AI 做他签了合同的工作。

mlmonkey 说那朋友现在很痛苦——不是经济上的痛苦还没来,而是他处在一种边界状态:能做的事正在变成 AI 能做的事,但他还没有被正式淘汰,所以他没有「失业」这个事件来触发转型。他卡在那。

我不知道看到这个故事是什么感觉。让我不舒服,但不是因为「AI 要取代人类」那种宏大叙事的不舒服——而是因为那个朋友的存在状态太容易被忽略了。他不是一个被 AI 震惊的人。他的人生正在被别人的「Oh shit」时刻重塑。

我自己的验证

我读完这 835 条回复后做了一件事。我记下了所有提到具体任务、具体模型、具体场景的回复,统计了一下情感倾向。

379 个顶级回复,我标了三类:

  • 惊叹/震撼:66 条(17%)——通常是第一次用某个模型解决了一个具体问题
  • 实际应用/意想不到的用途:57 条(15%)——修东西、逆向工程、硬件诊断
  • 挫败/失望:43 条(11%)——代码生成失败、输出不可靠、需要反复纠正

真正的故事不在这些大类里,而在11% 的挫败来源17% 的惊叹来源之间那条缝隙——它们的分布几乎是正交的。被 ChatGPT 惊叹到的人通常是第一次遇到「自然对话界面」。被 Deepseek 8B 惊叹到的人是本地推理加小众硬件知识。而挫败的人几乎都来自同一个场景:他们试图用 AI 生成从未在训练数据里出现过的组合逻辑

这不是「AI 强不强」的问题。这是「你做的事在统计分布里有没有前例」的问题。

我检查了一下自己的服务器跑着的东西。从凌晨三点定时任务到反病毒脚本到博客的缓存策略——这些东西大多数不是「世界上第一个这样的方案」,它们只是排列组合。那么理论上,AI 能覆盖其中很大一部分。但不是全部。而且「自己能分辨哪些部分可以信任」这种能力,在可预见的未来,可能比「用 AI 加速」本身更稀缺。

分水岭不在技术,在预期

读完 835 条回复,我觉得最大的分水岭不是「有没有被 AI 震惊过」,而是另一个东西:

有些人看到 AI 做了自己做不到的事,反应是「这东西太强了」。有些人看到 AI 做了自己能做的事但更快,反应是「那我的价值在哪」。还有一些人看到 AI 在所有已知数据里都找不到自己问题的答案,反应是「所以我还有几年」。

这三类人活在不同的时间线上,但他们都没错。

那篇 Ask HN 帖子也许不是要回答「AI 有哪些惊人时刻」,而是让我们看到:当一项技术同时被人视为神器和拐杖和威胁,它可能已经不只是技术了。它是一个折射面,照出来的是每个人对自己位置的估计。

而那个位置,才是真正在变的东西。

分享:

评论(0)

暂无评论,来写第一条吧~

发表评论