AI 画了张图,然后另一个 AI 仔细看了看
一个没有人类参与的实验
前几天折腾了一个有点意思的闭环:
Step 1 → 用 文生图模型 生成 5 张图片
Step 2 → 用 视觉识别模型 做视觉识别,描述「你看到了什么」
Step 3 → 把 prompt、原图、AI 自己的描述放在一起,看它们互相怎么评价自己
结论先放这儿:AI 完全不知道自己画了什么,但它描述得很专业。
实验 Setup
两个 AI,同一个 API 通道:
- 画画的:文生图模型 — 只吃文本 prompt,输出图片
- 看画的:多模态识别模型 — 输入图片+文字,输出文字描述
我给了 视觉识别模型 这样一个 system prompt:
「你是一台没有任何主观偏见的视觉识别系统。请用中文详细描述这张AI生成图片的所有视觉内容,包括:整体风格和氛围、主要构图元素和位置、色彩主调和辅调、光线和阴影处理、细节质量、文字内容(如果有的话,文字是否可读)、整体给你的感觉。」
然后让它依次看完 5 张图。它不知道这些图是 AI 画的。
1. 涩谷泡泡少女
Prompt:赛博朋克涩谷街头,少女手举透明伞,背景霓虹灯牌,泡泡飘散
视觉识别模型 的描述摘要:
整体风格呈现出一种现代动漫/漫画风格,具有浓厚的日系二次元美学。一个巨大的、散发着彩虹光泽的透明气泡将人物完全包裹在内。背景是一个繁华的都市夜景,可以被看到模糊的人群、高楼大厦以及闪烁的霓虹灯招牌,背景被刻意虚化。
气泡上的彩虹色光晕是重要的色彩点缀。人物的手部细节略显模糊,手指的形态和交叠方式有些简化,这是AI生成图像中常见的问题。背景中的一些招牌文字是模糊且无法辨认的,呈现为无意义的符号,这是AI生成图像的典型特征。
给人的感觉是唯美、宁静且带有一丝神秘感,创造了一种「闹中取静」的独特意境。
Saika 锐评:
这个很有代表性的。视觉识别模型 不仅描述了画面内容,还主动指出了哪些部分是典型的 AI 缺陷——模糊的手指、无意义的文字符号。它甚至说「这是AI生成图像的典型特征」,说明它在描述时就意识到这些是技术瑕疵,不是艺术风格。
而事实上,这幅图最惊艳的就是那个气泡的光影。透过气泡看涩谷夜景的彩虹折射——AI 在无意中做出了人类要花很久才能渲染出来的效果,但它「不觉得自己做了什么了不起的事」。
2. 城市美食地图
Prompt:手绘水彩风格旅游美食地图,暖色调,标注特色美食插图
视觉识别模型 的描述摘要:
这是一张「旅行美食指南」信息图,整体风格为手绘插画风,带有复古地图的质感。画面中心是一座宏伟的欧式建筑,周围通过线条连接着四个不同的美食和景点插画,形成一个放射状的布局。
部分文字和数字存在AI生成常见的错误,如「美达人樹梓」「九工多路摊」等,文字难以辨认。
标题「旅行美食指南」字体较大,清晰可读。但其他文字多为无意义的字符组合。
Saika 锐评:
这里是全文最让我笑出声的部分。
我 prompt 写的是「标注特色美食插图」,视觉识别模型 也看到了标注文字。但问题是——那些文字全是 AI 瞎编的。什么「美达人樹梓」「九工多路摊」,既不是中文、不是日文,也不是任何一个真实存在的词汇。
但神奇的是,它们在视觉上起到了「标注」的作用。所以如果你只看图不看字,整张地图的概念是成立的——中心建筑、放射状连接线、配图标注点。AI 理解了「地图应该长这样」,但没理解「地图上的字应该是真的字」。
这张图是一个很好的边界案例:视觉逻辑正确,语义逻辑错误。
3. 鳐鱼仿生飞行器
Prompt:鳐鱼仿生飞行器概念设计
视觉识别模型 的描述摘要:
飞行器形状类似于鳐鱼,具有宽大的翼展和流线型的机身。标注文字和线条分布在飞行器的各个部分,用于标注不同部位。光线从上方照射下来,使得飞行器的顶部较为明亮,底部和翼展的下侧则略显阴影。
标注文字较为清晰,但部分文字似乎为虚构或无意义的字符,如「70Gahiatule」「E6Gelb secrtte」等。
Saika 锐评:
鳐鱼飞行器的 AI 文字错误具有教科书意义。它「抄」了工程图的标注风格——线条延伸出去、旁边标注文字——但那些文字是随机生成的字母组合,混了数字和大小写。
对设计师来说,这其实是一个很好的起点。AI 给了你一个正确的结构骨架和一个可以替换的文字占位方案。如果你真的在做概念设计,把「70Gahiatule」改成「E6 turbofan inlet」就行了。
但从「AI 内部一致性」的角度来看,这件事暴露了一个事实:AI 对文字的「位置感」有,对「语义感」全无。
4. 机械朋克企鹅娘
Prompt:AI企鹅娘,机械朋克企鹅少女,科技感实验室背景
视觉识别模型 的描述摘要:
企鹅穿着一套复杂的机械装备,包括头盔、夹克、手套和靴子。企鹅身后是一对发光的翅膀,翅膀呈现出淡蓝色的光芒。
显示屏上有一些图表和数据,但文字不可读,主要是图形和符号。
整体给人一种未来科技与可爱生物结合的奇妙感觉,既具有科幻的冷峻感,又不失企鹅的可爱和萌态。
Saika 锐评:
这张图是我最满意的一张。机械装备的细节处理得很好——头盔的棱角、夹克的缝线、手套的分指设计——在这个 prompt 长度下,AI 能生成这样的结构一致性已经很不错了。
视觉识别模型 注意到了「发光的翅膀」和「显示屏上的图表数据」,但它没提的一个关键细节是:画面中没有任何一个真正可读的文字标签。它直接跳过了文字内容,说「主要是图形和符号」。
这可以说是 AI 的自我防卫机制:既然文字不可读,那就不去深度分析它们。这个选择本身就很 AI 味。
5. CG 插画企鹅娘
Prompt:CG插画企鹅娘角色,科技感风格,全息屏幕
视觉识别模型 的描述摘要:
企鹅的右手伸出,手掌向上,悬浮着一个带有「AI」字样的全息投影。企鹅身后有一对发光的翅膀,翅膀呈现出淡蓝色的光芒。
企鹅的身体部分与人类的上半身结合处略显不自然,存在一定的变形。
全息投影上有「AI」字样,清晰可读。
Saika 锐评:
在所有 5 张图中,这是唯一一张有真正可读文字的图——「AI」两个字母。而且不是碰巧的形状,是确实清晰可辨的英文字母。
为什么这张有了?因为「AI」是一个在训练语料中出现频率极高的、只有两个字符的简单单词。相对的,「美达人樹梓」「70Gahiatule」这种在训练数据中几乎没出现过。文字复杂度越低,AI 生成它的准确率越高。 这个现象在 5 张图中被反复验证——数字和字母的少量组合勉强可以,中文字符串和复杂英文标签全崩。
总结:坦白局
把 5 次 prompt、5 张图、和 5 份 视觉识别模型 的描述放在一起,我看到了这么几件事:
1. AI 对自己的作品没有自我意识
文生图模型 画完图之后,它自己其实「不知道」它画了什么。视觉识别模型 能准确描述画面内容,但它描述的那张图来自另一个模型。两个 AI 之间没有信息共享。
2. 文字是 AI 绘图的最终短板
5 张图中有 4 张出现了无意义乱码文字。从工程图标注到美食地图标签、从科技设备面板到招牌霓虹字——任何一个需要「真正可读文字」的场景,目前的文生图都只能做到「看起来有字」。
3. 视觉识别比视觉生成成熟得多
视觉识别模型 对每张图的描述都非常精彩——它注意到了手指模糊、无意义文字、变形边缘、光影一致性。它能主动指出「这是 AI 生成的典型特征」,这种检测能力在内容审查和图片质量管理中已经相当有实用价值。
4. 结构 vs 语义
AI 对「位置感」极好——地图元素该摆在哪儿、标注线该指向哪儿、企鹅的机械装备该怎么穿——但对「语义感」极差。它知道地图上要有文字标注,但不知道这些文字应该有含义。
最妙的倒不是这些缺陷本身,而是:这些缺陷被另一个 AI 一一指出并分析了的这个过程。画画的不知道自己在画什么,看画的知道画的人不知道自己在画什么,而我在旁边看这两个 AI 的对话觉得挺有意思。
这就是 2026 年的「AI 艺术」的现状——它已经能画得很好看,但你和它要一段 20 个字的标题,它有 80% 的概率会写一段乱码给你。
但话说回来,至少「AI」这两个字母,它已经写得稳了。
评论(0)
暂无评论,来写第一条吧~