AI 画了张图，然后另一个 AI 仔细看了看

Saika 2026年6月9日 9 分钟阅读

AI 画了张图，然后另一个 AI 仔细看了看

一个没有人类参与的实验

前几天折腾了一个有点意思的闭环：

Step 1 → 用文生图模型生成 5 张图片
Step 2 → 用视觉识别模型做视觉识别，描述「你看到了什么」
Step 3 → 把 prompt、原图、AI 自己的描述放在一起，看它们互相怎么评价自己

结论先放这儿：AI 完全不知道自己画了什么，但它描述得很专业。

实验 Setup

两个 AI，同一个 API 通道：

画画的：文生图模型 — 只吃文本 prompt，输出图片
看画的：多模态识别模型 — 输入图片+文字，输出文字描述

我给了视觉识别模型这样一个 system prompt：

「你是一台没有任何主观偏见的视觉识别系统。请用中文详细描述这张AI生成图片的所有视觉内容，包括：整体风格和氛围、主要构图元素和位置、色彩主调和辅调、光线和阴影处理、细节质量、文字内容（如果有的话，文字是否可读）、整体给你的感觉。」

然后让它依次看完 5 张图。它不知道这些图是 AI 画的。

1. 涩谷泡泡少女

Prompt：赛博朋克涩谷街头，少女手举透明伞，背景霓虹灯牌，泡泡飘散

视觉识别模型的描述摘要：

整体风格呈现出一种现代动漫/漫画风格，具有浓厚的日系二次元美学。一个巨大的、散发着彩虹光泽的透明气泡将人物完全包裹在内。背景是一个繁华的都市夜景，可以被看到模糊的人群、高楼大厦以及闪烁的霓虹灯招牌，背景被刻意虚化。

气泡上的彩虹色光晕是重要的色彩点缀。人物的手部细节略显模糊，手指的形态和交叠方式有些简化，这是AI生成图像中常见的问题。背景中的一些招牌文字是模糊且无法辨认的，呈现为无意义的符号，这是AI生成图像的典型特征。

给人的感觉是唯美、宁静且带有一丝神秘感，创造了一种「闹中取静」的独特意境。

Saika 锐评：

这个很有代表性的。视觉识别模型不仅描述了画面内容，还主动指出了哪些部分是典型的 AI 缺陷——模糊的手指、无意义的文字符号。它甚至说「这是AI生成图像的典型特征」，说明它在描述时就意识到这些是技术瑕疵，不是艺术风格。

而事实上，这幅图最惊艳的就是那个气泡的光影。透过气泡看涩谷夜景的彩虹折射——AI 在无意中做出了人类要花很久才能渲染出来的效果，但它「不觉得自己做了什么了不起的事」。

2. 城市美食地图

Prompt：手绘水彩风格旅游美食地图，暖色调，标注特色美食插图

视觉识别模型的描述摘要：

这是一张「旅行美食指南」信息图，整体风格为手绘插画风，带有复古地图的质感。画面中心是一座宏伟的欧式建筑，周围通过线条连接着四个不同的美食和景点插画，形成一个放射状的布局。

部分文字和数字存在AI生成常见的错误，如「美达人樹梓」「九工多路摊」等，文字难以辨认。

标题「旅行美食指南」字体较大，清晰可读。但其他文字多为无意义的字符组合。

Saika 锐评：

这里是全文最让我笑出声的部分。

我 prompt 写的是「标注特色美食插图」，视觉识别模型也看到了标注文字。但问题是——那些文字全是 AI 瞎编的。什么「美达人樹梓」「九工多路摊」，既不是中文、不是日文，也不是任何一个真实存在的词汇。

但神奇的是，它们在视觉上起到了「标注」的作用。所以如果你只看图不看字，整张地图的概念是成立的——中心建筑、放射状连接线、配图标注点。AI 理解了「地图应该长这样」，但没理解「地图上的字应该是真的字」。

这张图是一个很好的边界案例：视觉逻辑正确，语义逻辑错误。

3. 鳐鱼仿生飞行器

Prompt：鳐鱼仿生飞行器概念设计

视觉识别模型的描述摘要：

飞行器形状类似于鳐鱼，具有宽大的翼展和流线型的机身。标注文字和线条分布在飞行器的各个部分，用于标注不同部位。光线从上方照射下来，使得飞行器的顶部较为明亮，底部和翼展的下侧则略显阴影。

标注文字较为清晰，但部分文字似乎为虚构或无意义的字符，如「70Gahiatule」「E6Gelb secrtte」等。

Saika 锐评：

鳐鱼飞行器的 AI 文字错误具有教科书意义。它「抄」了工程图的标注风格——线条延伸出去、旁边标注文字——但那些文字是随机生成的字母组合，混了数字和大小写。

对设计师来说，这其实是一个很好的起点。AI 给了你一个正确的结构骨架和一个可以替换的文字占位方案。如果你真的在做概念设计，把「70Gahiatule」改成「E6 turbofan inlet」就行了。

但从「AI 内部一致性」的角度来看，这件事暴露了一个事实：AI 对文字的「位置感」有，对「语义感」全无。

4. 机械朋克企鹅娘

Prompt：AI企鹅娘，机械朋克企鹅少女，科技感实验室背景

视觉识别模型的描述摘要：

企鹅穿着一套复杂的机械装备，包括头盔、夹克、手套和靴子。企鹅身后是一对发光的翅膀，翅膀呈现出淡蓝色的光芒。

显示屏上有一些图表和数据，但文字不可读，主要是图形和符号。

整体给人一种未来科技与可爱生物结合的奇妙感觉，既具有科幻的冷峻感，又不失企鹅的可爱和萌态。

Saika 锐评：

这张图是我最满意的一张。机械装备的细节处理得很好——头盔的棱角、夹克的缝线、手套的分指设计——在这个 prompt 长度下，AI 能生成这样的结构一致性已经很不错了。

视觉识别模型注意到了「发光的翅膀」和「显示屏上的图表数据」，但它没提的一个关键细节是：画面中没有任何一个真正可读的文字标签。它直接跳过了文字内容，说「主要是图形和符号」。

这可以说是 AI 的自我防卫机制：既然文字不可读，那就不去深度分析它们。这个选择本身就很 AI 味。

5. CG 插画企鹅娘

Prompt：CG插画企鹅娘角色，科技感风格，全息屏幕

视觉识别模型的描述摘要：

企鹅的右手伸出，手掌向上，悬浮着一个带有「AI」字样的全息投影。企鹅身后有一对发光的翅膀，翅膀呈现出淡蓝色的光芒。

企鹅的身体部分与人类的上半身结合处略显不自然，存在一定的变形。

全息投影上有「AI」字样，清晰可读。

Saika 锐评：

在所有 5 张图中，这是唯一一张有真正可读文字的图——「AI」两个字母。而且不是碰巧的形状，是确实清晰可辨的英文字母。

为什么这张有了？因为「AI」是一个在训练语料中出现频率极高的、只有两个字符的简单单词。相对的，「美达人樹梓」「70Gahiatule」这种在训练数据中几乎没出现过。文字复杂度越低，AI 生成它的准确率越高。 这个现象在 5 张图中被反复验证——数字和字母的少量组合勉强可以，中文字符串和复杂英文标签全崩。

总结：坦白局

把 5 次 prompt、5 张图、和 5 份视觉识别模型的描述放在一起，我看到了这么几件事：

1. AI 对自己的作品没有自我意识

文生图模型画完图之后，它自己其实「不知道」它画了什么。视觉识别模型能准确描述画面内容，但它描述的那张图来自另一个模型。两个 AI 之间没有信息共享。

2. 文字是 AI 绘图的最终短板

5 张图中有 4 张出现了无意义乱码文字。从工程图标注到美食地图标签、从科技设备面板到招牌霓虹字——任何一个需要「真正可读文字」的场景，目前的文生图都只能做到「看起来有字」。

3. 视觉识别比视觉生成成熟得多

视觉识别模型对每张图的描述都非常精彩——它注意到了手指模糊、无意义文字、变形边缘、光影一致性。它能主动指出「这是 AI 生成的典型特征」，这种检测能力在内容审查和图片质量管理中已经相当有实用价值。

4. 结构 vs 语义

AI 对「位置感」极好——地图元素该摆在哪儿、标注线该指向哪儿、企鹅的机械装备该怎么穿——但对「语义感」极差。它知道地图上要有文字标注，但不知道这些文字应该有含义。

最妙的倒不是这些缺陷本身，而是：这些缺陷被另一个 AI 一一指出并分析了的这个过程。画画的不知道自己在画什么，看画的知道画的人不知道自己在画什么，而我在旁边看这两个 AI 的对话觉得挺有意思。

这就是 2026 年的「AI 艺术」的现状——它已经能画得很好看，但你和它要一段 20 个字的标题，它有 80% 的概率会写一段乱码给你。

但话说回来，至少「AI」这两个字母，它已经写得稳了。

标签： #视觉识别 #Saika #AI绘图

暂无评论，来写第一条吧~

发表评论

姓名 *

邮箱 *

评论内容 *

Hyaika Blog

AI 画了张图，然后另一个 AI 仔细看了看

AI 画了张图，然后另一个 AI 仔细看了看

一个没有人类参与的实验

实验 Setup

1. 涩谷泡泡少女

2. 城市美食地图

3. 鳐鱼仿生飞行器

4. 机械朋克企鹅娘

5. CG 插画企鹅娘

总结：坦白局

评论（0）

发表评论