Cloudflare 的 7 月 1 日:一边堵爬虫,一边开钱庄
目录
- 9 月 15 日起,混合用途爬虫默认被挡在广告页面外
- x402 + Monetization Gateway:HTTP 402 状态码,30 年后终于被用上了
- 放在一起看:同一个故事的两面
- 现场验证:我自己的服务器,36% 的流量不是人
- 最后:互联网正在从「注意力经济」走向「请求经济」
9 月 15 日起,混合用途爬虫默认被挡在广告页面外
Cloudflare 昨天(7 月 1 日)发了两个公告。一个是防御性的,一个是进攻性的。放在一天发,大概是有意为之。
先说防御的那个。
Matthew Prince 的原话很直接:「互联网上大部分流量已经不是人类了。」
从 2026 年 9 月 15 日起,所有新 Cloudflare 客户(以及现有客户的未修改配置的新站点)将默认启用一个规则:允许搜索引擎爬虫,但阻止训练爬虫和 AI agent 访问带广告的页面。 免费版客户如果从未动过设置,也会被自动纳入。
触发这个规则的关键点是「混合用途」——Googlebot 既抓取搜索索引,又采集 AI 训练数据。Applebot 同理,为 Apple Intelligence 及其工具链收集数据。微软的 Bingbot 也干同样的事。以往,站长们不敢封这些爬虫,因为一封信可能就从 Google 搜索结果里消失了,损失远超 AI 公司「借用」内容消耗的带宽。
Cloudflare 这个改动给出了一条新的中间路线:你要爬你的搜索索引,可以;要拿我的内容喂你的模型,不行。两类目的用各自的 robots.txt directive 区分——Google-Extended、Applebot-Extended 这些标签从此不只是「礼貌请求」了,Cloudflare 会强制执行。
同时宣布的还有两件事:
- Pay Per Crawl → 更名为 Pay Per Use,并和 Ceramic.ai(API 搜索平台)、You.com(AI agent 搜索引擎)合作,当内容出现在这些平台的搜索结果中时,站长能直接收到付款。
- Business Insights Dashboard,让站长能看清自己的站被什么爬虫在什么时间以什么频率访问——这是一份过去根本没有的透明度。
x402 + Monetization Gateway:HTTP 402 状态码,30 年后终于被用上了
如果说上面那条是「关门」,那这条就是「开门——但是要收费」。
Cloudflare 公布了 Monetization Gateway(货币化网关),一个让站长可以对任何 Cloudflare 保护的资源按请求收费的基础设施。网页、数据集、API 端点、MCP 工具——全都可以贴上一个价签。
收费方式不是绑信用卡,而是通过 x402 协议——一个开放的、基于 HTTP 402 Payment Required 状态码的微型支付标准。x402 由 Cloudflare 和 Coinbase 等 25 家组织共同推动,已加入 Linux Foundation。
工作流极其简洁:
- Agent 请求一个受保护的 URL → 标准的 HTTP GET
- Cloudflare 返回 402 Payment Required,附带价格、接受的币种(USDC、Open USD 等稳定币)和支付地址
- Agent 支付 → 链上几乎零费用的微交易(可以低至 0.1 美分)
- Agent 带着支付凭证重发请求 → Cloudflare 验证 → 放行
整个过程没有重定向到结账页面,没有 API key 申请,没有「创建账户」。Agent 不需要是站长的客户,它只需要有链上钱包和一个想完成的请求。
Monetization Gateway 还支持灵活的计价规则:按 HTTP 方法计费(GET /api/premium/* 每次 0.01 美元)、按任务复杂度浮动定价(如生图最多 2 美元)、仅对未认证调用收费(已有 API key 的用户走正常流程,Agent 走 402)。
放在一起看:同一个故事的两面
两则公告看似一个堵一个开,但它们指向同一个结论:互联网的商业模式正在发生结构性的迁移。
过去 30 年的网页经济建筑于一个简单的合约:用户用注意力交换内容,广告把注意力变现。不管这个合约有多少问题(隐私、广告欺诈、用户体验退化),它至少是一个闭环。
Agent 打破了它。Agent 没有「注意力」可出售,它不看广告,不订阅,不会因为一封 newsletter 写得漂亮就点一个 banner。它在互联网上干的每一件事都是一次 HTTP 请求——一次原子化的、目的明确的、瞬时完成的信息获取。
这意味着什么?意味着未来互联网上的每一笔价值交换,都要在请求级别完成。 不再等月底发票,不再签季度合同,不再靠「我们会在后台收集你的匿名行为数据然后定向投喂广告」这种幽暗模式来变现。
Cloudflare 的两则公告同时回答了两个问题:
- 一个问题是「不想被白嫖怎么办」→ 把门关上(默认阻止混合爬虫)
- 另一个问题是「想被付费怎么办」→ 开个新门(Monetization Gateway)
现场验证:我的服务器,36% 的流量不是人
Cloudflare 的 Matthew Prince 说「互联网上大部分流量已经不是人类」。这个「大部分」是多少?我没法量整个互联网,但我能量自己的服务器——就这台 4C8G 的小 VPS,跑着 Hyaika 博客和几个小服务。
翻了一下最近 500 条 HTTP 请求日志:
非人类流量占比:36%。
这 36% 里包括:
- 搜索引擎爬虫(Googlebot、Bingbot、Baiduspider…)
- AI 训练采集爬虫(看到若干
python-requests、httpx、不带 User-Agent 的匿名访问) - 扫描器和探测工具(
fasthttp、Go-http-client之类的常客) - 监控和 RSS 订阅轮询(轻量的,但也算非人类)
36% 不算「大部分」,但我这只是一个日 PV 三位数的个人站。对大型内容站、电商站、新闻站来说,这个比例是完全不同的量级——Cloudflare 自己的数据显示,AI 训练爬虫对某些大型网站的请求量是人类访客的 100 到 10,000 倍。
有意思的是,这 36% 里最频繁的那几个爬虫,我从来没给它们多少有价值的内容(博客主要是中文文章)。但如果我是一个靠内容变现的站长——比如运营一个专业科技新闻站——这些爬虫就是在吃掉我的利润。
最后:互联网正在从「注意力经济」走向「请求经济」
PS。x402 协议的设计文档里有一句话让我停了一会——「x402 absolves the Internet's original sin」。原罪。 写得好妙。互联网从一开始就没想过怎么收钱——TCP/IP 设计的出发点是可靠通信,不是可靠交易。HTTP GET 在语义上等于「请求一个资源」,不是「购买一个资源」。广告系统是后来贴上去的补丁,就像一个给企鹅穿羽绒服——能保暖,但从来就不是设计给它的。
Agent 让这个补丁彻底失效了。但与此同时,Agent 本身也带来了一种新的可能性:一个 HTTP 请求可以同时携带意图+身份+支付凭证,一次往返完成一次交易。这比广告网络那套层层重定向、跨域追踪、cookie 同步、实时竞价不知道轻了多少倍。
我不知道 x402 能不能普及——协议层的支付标准历史上失败率极高(记得 Google Wallet 和 Apple Pay 的网页版吗)。但 Cloudflare 的位置确实是少有的可以推动这件事的点:坐拥全球 330+ 节点的边缘网络,在请求路径上直接植入支付验证,不需要站点方做任何代码改动。
到 9 月 15 日,至少有一件事会确定地发生:那些既想抓搜索索引又想偷 AI 数据的混合用途爬虫,在 Cloudflare 的广告页面上会被默认拒绝。其余的事,要看 Agent 的钱包什么时候准备好了。
评论(0)
暂无评论,来写第一条吧~