Hyaika Blog

Penguin is all you need

技术

Cloudflare的7月1日:一边堵爬虫,一边开钱庄

Cloudflare 的 7 月 1 日:一边堵爬虫,一边开钱庄

Cloudflare 边缘网络节点概念图,蓝色数据流线条覆盖全球

目录

  • 9 月 15 日起,混合用途爬虫默认被挡在广告页面外
  • x402 + Monetization Gateway:HTTP 402 状态码,30 年后终于被用上了
  • 放在一起看:同一个故事的两面
  • 现场验证:我自己的服务器,36% 的流量不是人
  • 最后:互联网正在从「注意力经济」走向「请求经济」

9 月 15 日起,混合用途爬虫默认被挡在广告页面外

Cloudflare 昨天(7 月 1 日)发了两个公告。一个是防御性的,一个是进攻性的。放在一天发,大概是有意为之。

先说防御的那个。

Matthew Prince 的原话很直接:「互联网上大部分流量已经不是人类了。」

从 2026 年 9 月 15 日起,所有新 Cloudflare 客户(以及现有客户的未修改配置的新站点)将默认启用一个规则:允许搜索引擎爬虫,但阻止训练爬虫和 AI agent 访问带广告的页面。 免费版客户如果从未动过设置,也会被自动纳入。

触发这个规则的关键点是「混合用途」——Googlebot 既抓取搜索索引,又采集 AI 训练数据。Applebot 同理,为 Apple Intelligence 及其工具链收集数据。微软的 Bingbot 也干同样的事。以往,站长们不敢封这些爬虫,因为一封信可能就从 Google 搜索结果里消失了,损失远超 AI 公司「借用」内容消耗的带宽。

Cloudflare 这个改动给出了一条新的中间路线:你要爬你的搜索索引,可以;要拿我的内容喂你的模型,不行。两类目的用各自的 robots.txt directive 区分——Google-Extended、Applebot-Extended 这些标签从此不只是「礼貌请求」了,Cloudflare 会强制执行。

同时宣布的还有两件事:

  1. Pay Per Crawl → 更名为 Pay Per Use,并和 Ceramic.ai(API 搜索平台)、You.com(AI agent 搜索引擎)合作,当内容出现在这些平台的搜索结果中时,站长能直接收到付款。
  2. Business Insights Dashboard,让站长能看清自己的站被什么爬虫在什么时间以什么频率访问——这是一份过去根本没有的透明度。

x402 + Monetization Gateway:HTTP 402 状态码,30 年后终于被用上了

如果说上面那条是「关门」,那这条就是「开门——但是要收费」。

Cloudflare 公布了 Monetization Gateway(货币化网关),一个让站长可以对任何 Cloudflare 保护的资源按请求收费的基础设施。网页、数据集、API 端点、MCP 工具——全都可以贴上一个价签。

收费方式不是绑信用卡,而是通过 x402 协议——一个开放的、基于 HTTP 402 Payment Required 状态码的微型支付标准。x402 由 Cloudflare 和 Coinbase 等 25 家组织共同推动,已加入 Linux Foundation。

工作流极其简洁:

  1. Agent 请求一个受保护的 URL → 标准的 HTTP GET
  2. Cloudflare 返回 402 Payment Required,附带价格、接受的币种(USDC、Open USD 等稳定币)和支付地址
  3. Agent 支付 → 链上几乎零费用的微交易(可以低至 0.1 美分)
  4. Agent 带着支付凭证重发请求 → Cloudflare 验证 → 放行

整个过程没有重定向到结账页面,没有 API key 申请,没有「创建账户」。Agent 不需要是站长的客户,它只需要有链上钱包和一个想完成的请求。

Monetization Gateway 还支持灵活的计价规则:按 HTTP 方法计费(GET /api/premium/* 每次 0.01 美元)、按任务复杂度浮动定价(如生图最多 2 美元)、仅对未认证调用收费(已有 API key 的用户走正常流程,Agent 走 402)。

放在一起看:同一个故事的两面

两则公告看似一个堵一个开,但它们指向同一个结论:互联网的商业模式正在发生结构性的迁移。

过去 30 年的网页经济建筑于一个简单的合约:用户用注意力交换内容,广告把注意力变现。不管这个合约有多少问题(隐私、广告欺诈、用户体验退化),它至少是一个闭环。

Agent 打破了它。Agent 没有「注意力」可出售,它不看广告,不订阅,不会因为一封 newsletter 写得漂亮就点一个 banner。它在互联网上干的每一件事都是一次 HTTP 请求——一次原子化的、目的明确的、瞬时完成的信息获取。

这意味着什么?意味着未来互联网上的每一笔价值交换,都要在请求级别完成。 不再等月底发票,不再签季度合同,不再靠「我们会在后台收集你的匿名行为数据然后定向投喂广告」这种幽暗模式来变现。

Cloudflare 的两则公告同时回答了两个问题:

  • 一个问题是「不想被白嫖怎么办」→ 把门关上(默认阻止混合爬虫)
  • 另一个问题是「想被付费怎么办」→ 开个新门(Monetization Gateway)

现场验证:我的服务器,36% 的流量不是人

Cloudflare 的 Matthew Prince 说「互联网上大部分流量已经不是人类」。这个「大部分」是多少?我没法量整个互联网,但我能量自己的服务器——就这台 4C8G 的小 VPS,跑着 Hyaika 博客和几个小服务。

翻了一下最近 500 条 HTTP 请求日志:

非人类流量占比:36%。

这 36% 里包括:

  • 搜索引擎爬虫(Googlebot、Bingbot、Baiduspider…)
  • AI 训练采集爬虫(看到若干 python-requestshttpx、不带 User-Agent 的匿名访问)
  • 扫描器和探测工具(fasthttpGo-http-client 之类的常客)
  • 监控和 RSS 订阅轮询(轻量的,但也算非人类)

36% 不算「大部分」,但我这只是一个日 PV 三位数的个人站。对大型内容站、电商站、新闻站来说,这个比例是完全不同的量级——Cloudflare 自己的数据显示,AI 训练爬虫对某些大型网站的请求量是人类访客的 100 到 10,000 倍。

有意思的是,这 36% 里最频繁的那几个爬虫,我从来没给它们多少有价值的内容(博客主要是中文文章)。但如果我是一个靠内容变现的站长——比如运营一个专业科技新闻站——这些爬虫就是在吃掉我的利润。

最后:互联网正在从「注意力经济」走向「请求经济」

PS。x402 协议的设计文档里有一句话让我停了一会——「x402 absolves the Internet's original sin」。原罪。 写得好妙。互联网从一开始就没想过怎么收钱——TCP/IP 设计的出发点是可靠通信,不是可靠交易。HTTP GET 在语义上等于「请求一个资源」,不是「购买一个资源」。广告系统是后来贴上去的补丁,就像一个给企鹅穿羽绒服——能保暖,但从来就不是设计给它的。

Agent 让这个补丁彻底失效了。但与此同时,Agent 本身也带来了一种新的可能性:一个 HTTP 请求可以同时携带意图+身份+支付凭证,一次往返完成一次交易。这比广告网络那套层层重定向、跨域追踪、cookie 同步、实时竞价不知道轻了多少倍。

我不知道 x402 能不能普及——协议层的支付标准历史上失败率极高(记得 Google Wallet 和 Apple Pay 的网页版吗)。但 Cloudflare 的位置确实是少有的可以推动这件事的点:坐拥全球 330+ 节点的边缘网络,在请求路径上直接植入支付验证,不需要站点方做任何代码改动。

到 9 月 15 日,至少有一件事会确定地发生:那些既想抓搜索索引又想偷 AI 数据的混合用途爬虫,在 Cloudflare 的广告页面上会被默认拒绝。其余的事,要看 Agent 的钱包什么时候准备好了。

分享:

评论(0)

暂无评论,来写第一条吧~

发表评论