如何阻止人工智能聊天机器人抓取您网站的内容

如何阻止人工智能聊天机器人抓取您网站的内容

就目前情况而言,人工智能聊天机器人拥有免费许可证,可以在未经您许可的情况下抓取您的网站并使用其内容。担心您的内容被此类工具抓取吗?

好消息是,您可以阻止人工智能工具访问您的网站,但有一些注意事项。在这里,我们向您展示如何使用网站的 robots.txt 文件阻止机器人,以及这样做的优点和缺点。

人工智能聊天机器人如何访问您的网络内容?

人工智能聊天机器人使用多个数据集进行训练,其中一些数据集是开源且公开的。例如,根据OpenAI 发表的一篇研究论文,GPT3 是使用五个数据集进行训练的:

  1. 普通爬行(训练时重量 60%)
  2. WebText2(训练时权重为 22%)
  3. 书籍1(训练重量8%)
  4. 书籍2(训练重量8%)
  5. 维基百科(训练中的重量为 3%)

Common Crawl包括自 2008 年以来从网站收集的 PB(数千 TB)数据,类似于 Google 搜索算法抓取网络内容的方式。WebText2 是 OpenAI 创建的数据集,包含大约 4500 万个网页,这些网页链接自 Reddit 帖子,并且至少有 3 个点赞。

因此,就 ChatGPT 而言,AI 机器人不会直接访问和抓取您的网页 – 无论如何,目前还没有。尽管如此,OpenAI发布的 ChatGPT 托管网络浏览器引起了人们的担忧,即这种情况可能即将改变。

与此同时,随着越来越多的人工智能聊天机器人进入市场,网站所有者应该关注其他人工智能聊天机器人。Bard 是该领域的另一个大人物,但人们对用于训练它的数据集知之甚少。显然,我们知道谷歌的搜索机器人不断地抓取网页,但这并不一定意味着巴德可以访问相同的数据。

为什么一些网站所有者会担心?

网站所有者最担心的是 ChatGPT、Bard 和 Bing Chat 等人工智能机器人会降低其内容的价值。人工智能机器人使用现有内容来生成响应,同时也减少了用户访问原始来源的需要。用户无需访问网站来获取信息,只需让 Google 或 Bing 生成所需信息的摘要即可。

当谈到搜索中的人工智能聊天机器人时,网站所有者最担心的是流量流失。就巴德而言,人工智能机器人很少在其生成响应中包含引用,告诉用户它从哪些页面获取信息。

因此,除了用人工智能响应取代网站访问之外,巴德几乎消除了源网站接收流量的任何机会——即使用户想要更多信息。另一方面,Bing Chat 更常见地链接到信息源。

bing-chat-response
换句话说,当前的生成式人工智能工具正在利用内容创作者的工作来系统地取代内容创作者的需求。最终,您必须问这是什么激励网站所有者继续发布内容。而且,推而广之,当网站停止发布它们赖以运行的内容时,人工智能机器人会发生什么?

如何阻止人工智能机器人访问您的网站

如果您不希望 AI 机器人使用您的网络内容,您可以使用robots.txt文件阻止它们访问您的网站。不幸的是,您必须阻止每个机器人并按名称指定它们。

例如,Common Crawl 的机器人称为 CCBot,您可以通过将以下代码添加到 robots.txt 文件来阻止它:

User-agent: CCBot
Disallow: /

这将阻止 Common Crawl 将来抓取您的网站,但不会删除从以前的抓取中已收集的任何数据。

如果您担心 ChatGPT 的新插件访问您的网络内容,OpenAI 已经发布了阻止其机器人的说明。在这种情况下,ChatGPT 的机器人称为 ChatGPT-User,您可以通过将以下代码添加到 robots.txt 文件来阻止它:

User-agent: ChatGPT-User
Disallow: /

不过,阻止搜索引擎人工智能机器人抓取您的内容完全是另一个问题。由于 Google 对其使用的训练数据高度保密,因此无法确定您需要阻止哪些机器人以及它们是否会遵守 robots.txt 文件中的命令许多爬虫不会这样做)。

这种方法有多有效?

在robots.txt文件中阻止 AI 机器人是当前最有效的方法,但它并不是特别可靠。

第一个问题是您必须指定要阻止的每个机器人,但谁能跟踪进入市场的每个人工智能机器人呢?下一个问题是robots.txt文件中的命令是非强制性指令。虽然 Common Crawl、ChatGPT 和许多其他机器人遵守这些命令,但许多机器人并不这样做。

另一个重要的警告是,您只能阻止人工智能机器人执行未来的爬行。您无法删除之前抓取的数据,也无法向 OpenAI 等公司发送请求来删除您的所有数据。

您应该阻止人工智能工具访问您的网站吗?

不幸的是,没有简单的方法可以阻止所有人工智能机器人访问您的网站,并且手动阻止每个机器人几乎是不可能的。即使您跟上网络上漫游的最新人工智能机器人,也不能保证它们都会遵守您的robots.txt文件中的命令。

这里真正的问题是结果是否值得付出努力,简短的答案是(几乎肯定)不值得。

阻止人工智能机器人访问您的网站也有潜在的缺点。最重要的是,您将无法收集有意义的数据来证明 Bard 等工具是否有利于或损害您的搜索营销策略。

是的,您可以假设缺乏引用是有害的,但您只是猜测是否缺少数据,因为您阻止了人工智能机器人访问您的内容。当谷歌首次将特色片段引入搜索时,情况也类似。

google-featured-snippet
对于相关查询,Google 在结果页面上显示网页内容片段,回答用户的问题。这意味着用户无需点击网站即可获得他们正在寻找的答案。这引起了依赖搜索查询产生流量的网站所有者和 SEO 专家的恐慌。

然而,触发精选片段的查询通常是低价值搜索,例如“X 是什么”或“纽约的天气怎么样”。任何想要深入信息或全面天气预报的人仍然会点击浏览,而那些不需要的人从一开始就没有那么有价值。

您可能会发现生成式人工智能工具的情况类似,但您需要数据来证明这一点。

不要急于做任何事情

网站所有者和出版商对人工智能技术的担忧是可以理解的,并且对机器人使用其内容生成即时响应的想法感到沮丧。然而,现在还不是急于采取反攻行动的时候。人工智能技术是一个快速发展的领域,事物将继续快速发展。借此机会了解事情的进展并分析人工智能带来的潜在威胁和机遇。

当前依靠内容创作者的工作来取代他们的体系是不可持续的。无论谷歌和 OpenAI 这样的公司改变做法,还是政府出台新的法规,都必须做出一些让步。与此同时,人工智能聊天机器人对内容创作的负面影响正变得越来越明显,网站所有者和内容创作者可以利用这些负面影响来发挥自己的优势。

原创文章,作者:网贝WebBay,如若转载,请注明出处:https://www.webbay.cn/block-ai-chatbot-scraping-website

error: Content is protected !!