指令出现后,网站争相屏蔽ChatGPT网络爬虫

指令出现后,网站争相屏蔽ChatGPT网络爬虫_第1张图片
在没有宣布的情况下,OpenAI最近增加了关于其网络爬虫的细节,GPTBot,到它的在线文档网站。GPTBot是该公司用来检索网页以训练背后的人工智能模型的用户代理的名称ChatGPT聊天机器人,比如GPT-4。本周早些时候,一些网站迅速宣布了他们的意图阻止GPTBot访问他们的内容。

在新的文档中,OpenAI表示,用GPTBot爬取的网页“可能会被用来改进未来的模型”,允许GPTBot访问你的网站“可以帮助人工智能模型变得更加准确,并提高它们的一般能力和安全性。”

OpenAI声称,它已经实施了过滤器,确保GPTBot不会访问付费墙后面的来源、收集个人身份信息的来源或任何违反OpenAI政策的内容。

能够潜在地阻止OpenAI的训练刮擦(如果他们尊重它们)的消息来得太晚了,以至于无法影响ChatGPT或GPT-4的当前训练数据,这些数据是在几年前未经宣布的情况下刮擦的。OpenAI收集了截至2021年9月的数据,这是OpenAI语言模型当前的“知识”截止日期。

值得注意的是,新的指令可能不阻止网页浏览版本的ChatGPT或ChatGPT插件从访问当前网站到向用户传递最新信息。文档中没有详细说明这一点,我们向OpenAI寻求澄清。

答案在robots.txt

根据OpenAI的证明文件,GPTBot将由用户代理令牌“GPTBot”标识,其完整字符串为“Mozilla/5.0 AppleWebKit/537.36(KHTML,像Gecko兼容;GPT bot/1.0;+https://openai.com/gptbot)”。

OpenAI文档也给出了如何阻止GPTBot使用行业标准抓取网站的说明robots.txt文件,它是一个文本文件,位于网站的根目录,指示网络爬虫(如搜索引擎使用的爬虫)不要对网站进行索引。

将这两行添加到一个站点的robots.txt文件中非常简单:

User-agent: GPTBot
Disallow: /

OpenAI还表示,管理员可以使用不同的令牌在robots.txt中限制GPTBot的某些部分:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

此外,OpenAI还提供了特定IP地址块GPTBot将从其中运行,这也可能被防火墙阻止。

尽管有这个选项,屏蔽GPTBot并不能保证一个网站的数据不会最终训练未来的所有人工智能模型。除了抓取器忽略robots.txt文件的问题之外,还有其他被抓取网站的大型数据集(例如那堆东西)不隶属于OpenAI。这些数据集通常用于训练开源(或源可用)LLM,如Meta的美洲驼2.

一些网站反应迅速

虽然从技术的角度来看ChatGPT取得了巨大的成功,但它也有争议的它是如何在未经许可的情况下窃取受版权保护的数据,并将这些数据集中到一个商业产品中绕行典型的在线出版模式。OpenAI被指控(和被起诉)沿着这些思路抄袭。

因此,看到一些人对未来的GPT模式可能会屏蔽他们的内容的消息有一种被压抑的反应也就不足为奇了享受。比如周二,VentureBeat著名的那边缘,子堆栈编写器凯西·牛顿,以及尼尔·克拉克Clarkesworld的所有人都表示,在该机器人的消息爆出后,他们将很快屏蔽GPTBot。

但对于大型网站运营商来说,选择屏蔽大型语言模型(LLM)爬虫并不像看起来那么容易。让一些LLM对某些网站数据视而不见会留下知识空白,这可能对一些网站非常有用(例如,如果ChatGPT为他们提供信息,这些网站不想失去访问者),但这也可能伤害其他网站。例如,如果人工智能聊天机器人成为未来的主要用户界面,阻止未来人工智能模型的内容可能会减少一个网站或品牌的文化足迹。作为一个思维实验,想象一个在线企业在2002年宣布它不希望它的网站被谷歌索引——这是一个弄巧成拙的举动,当时这是在线查找信息最流行的入口。

它仍然处于生成人工智能游戏的早期,无论技术走向何方——或者哪个单独的网站试图退出人工智能模型训练——至少OpenAI提供了这种选择。

你可能感兴趣的:(学习资料,chatgpt,爬虫,人工智能)