OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型

 

photo_2023-08-08_14-24-08

 

OpenAI 在其博客文章中表示,网站运营者可以通过在其网站的 Robots.txt (https://platform.openai.com/docs/gptbot) 文件中禁止 GPTBot 的访问,或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据。OpenAI 还表示,“使用 GPTBot 用户代理(user agent)抓取的网页可能会被用于改进未来的模型,并且会过滤掉那些需要付费访问、已知收集个人身份信息(PII)、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源,“允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确,并提高它们的通用能力和安全性。”

但是,这并不会追溯性地从 ChatGPT 的训练数据中删除之前从网站上抓取的内容。

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享