無視robots.txt！AI公司被爆抓取網站內容訓練模型

網站禁止抓取內容訓練 AI 形同虛設 AI 公司被指無視 robot.txt 擅取內容

生成式 AI 的開發需要大量的內容作為訓練資料，而這些內容中有很多是從網上抓取而來的，這也引起了一些爭議。儘管有一些行業標準可以表明拒絕抓取，但是似乎有些 AI 開發公司並沒有遵守這些標準。

據報導，許多 AI 開發公司並沒有遵守拒絕抓取的 robot.txt 協議，擅自從網站上獲取內容來訓練 AI。其中一家名為Perplexity的 AI 搜尋初創公司就因此受到了媒體的指責。內容授權初創公司TollBit表示，他們分析了這些出版商的網站訪問記錄，發現一些代理以特定的模式訪問網站，這意味著來自多個來源（不僅僅是一家公司）的 AI 代理選擇無視 robots.txt 協議來獲取網站的內容。

《Business Insider》進一步揭露了OpenAI和Anthropic等知名 AI 公司也存在類似的行為。對此，Perplexity的CEO Aravind Srinivas在接受《Fast Company》的採訪時辯稱，他們並非故意忽略 Robot Exclusions Protocol，並且解釋說他們除了使用自家的抓取工具，還使用第三方的網絡抓取服務，而這些抓取工具就是其中之一。他認為這個問題很複雜，而且 robots.txt 協議並不是法律框架，因此出版商應該與 AI 開發公司建立新的合作關係。

這個問題引起了對於 AI 開發公司的責任和道德問題的關注。AI 開發公司應該遵守行業標準和協議，並尊重網站所有者的意願。如果 AI 開發公司繼續無視這些標準和協議，這將對整個 AI 行業的發展和應用產生負面影響。

總的來說，AI 開發公司應該尊重網站所有者的意願，遵守拒絕抓取的協議，並與出版商建立良好的合作關係。這樣才能確保 AI 的開發和應用在合法合規的框架下進行，並為整個行業帶來積極的影響。

本文來源：香港 unwire.hk 玩生活‧樂科技

本網站使用 Cookie 改善網站體驗。繼續使用我們的網站即表示您同意我們的 Cookie 使用。

Share this content:

無視robots.txt！AI公司被爆抓取網站內容訓練模型

Related Posts:

Related posts: