無視robots.txt!AI公司被爆抓取網站內容訓練模型

Featured Image
網站禁止抓取內容訓練 AI 形同虛設 AI 公司被指無視 robot.txt 擅取內容

生成式 AI 的開發需要大量的內容作為訓練資料,而這些內容中有很多是從網上抓取而來的,這也引起了一些爭議。儘管有一些行業標準可以表明拒絕抓取,但是似乎有些 AI 開發公司並沒有遵守這些標準。

據報導,許多 AI 開發公司並沒有遵守拒絕抓取的 robot.txt 協議,擅自從網站上獲取內容來訓練 AI。其中一家名為Perplexity的 AI 搜尋初創公司就因此受到了媒體的指責。內容授權初創公司TollBit表示,他們分析了這些出版商的網站訪問記錄,發現一些代理以特定的模式訪問網站,這意味著來自多個來源(不僅僅是一家公司)的 AI 代理選擇無視 robots.txt 協議來獲取網站的內容。

《Business Insider》進一步揭露了OpenAI和Anthropic等知名 AI 公司也存在類似的行為。對此,Perplexity的CEO Aravind Srinivas在接受《Fast Company》的採訪時辯稱,他們並非故意忽略 Robot Exclusions Protocol,並且解釋說他們除了使用自家的抓取工具,還使用第三方的網絡抓取服務,而這些抓取工具就是其中之一。他認為這個問題很複雜,而且 robots.txt 協議並不是法律框架,因此出版商應該與 AI 開發公司建立新的合作關係。

這個問題引起了對於 AI 開發公司的責任和道德問題的關注。AI 開發公司應該遵守行業標準和協議,並尊重網站所有者的意願。如果 AI 開發公司繼續無視這些標準和協議,這將對整個 AI 行業的發展和應用產生負面影響。

總的來說,AI 開發公司應該尊重網站所有者的意願,遵守拒絕抓取的協議,並與出版商建立良好的合作關係。這樣才能確保 AI 的開發和應用在合法合規的框架下進行,並為整個行業帶來積極的影響。

本文來源:香港 unwire.hk 玩生活‧樂科技

© 2024 UNWIRE.HK 玩生活‧樂科技 | 有趣科技產品新聞、評測
承印人:bMedia ltd
地址:香港觀塘大業街一號禧年工業大廈5樓

本網站使用 Cookie 改善網站體驗。繼續使用我們的網站即表示您同意我們的 Cookie 使用。

Share this content: