站長之家(ChinaZ.com) 9月28日消息:根據人工智能內容檢查器和抄襲檢查服務 Originality.ai 的最新分析,目前排名前 100 位中至少有 26 個網站(排名前 1000 位則有 242 個)已經屏蔽了 OpenAI 于 8 月 7 日推出的網絡爬蟲 GPTBot。
這比上個月增加了 250%,當時在排名前 1000 位的網站中,只有 69 家屏蔽了 GPTBot。
是否屏蔽 ChatGPT 一直是許多 SEO 人員面臨的重要問題,因為 ChatGPT 沒有引用或鏈接到其來源。我們允許搜索引擎爬取我們的內容,因為存在明顯的潛在好處——通過直接鏈接/引用獲取流量。
顯然,更多受歡迎的網站決定屏蔽 GPTBot,可能是因為他們不希望 OpenAI 在沒有任何形式補償情況下獲取他們數據以幫助訓練模型。
12 個熱門網站現已屏蔽 GPTBot。在上個月新增的 100 個最受歡迎的網站中,大部分都是發布新聞和信息的網站:
pinterest.com
indeed.com
theguardian.com
sciencedirect.com
usatoday.com
stackexchange.com
alamy.com
webmd.com
dictionary.com
washingtonpost.com
npr.org
cbsnews. com
而有趣的是,在上個月還阻止 GPTBot 的 Foursquare 現在不再阻止了。
那么 CCbot 呢?Common Crawl 的網絡爬蟲仍然被少數網站(130 個)屏蔽。值得注意的是,Common Crawl 為 OpenAI、Google 和其他公司提供了部分訓練數據。
另外,在本次分析中有 1000 個網站中有 67 個 robots.txt 文件未被識別/檢查。(這就是為什么在文章開頭寫了「至少」。)
(舉報)