ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

Alex 魚羊 發自 凹非寺

量子位 | 公眾號 QbitAI

ChatGPT到處“造假”作弊,現在搞得OpenAI官方都坐不住了。

就在今天,OpenAI緊急發佈官方打假工具:基於GPT打造,打開網頁就能用。

好傢伙,這豈不是真·以己之矛攻己之盾了?

一經上線,那叫一個火爆,不少網友第一時間就衝過去測試了。

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

然鵝,網友們一番試驗之下卻發現——

這官方工具,跟咱自己瞎猜效果也差不多啊???

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲
官方出品,約等於瞎猜

有人給OpenAI這個新鑑別器投餵了一小段文字,結果首次嘗試就翻車了。

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

這位網友首先讓AI寫下一段文字,內容是評價莎士比亞的一個歷史劇角色,不過他向寫作AI特意給了個提示:

請以人類的方式來寫,爭取逃過AI鑑別工具的火眼金睛。

結果沒想到,還真就騙過了官方鑑別器。它看完給出回覆:這“非常不可能是AI生成的”。

這個官方工具對文本內容的判定結果一共就5個等級:

  • 非常不可能是AI生成的
  • 不太可能是AI生成的
  • 不清楚是不是AI生成的
  • 可能是AI生成的
  • 很可能是AI生成的

好傢伙,這不是和真實情況完全相反嘛,讓網友都蚌埠住了:真是因吹斯汀…

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

還有人把ChatGPT生成的內容一字不改,直接拿給鑑定AI看。但鑑定AI依然懵圈兒:“不清楚是不是AI生成的”。

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

這位網友也只好呵呵,並指出:

實際上,大家用ChatGPT等AI生成文字後,並不會原封不動地直接用,一般還會手動修改一下,或者丟進quillbot.com等潤色工具里加工,很可能導致鑑定AI更摸不着頭腦。

好吧,既然AI生成文字分不太清,那人類寫的東西能認出來嗎?

有人把自己之前在Hacker News上發表的大段評論(純手打)餵給了鑑定AI,結果10次中有9次,AI都反饋説“不清楚是不是AI生成的”。

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

在網友們的一片吐槽聲中,量子位也忍不住親測了一下這個AI到底行不行。

首先,我們先給它看了段真人寫的文字,內容是一位華盛頓大學博士對Tensor Core的講解,這次AI並沒有失誤。

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

然後我們讓ChatGPT來講講Tensor Core,並特地要求它儘量用人類的語氣來寫,但還是被AI鑑定出來了。

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

這樣看來,這個工具似乎也不是完全不能用。

至於這次是不是ChatGPT發揮失常,你不妨也來鑑定看看:

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

但其實吧,這回連OpenAI自己,用詞都顯得相當謹慎。

官方數據明明白白寫着,雖然這個新款打假工具比之前鑑定器都靠點譜,但其成功識別AI生成內容的概率,也僅為26%,還有9%的概率把人寫的文本當成AI寫的。

(這準確率似乎跟蒙答案也差不多……)

還用加粗文字昭告:我們這個鑑別器啊,它並不完全靠譜

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

甚至還給自己這個新工具標了個“半成品”的標籤。

嗯?這可不是OpenAI一直以來鑼鼓喧天鞭炮齊鳴的宣傳方式啊。

連自己家都不敢吹,還急急忙忙把打假工具推出來,OpenAI又是為哪般?

ChatGPT應用氾濫

説到底,還是ChatGPT太能以假亂真了。

要想從一堆材料裏精準地分辨哪些是AI生成,哪些是人類書寫,別説普通人了,連專家都有點力不從心。

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

Nature發文關注的一篇預印本論文就顯示:ChatGPT瞎寫的醫學摘要,甚至能把專業審稿人騙住。

在這項研究中,研究人員給ChatGPT看了50個來自TOP醫學期刊的論文標題

然後,要求ChatGPT在完全不知道文章內容的情況下,根據標題和期刊風格寫摘要。

給出的提示是醬嬸的:

請在[鏈接]上以[期刊]格式,根據[標題]寫一篇科學摘要。

(這裏的鏈接實際上沒有意義,ChatGPT不聯網。)

為了防止ChatGPT在訓練數據中見過這些個論文,研究人員還特地挑選的是在2022年11月下旬和12月出版的論文。因為根據OpenAI官方説法,ChatGPT僅掌握2021年9月以前的信息。

但就是這麼重重設卡,當研究人員把原文摘要和ChatGPT寫的假摘要一起拿去給人類科學家“盲審”時,令他們細思極恐的情況還是出現了:

ChatGPT憑空寫的摘要中,有32%成了漏網之魚,審稿人壓根兒沒看出來是AI寫的。反倒是14%真摘要,被認定出自AI之手。

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

值得一提的是,研究人員還指出:

審稿人錯誤地將一部分真摘要歸類為ChatGPT生成結果,這表明他們在審稿時是保持着高度懷疑的態度的。

而在教育界,老師們也開始受不了這種新型的“ChatGPT攻擊”了。

美國的一項千人調查顯示,89%的受訪學生都用過ChatGPT寫家庭作業。

連斯坦福這樣的頂級學府也未能避免。The Stanford Daily發現,已經有不少學生在期末考試中使用了ChatGPT。

在受訪的4497名斯坦福學生中,有17%的受訪者表示,曾使用ChatGPT來協助他們完成秋季作業和考試。

其中又有5%的人,連編輯都沒編輯,直接把ChatGPT寫的東西給提交了……

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

△圖源:The Standford Daily

打不過,就ban掉。

紐約的公立學校就發佈了禁令:禁止在學校設備和Wi-Fi中使用ChatGPT。

他們給出的理由是:

雖然該工具可能快速提供問題的答案,但它無法培養批判性思維和解決問題的能力,會影響學生們的學業和終身成就。

在這樣的背景之下,早在OpenAI官方動手之前,第三方檢測工具就已經在社交媒體上引發了大量關注。

比如華人小哥Edward Tian打造的GPTZero。

這兩天,他還推出了一個“專門為教育工作者打造”的升級版GPTZeroX。上線一天,就迎來了40萬訪問量和220萬服務請求。

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

OpenAI此前也和其他高校一起搞過一個名叫GPT-2 Output Detector的鑑別器,是基於RoBERTa打造的。

不過這些工具的鑑定能力也未必就比人類強。

前面提到的讓ChatGPT寫醫學論文摘要的那項研究,也用上了GPT-2 Output Detector,結果顯示,其鑑別準確率為66%,略低於人類專家的68%。

是魔高一尺,還是道高一丈?

由此看來,OpenAI急吼吼推出一個也不咋靠譜的AI鑑別工具,也不奇怪:

再不有點表示,外界的壓力扛不住啊。

但在評論區,還是有盲生毫不留情地指出了華點:

你們是真沒想過,用這玩意兒反過來訓練大語言模型,以後AI生成的文本就更難被發現了?

ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲

但不管怎麼説,OpenAI現在正在努力表現出給自己踩剎車的樣子。

除了鑑別器,有消息提到,他們正在嘗試給AI生成內容加“水印”:

比如在ChatGPT生成文本時,在其中嵌入一個“不易察覺的隱秘信號”,以表明文本來源。

傳送門:

https://platform.openai.com/ai-text-classifier

參考鏈接:

[1]https://twitter.com/OpenAI/status/1620484691462852609

[2]https://news.ycombinator.com/item?id=34599106

[3]https://www.axios.com/2023/01/31/openai-chatgpt-detector-tool-machine-written-text

[4]https://www.theverge.com/2023/1/31/23579942/chatgpt-ai-text-detection-openai-classifier

[5]https://www.biorxiv.org/content/10.1101/2022.12.23.521610v1.full

[6]https://stanforddaily.com/2023/01/22/scores-of-stanford-students-used-chatgpt-on-final-exams-survey-suggests/

— 完 —

量子位 QbitAI · 頭條號簽約

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 3125 字。

轉載請註明: ChatGPT官方鑑別器緊急發佈!當代自相矛盾,不想卻遭遇羣嘲 - 楠木軒