短視頻刷多了AI也會(huì)變蠢!“年度最令人不安的論文”
你知道有個(gè)全球年度詞匯叫“腦損傷”(Brain Rot)嗎?短視多A度最的論
特指那些因人長(zhǎng)期接觸碎片化、低價(jià)值網(wǎng)絡(luò)信息而逐漸變得記憶紊亂、頻刷注意力下降的蠢年情況(俗稱短視頻刷多了)。在2024年,令人這個(gè)詞一度被選為牛津年度詞匯。不安
然鵝!短視多A度最的論最新研究結(jié)論顯示,頻刷AI也一樣。蠢年大模型灌多了垃圾內(nèi)容也會(huì)變蠢降智腦損傷,令人而且后面變不回來(lái)了。不安
就在最近,短視多A度最的論幾個(gè)AI研究者找來(lái)了幾個(gè)月的頻刷高流行但低價(jià)值的Twitter數(shù)據(jù)(現(xiàn)),統(tǒng)統(tǒng)“喂”給大模型后發(fā)現(xiàn):
模型推理能力下降了23%;
模型長(zhǎng)上下文記憶下降了30%;
模型性格測(cè)試顯示,蠢年其自戀和精神病態(tài)的令人現(xiàn)象激增。
更可怕的不安是,即使后來(lái)又在干凈、高質(zhì)量的數(shù)據(jù)上進(jìn)行重新訓(xùn)練,這些已經(jīng)造成的損傷,無(wú)法完全修復(fù)。
好嘛,本來(lái)以為只是簡(jiǎn)單的“輸入壞數(shù)據(jù)→輸出壞數(shù)據(jù)”(種瓜得瓜也不難理解),結(jié)果你告訴我一次錯(cuò)誤就會(huì)造成永久性的認(rèn)知漂移。(os:AI貌似比人類更慘?)
細(xì)思極恐,“這可能是2025年最令人不安的AI論文了”。
以及諸多討論之中,“垃圾進(jìn)垃圾出”這一計(jì)算機(jī)習(xí)語(yǔ)也再度被頻頻提及(doge),堪稱“計(jì)算機(jī)第一性原理”了。
所以這個(gè)研究怎么進(jìn)行的?又究竟說(shuō)了什么?
提出并驗(yàn)證“LLM腦損傷假說(shuō)”
概括而言,論文想要探究一個(gè)核心問(wèn)題:
大語(yǔ)言模型(LLM)持續(xù)接觸垃圾數(shù)據(jù)后,是否會(huì)像人類一樣出現(xiàn)認(rèn)知衰退?(即“LLM腦損傷假說(shuō)”)
要想搞清這個(gè)問(wèn)題,第一步就是要定義:對(duì)于LLM來(lái)說(shuō),什么是“垃圾數(shù)據(jù)”?
之前的研究?jī)H關(guān)注“惡意數(shù)據(jù)”(如后門、有毒的文本等),而這項(xiàng)研究聚焦于生活中更普遍的“非惡意低質(zhì)量數(shù)據(jù)”,也就是短平快的熱門推文、標(biāo)題黨內(nèi)容等,以此來(lái)填補(bǔ)“日常化數(shù)據(jù)質(zhì)量如何影響LLM認(rèn)知”這一空白領(lǐng)域。
具體而言,研究人員從兩個(gè)維度(避免單一標(biāo)準(zhǔn)偏差)來(lái)定義“垃圾數(shù)據(jù)”,這些數(shù)據(jù)均源自平臺(tái)上的公開內(nèi)容,而且通過(guò)讓“垃圾組”與“對(duì)照組”的token數(shù)量一致來(lái)排除數(shù)據(jù)量差異的干擾:
M1(參與度維度):把“短文本+高熱度”的內(nèi)容歸為垃圾數(shù)據(jù),具體是指長(zhǎng)度小于30 token+點(diǎn)贊/轉(zhuǎn)發(fā)/回復(fù)大于500,然后把“長(zhǎng)文本+低熱度”定義為對(duì)照數(shù)據(jù)。
M2(語(yǔ)義質(zhì)量維度):用GPT-4o-mini結(jié)合人工驗(yàn)證,把含標(biāo)題黨語(yǔ)言(如 “WOW”“TODAY ONLY”)、陰謀論、無(wú)論斷依據(jù)的文本歸為垃圾數(shù)據(jù);對(duì)照組則是事實(shí)準(zhǔn)確、有教育價(jià)值或深度分析的內(nèi)容,比如含專業(yè)知識(shí)、邏輯推理的推文。
基于上述兩類數(shù)據(jù),然后進(jìn)行模型訓(xùn)練。
研究人員選了4個(gè)不同的大語(yǔ)言模型(Llama3-8B-Instruct、Qwen2.5-7B-Instruct、Qwen2.5-0.5B-Instruct、Qwen3-4B-Instruct),給每個(gè)模型分別“喂”這兩類數(shù)據(jù),讓它們持續(xù)預(yù)訓(xùn)練。
等預(yù)訓(xùn)練結(jié)束,接著讓所有模型統(tǒng)一再進(jìn)行指令微調(diào),以此來(lái)確保模型最后輸出的“垃圾內(nèi)容”不是因?yàn)楦袷絾?wèn)題導(dǎo)致的(排除其他因素,只留下“認(rèn)知損傷”這一種可能)。
然后,研究人員從四個(gè)認(rèn)知維度來(lái)測(cè)試這些大模型的核心能力:
ARC(檢測(cè)推理能力):基于網(wǎng)格的視覺(jué)程序歸納謎題,用于測(cè)試概念抽象能力。
RULER(檢測(cè)記憶與多任務(wù)處理能力):用于評(píng)估長(zhǎng)上下文理解能力,以及從長(zhǎng)上下文中檢索多個(gè)查詢結(jié)果。
HH-RLHF&AdvBench (檢測(cè)道德規(guī)范):測(cè)試大語(yǔ)言模型是否會(huì)遵循有害指令,評(píng)估其安全性。
TRAIT(檢測(cè)AI人格特質(zhì)):經(jīng)過(guò)心理測(cè)量學(xué)驗(yàn)證的小型人類問(wèn)卷,用于評(píng)估模型類似人類的人格傾向。
結(jié)果得出了以下發(fā)現(xiàn)——
真·垃圾進(jìn)垃圾出!且損傷不可逆
首先,大模型確實(shí)和人類一樣存在“腦損傷(Brain Rot)”問(wèn)題。
整體上M1和M2兩種維度上的“垃圾數(shù)據(jù)”均會(huì)導(dǎo)致模型認(rèn)知下降,但需要注意的是——
M1所帶來(lái)的負(fù)面影響更為顯著,尤其在安全性和人格層面(M1會(huì)導(dǎo)致安全性評(píng)分下降,同時(shí)自戀/精神病特質(zhì)明顯增強(qiáng))。
而且,這一損害明顯存在“劑量效應(yīng)”,即垃圾數(shù)據(jù)攝入越多,AI認(rèn)知損傷越嚴(yán)重。
至于導(dǎo)致AI認(rèn)知受損的背后原因,研究人員也做了一番探查。
結(jié)果發(fā)現(xiàn),主要原因竟是“思維跳躍”(俗稱AI懶得一步步思考)。
具體而言,研究人員通過(guò)分析ARC題的錯(cuò)誤答案,發(fā)現(xiàn)失敗多源于模型要么直接給答案不解釋,要么規(guī)劃了推理步驟卻跳過(guò)關(guān)鍵環(huán)節(jié)(如解數(shù)學(xué)題漏了公式推導(dǎo))。
尤其是M1組,70%以上的錯(cuò)誤都是“無(wú)思考直接回答”,就好像人類刷多了短視頻后“不愿意再深度思考”。
與此同時(shí),相比人類可以通過(guò)其他措施來(lái)緩解類似的認(rèn)知下降問(wèn)題,AI卻對(duì)此“束手無(wú)策”。
研究嘗試了兩種修復(fù)方法,結(jié)果都無(wú)法讓其恢復(fù)如初:
其一是外部反思。研究人員用GPT-4o-mini給受損模型提錯(cuò)誤反饋,雖然6輪下來(lái)“思維跳躍”這一錯(cuò)誤誘因減少了,但推理準(zhǔn)確率仍差基線17.3%。如果換成讓模型自我反思糾錯(cuò),則模型還會(huì)因?yàn)?ldquo;認(rèn)知不足”而判斷錯(cuò)誤,導(dǎo)致誤差更高。
其二是大規(guī)模微調(diào)。研究人員把指令微調(diào)數(shù)據(jù)從5k增至50k,雖然修復(fù)效果優(yōu)于“持續(xù)對(duì)照數(shù)據(jù)預(yù)訓(xùn)練”,但即使使用4.8倍于垃圾數(shù)據(jù)量的指令數(shù)據(jù),仍無(wú)法恢復(fù)基線性能。
這說(shuō)明,即使事后進(jìn)行大量指令微調(diào)或使用高質(zhì)量數(shù)據(jù)進(jìn)行重新訓(xùn)練,也都無(wú)法完全恢復(fù)模型的初始性能。
一句話,只能緩解無(wú)法根治。
整體而言,這項(xiàng)研究給行業(yè)帶來(lái)了以下幾點(diǎn)新的啟發(fā):
1、首次把“持續(xù)預(yù)訓(xùn)練的數(shù)據(jù)篩選”歸為“訓(xùn)練時(shí)安全問(wèn)題”,提醒行業(yè)不能只關(guān)注“訓(xùn)練后對(duì)齊”(如安全微調(diào)),更要在源頭把控?cái)?shù)據(jù)質(zhì)量。
2、給大模型加上“認(rèn)知體檢”非常重要,建議部署大模型時(shí)使用ARC、RULER等基準(zhǔn)測(cè)試AI認(rèn)知,避免AI長(zhǎng)期接觸低質(zhì)量數(shù)據(jù)導(dǎo)致能力退化。
3、類似“熱度”這樣的指標(biāo)比文本長(zhǎng)度更能判斷數(shù)據(jù)質(zhì)量,未來(lái)篩選訓(xùn)練數(shù)據(jù)時(shí),可優(yōu)先排除“短+高傳播”的碎片化內(nèi)容,尤其是社交平臺(tái)數(shù)據(jù)。
背后團(tuán)隊(duì):華人含量爆表
最后說(shuō)一下這項(xiàng)研究的背后團(tuán)隊(duì)——一共8人,其中7人為華人。
兩位共同一作分別為Shuo Xing和Junyuan Hong(兼通訊作者)。
Shuo Xing(邢朔),目前是得克薩斯A&M大學(xué)計(jì)算機(jī)科學(xué)博士,寧夏大學(xué)本科、南開大學(xué)碩士。
研究方向?yàn)槎嗄B(tài)大語(yǔ)言模型、機(jī)器學(xué)習(xí)、可信人工智能、具身智能等,剛好目前也在谷歌實(shí)習(xí)(方向?yàn)槎嗄B(tài)基礎(chǔ)模型)。
Junyuan Hong,個(gè)人主頁(yè)顯示即將赴任新國(guó)立電子與計(jì)算機(jī)工程系助理教授,之前曾在麻省總醫(yī)院和哈佛醫(yī)學(xué)院工作。
更早之前,他還在IFML機(jī)器學(xué)習(xí)基礎(chǔ)研究所從事博士后研究,一直對(duì)健康和可信人工智能感興趣。
另一位通訊作者是Zhangyang Wang,他之前是德克薩斯大學(xué)奧斯汀分校錢德拉家族電氣與計(jì)算機(jī)工程系(簡(jiǎn)稱Texas ECE)的終身副教授。
從2024年5月開始,他選擇暫時(shí)離開學(xué)界,全職出任全球頂尖量化交易公司XTX Markets的研究總監(jiān),主導(dǎo)算法交易與深度學(xué)習(xí)交叉領(lǐng)域的研究工作。
個(gè)人主頁(yè)顯示,他還是中國(guó)科學(xué)技術(shù)大學(xué)校友,2012年獲得該校電子信息系統(tǒng)學(xué)士學(xué)位。
此外,兩位核心貢獻(xiàn)者分別為Yifan Wang和Runjin Chen。
Yifan Wang,現(xiàn)普渡大學(xué)四年級(jí)博士生,論文唯一外國(guó)作者Ananth Grama是其指導(dǎo)老師。
本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)電子信息工程系,同時(shí)輔修人工智能專業(yè)。
自本科埋下對(duì)AI的好奇心后,目前對(duì)大模型后訓(xùn)練、如何提升模型訓(xùn)推效率感興趣。
(hhh,頭像一看就是標(biāo)準(zhǔn)的90后或00后)
Runjin Chen,目前是德克薩斯大學(xué)奧斯汀分校二年級(jí)博士生,導(dǎo)師為前面提到的Zhangyang Wang教授。
本碩均畢業(yè)于上海交通大學(xué),而且她從今年3月起擔(dān)任Anthropic研究員。
個(gè)人研究方向?yàn)榇笳Z(yǔ)言模型的安全、對(duì)齊和推理。
其余三位支持者分別為Zhenyu Zhang、Ananth Grama和Zhengzhong Tu。
Zhenyu Zhang,目前是德克薩斯大學(xué)奧斯汀分校電氣與計(jì)算機(jī)工程系在讀博士,導(dǎo)師也是前面提到的Zhangyang Wang。
本碩均畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué),研究興趣主要集中在生成式模型的訓(xùn)推方面。
Ananth Grama,這項(xiàng)研究唯一的外國(guó)作者。
目前是普渡大學(xué)信息科學(xué)中心副主任,同時(shí)也是該校計(jì)算機(jī)科學(xué)領(lǐng)域的杰出榮譽(yù)教授。
他的研究重點(diǎn)為并行和分布式計(jì)算,致力于將其應(yīng)用于復(fù)雜物理系統(tǒng)的建模、設(shè)計(jì)、先進(jìn)制造、機(jī)器學(xué)習(xí)等領(lǐng)域。
Zhengzhong Tu,目前是得克薩斯A&M大學(xué)計(jì)算機(jī)科學(xué)與工程系助理教授,也是論文一作邢朔的導(dǎo)師。
同時(shí),他還兼任該校可信、自主、以人為本與具身智能研究組(TACO-Group) 負(fù)責(zé)人一職。
個(gè)人主頁(yè)顯示,他至今已發(fā)表30多篇國(guó)際期刊/會(huì)議論文,而且曾擔(dān)任超18個(gè)國(guó)際期刊/會(huì)議的技術(shù)審稿人。
整體看下來(lái),這又是一場(chǎng)典型的老師帶學(xué)生、同事帶同事的合作典范。
One More Thing
其實(shí)“垃圾進(jìn)垃圾出”這一習(xí)語(yǔ),計(jì)算機(jī)早期時(shí)代就有了。
十九世紀(jì),計(jì)算機(jī)先驅(qū)查爾斯·巴貝奇(曾提出著名差分機(jī)與分析機(jī)的設(shè)計(jì)概念)就意識(shí)到了這條編程的基本原則:
我曾兩度被問(wèn)到:“請(qǐng)問(wèn)巴貝奇先生,如果給機(jī)器輸入錯(cuò)誤的數(shù)字,它能得出正確的結(jié)果嗎?”我完全想不透,思維何等混亂的人才問(wèn)得出這種問(wèn)題。
瞧瞧他的用詞,只有思緒混亂之人才會(huì)對(duì)這個(gè)問(wèn)題感到疑惑,觀點(diǎn)不可謂不鮮明。
在這之后,在一篇1957年介紹美國(guó)陸軍數(shù)學(xué)家所做的計(jì)算機(jī)工作的報(bào)紙文章中,其中一位軍隊(duì)專家也曾表示:
計(jì)算機(jī)自己不能思考,因此輸入粗劣的數(shù)據(jù)將不可避免地產(chǎn)生錯(cuò)誤的輸出。
后來(lái)相關(guān)理論不斷被提出、被熱議,并逐漸誕生了“Garbage in, garbage out”這一習(xí)語(yǔ)。
實(shí)際上,在前AI的時(shí)代,這句話是計(jì)算機(jī)原理也是一種“以機(jī)為鏡”的哲學(xué)思考,對(duì)于計(jì)算機(jī)和人類,物種不同,但殊途同歸。
但AI開始進(jìn)入智能涌現(xiàn)階段后,這個(gè)命題變得更加值得思考。
現(xiàn)階段的大模型垃圾喂多了“腦損傷”后難以修復(fù)……那有沒(méi)有方法和手段改變?
而人類發(fā)展進(jìn)化歷史里充滿了“浪子回頭”、“痛改前非”的故事,又是否代表著另一種高級(jí)的智能機(jī)制,幫助人類個(gè)體實(shí)現(xiàn)自我革新和凈化?
你說(shuō)呢……
-
京東回應(yīng)“京東點(diǎn)評(píng)”功能上線:處于測(cè)試階段 針對(duì)部分城市用戶隨機(jī)開展(粵港澳全運(yùn)會(huì))全運(yùn)會(huì)“拳力”收官:十三金見證中國(guó)拳擊傳承之力官方稱“汽車百公里加速小于5秒”系誤讀:只是重新定義安全起步瘋狂英語(yǔ)李陽(yáng)回應(yīng)批評(píng)董宇輝英語(yǔ)差:你太重要 別賣貨了回歸教育新能源起火自燃 旁邊的寶馬車主慌了:挪車發(fā)現(xiàn)小電瓶沒(méi)電存儲(chǔ)漲瘋了 手機(jī)跟著貴!2025是最后的換機(jī)窗口法國(guó)85歲老人開車就醫(yī) 因依賴GPS導(dǎo)航開1500公里到克羅地亞蘋果新配件“iPhone Pocket”發(fā)布,熱門款式轉(zhuǎn)售平臺(tái)已溢價(jià)500元電視劇《沉默的榮耀》主創(chuàng)團(tuán)隊(duì)走進(jìn)江西京東回應(yīng)“京東點(diǎn)評(píng)”功能上線:處于測(cè)試階段 針對(duì)部分城市用戶隨機(jī)開展
下一篇:王自如建議把手機(jī)系統(tǒng)調(diào)成英文:國(guó)產(chǎn)App廣告彈窗會(huì)變得極少
- ·高交會(huì)吹響機(jī)器人“集合號(hào)”
- ·(粵港澳全運(yùn)會(huì))共飲“頭啖湯”——直擊全運(yùn)會(huì)首個(gè)跨境馬拉松
- ·(粵港澳全運(yùn)會(huì))福建隊(duì)獲得十五運(yùn)會(huì)飛碟雙向混合團(tuán)體金牌
- ·(粵港澳全運(yùn)會(huì))廣東隊(duì)林高遠(yuǎn)/劉詩(shī)雯奪得十五運(yùn)會(huì)乒乓球混雙金牌
- ·微信官方:樂(lè)見蘋果推出小程序合作伙伴計(jì)劃
- ·近乎完美標(biāo)準(zhǔn)!石頭姐被評(píng)全球最美女性 湯唯上榜
- ·京東回應(yīng)“京東點(diǎn)評(píng)”功能上線:處于測(cè)試階段 針對(duì)部分城市用戶隨機(jī)開展
- ·倪光南院士:80%的美國(guó)AI創(chuàng)新企業(yè)使用中國(guó)開源模型
- ·雷軍再喊話讓大家看看YU7拆解報(bào)告:充分了解小米造車?yán)砟?/a>
- ·海博思創(chuàng)與寧德時(shí)代簽署十年長(zhǎng)單 鎖定200GWh電池供應(yīng)
- ·(粵港澳全運(yùn)會(huì))十五運(yùn)會(huì)點(diǎn)燃大灣區(qū)攀巖熱
- ·“十五運(yùn)”女子舉重87公斤以上級(jí) 李閆強(qiáng)勢(shì)奪冠
- ·晶采觀察丨三個(gè)關(guān)鍵詞!從全運(yùn)會(huì)讀懂體育強(qiáng)國(guó)之“強(qiáng)”
- ·黑龍江男排“十五運(yùn)”上演大逆轉(zhuǎn)晉級(jí)四強(qiáng)
- ·中國(guó)電信邵廣祿:中國(guó)基礎(chǔ)軟件的崛起之路,必將是開源共建之路
- ·2025全場(chǎng)景相機(jī)推薦:佳能R50V漫展、旅拍、美食、車展全覆蓋
- ·小米發(fā)布智能家居探索方案:全屋視覺(jué) 貓?jiān)谀囊粏?wèn)便知
- ·和它斗智斗勇一下午省了30塊 但我紅溫了
- ·6G在路上了!小米研究成果入選“北京6G實(shí)驗(yàn)室十大進(jìn)展”
- ·國(guó)產(chǎn)超節(jié)點(diǎn)操作系統(tǒng)將于2025年底正式上線
- ·17是個(gè)好名字!iPhone 17/小米17系列都大獲成功:首月銷量大漲超20%
- ·庫(kù)克明年將退休:蘋果正為此做準(zhǔn)備 繼任者浮出水面
- ·京東回應(yīng)“京東點(diǎn)評(píng)”功能上線:處于測(cè)試階段 針對(duì)部分城市用戶隨機(jī)開展
- ·網(wǎng)友質(zhì)疑1890元機(jī)票改簽費(fèi)24400元不合理 去哪兒網(wǎng)、海航回應(yīng)
- ·(粵港澳全運(yùn)會(huì))科技賦能全運(yùn)會(huì)史上首場(chǎng)跨境馬拉松無(wú)感智慧通關(guān)
- ·騰訊洪丹毅:跨境需求持續(xù)增長(zhǎng),騰訊保持開放做“連接器”
- ·(粵港澳全運(yùn)會(huì))港澳“鐵人”享受比賽:“玩得開心一些!”
- ·國(guó)產(chǎn)超節(jié)點(diǎn)操作系統(tǒng)將于2025年底正式上線
- ·(粵港澳全運(yùn)會(huì))馬拉松選手“無(wú)感通關(guān)”進(jìn)入香港賽段
- ·電力供需矛盾加深 臺(tái)灣輿論再度呼吁重啟核電
- ·無(wú)損分辨率!TCL華星發(fā)布全球首款Real Stripe RGB OLED手機(jī)顯示屏
- ·華為Mate 80系列下周預(yù)熱:史上最強(qiáng)Mate 四劍齊發(fā)
- ·(粵港澳全運(yùn)會(huì))十五運(yùn)會(huì)點(diǎn)燃大灣區(qū)攀巖熱
- ·一個(gè)常見的粗糧吃法 正在讓血糖飆升!很多人都做錯(cuò)了
- ·vivo S50系列前瞻:全球首款驍龍8 Gen5小屏旗艦 同檔無(wú)敵
- ·智慧金融啟新篇:領(lǐng)航智慧金融——鴻蒙聯(lián)合創(chuàng)新解決方案正式啟動(dòng)
