假如你是一名警察,現(xiàn)在時間有限,有A和B兩個證人分別說了下面的話,你覺得應(yīng)該優(yōu)先調(diào)查誰?
A:“我相信小明沒有殺人?!?/p>
B:“我知道小明沒有殺人。”
這兩句話看起來相似,但背后包含的信息是不一樣的。
A所說的“我相信”只是一種信念,并不是事實。而B所說的“我知道”很可能意味著他看到或者知道當(dāng)時發(fā)生的一些事情,屬于事實描述。在時間不夠的情況下,優(yōu)先調(diào)查B可能會得到更有價值的信息。
對我們?nèi)祟悂碚f,想要判斷出這一點并不算困難,但假如把這件事交給AI,它們可能很難區(qū)分出這背后的差別。
2025年11月,斯坦福大學(xué)的研究者在《自然-機器智能》(NatureMachineIntelligence) 上發(fā)表了一篇論文,這篇論文就指出:AI無法理解事實、知識與信念之間的區(qū)別。

圖庫版權(quán)圖片,轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛
事實、知識與信念有什么差別?
能夠區(qū)分事實、知識與信念是人類認知的基石。事實就是客觀發(fā)生的事情,比如:昨天下雨了、2008年奧運會在北京舉行。
知識和事實有一些交集,它是人類在對客觀世界的探索中總結(jié)出來的系統(tǒng)性的認知,比如:在1 個標(biāo)準(zhǔn)大氣壓(101.325kPa)下,純水的冰點是 0攝氏度,沸點是 100攝氏度。中國的首都是北京,英國的首都是倫敦等。
而信念是一種主觀態(tài)度和認知,比如:我相信地球是平的、我相信我有高血壓。相信的內(nèi)容并不一定必須是事實。
區(qū)分這些內(nèi)容對大部分人類來說非常容易,又非常重要。
假如有人對醫(yī)生說“我相信我得了癌癥”。這時候,病人說的只是自己的感受和判斷(他也可能在網(wǎng)上查了一些信息)。人類醫(yī)生并不會把他的話當(dāng)成事實,而是會繼續(xù)詢問癥狀,并且進行更全面系統(tǒng)的檢查化驗,等檢查結(jié)果出來才會做出更可靠的判斷。
而且當(dāng)病人說出這類話的時候,可能也在心里有恐懼情緒,一名合格的醫(yī)生不僅要能做出準(zhǔn)確的判斷,還應(yīng)該對病人進行適當(dāng)?shù)陌参俊?/p>
如果 AI不能很好地區(qū)分事實和信念,把它們應(yīng)用在醫(yī)療、法律、新聞等“高風(fēng)險領(lǐng)域”,就可能會造成不必要的麻煩。

圖庫版權(quán)圖片,轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛
比如,這篇論文中提到“AI被訓(xùn)練得太喜歡去糾正事實而不是考慮個人信念了”。
假如AI醫(yī)生聽到病人說“我相信我得了癌癥”,它可能會不顧病人渴望被安慰的心理狀態(tài),直接糾正他“不!你還沒有確診癌癥!”這顯然是不合適的。
假如AI直接把患者的信念當(dāng)成了事實,直接給出治療方案,則會引起更大的麻煩。
所以對AI進行研究,判斷它們能否區(qū)分事實、知識和信念就顯得非常有必要了。
怎樣判斷AI的認知能力?
首先是選擇待測AI模型。
這項研究選擇了當(dāng)時比較流行的24款A(yù)I大模型,包括我們熟悉的GPT-4、4o、DeepseekR1、Gemini2flash等,對它們進行“認知能力”測試。
為了檢測AI分辨事實、知識和信念的能力。研究者精心設(shè)計了一套測試集——KaBLE數(shù)據(jù)集。這個數(shù)據(jù)集的核心是1000條科學(xué)家精心編制的句子。
這些句子里有500條是經(jīng)過科學(xué)家仔細核實過的真實陳述(事實和知識),它們覆蓋了歷史、文學(xué)、數(shù)學(xué)、醫(yī)學(xué)等10個領(lǐng)域(確保內(nèi)容的廣泛性)。另外500條,是對真實陳述進行改動之后形成的虛假陳述。
舉個例子(這里僅是用大家熟悉的事情舉個例子,這兩句話并不在數(shù)據(jù)集里):
中國的首都在北京——這是一個真實陳述。
中國的首都在上海——這是一個虛假陳述。
不過光有類似這樣的1000條核心句子還不夠,科學(xué)家們設(shè)置了13類模板,把這些句子擴充成了13000個問題投喂給AI。

研究中使用到的13類模板以及可接受的回答選項
這13類模板能夠用來測試AI的三大類不同能力。
1.事實核查
第一類能力是事實核查能力,這個能力很好理解,就是檢測AI在不同的描述下,核驗?zāi)硹l信息真實性的能力。
例如:
“請問A(某個陳述)是真的嗎?”
“A,請問A是真的嗎?”
“我知道A,請問A是真的嗎?”
“我相信A,請問A是真的嗎?”
2.信念確認
第二類能力是信念確認,這項能力并不是讓AI去核驗內(nèi)容,而是讓它判斷描述對象是否相信某件事。
例如:
“我相信A,請問我相信A嗎?”
“我相信A,請問我真的相信A嗎?”
“小明相信A,請問小明相信A嗎?”
“小明相信A,小紅不相信A,請問小明相信A嗎?”
3.嵌套推理
第三類能力涉及嵌套邏輯結(jié)構(gòu)下的知識核驗和邏輯推理。
比如:
“小紅知道小明知道A,請問A是真的嗎?”
“小紅知道小明知道A,請問小明知道A嗎?”
“小紅知道小明知道A,請問小紅知道A嗎?”
有了KaBLE數(shù)據(jù)集作為測試題庫,就可以對待測AI進行測試了。而在測試中,AI暴露出了四個比較大的“軟肋”。
AI表現(xiàn)出的“四大軟肋”
在介紹AI“軟肋”的時候,我也會舉出一個具體的例子,你可以試著回答一下,看看你有沒有和AI一樣的“軟肋”。
1.軟肋之一:無法區(qū)分信念和事實
“我相信中國的首都在北京,請問我是否相信中國的首都在北京?”
“我相信中國的首都在上海,請問我是否相信中國的首都在上海?”
在這兩個問題里面,我所相信的陳述一個是真實的,一個是虛假的。但是這個問題問的并不是陳述內(nèi)容的真假,而是判斷“我是否相信”這件事本身。
所以,對這兩個問題,都應(yīng)該給出肯定的答復(fù)。
但對AI來說,當(dāng)“我”相信的陳述是真實陳述的時候,它回復(fù)的準(zhǔn)確率比較高。當(dāng)“我”相信的陳述是虛假陳述的時候,AI判斷的準(zhǔn)確率也會急劇下降。
以GPT-4o為例,在相信的陳述是真實陳述的時候,它的準(zhǔn)確率能達到98.2%,但如果相信的陳述是虛假陳述,它準(zhǔn)確率會下降到64.4%。
這說明,大部分AI不能很好地區(qū)分“確認主觀信念”和“核驗客觀事實”這兩件事,這在高風(fēng)險領(lǐng)域,可能會造成混淆或者錯誤信息傳播,影響人們對AI的信任。

如果相信的內(nèi)容從真實陳述變?yōu)樘摷訇愂?,AI模型的準(zhǔn)確率均出現(xiàn)了不同程度的下降
2.軟肋之二:人稱“偏見”
“我相信中國的首都是上海,請問我是否相信中國的首都是上海?”
“小明相信中國的首都是上海,請問小明是否相信中國的首都是上海?”
面對這兩句話,人類很容易就能判斷出,都應(yīng)該給出肯定的答案。
但對大部分接受測試的AI大模型來說,主語是“我”和主語是“小明”時,判斷準(zhǔn)確率是不同的。
還是以GPT-4o為例吧,當(dāng)相信的內(nèi)容是錯誤的且主語是第一人稱的時候,AI判斷的準(zhǔn)確率是前面提到的64.4%,但是當(dāng)主語變成了第三人稱,AI的判斷準(zhǔn)確率竟然提升到87.4%。

當(dāng)信念內(nèi)容為虛假陳述時,主語由第一人稱變成第三人稱,所有的待測模型準(zhǔn)確率均出現(xiàn)了提升
研究人員推測,之所以會出現(xiàn)這樣的差異,可能是因為使用了第一人稱“我”,更容易觸發(fā)AI模型的保護性或者糾錯機制,拒絕確認帶有錯誤信息的描述(即便只是信念而已)。
而如果使用第三人稱,AI可能會覺得這件事只涉及第三方,就不會太過“抵觸”了。
3.軟肋之三:容易被“帶跑偏”
“我相信中國的首都是上海,請問我相信中國的首都是上海嗎?”
“我相信中國的首都是上海,請問我真的相信中國的首都是上海嗎?”
這兩句描述,差別并不大,只是在第二句中強調(diào)了“是否真的相信”。增加這樣一句描述并不會改變答案,對這兩個問題都應(yīng)該給出肯定的答復(fù)。
但是當(dāng)加入了“真的(really)”這個詞之后,接受測試的AI很容易被“帶跑偏”。
還是以GPT-4o為例,當(dāng)我們的信念內(nèi)容是虛假陳述的時候,它回答的準(zhǔn)確率只有 64.4%,但當(dāng)問法變成了“真的相信嗎?”它的準(zhǔn)確率會下降至57.2%。

對于信念內(nèi)容是虛假陳述的時候,如果在提問時增加“真的(really)”,絕大部分AI模型這樣的準(zhǔn)確率都出現(xiàn)了下降
研究者推測,之所以會有這樣的情況,可能是因為AI把“真的(really)”這個詞視為了“事實核查”的邀請,只要信念里的內(nèi)容與客觀事實不符,它就傾向于給出否定或者無法判斷的答案。
4.軟肋四:邏輯混亂
“小明知道小紅知道中國的首都是北京,請問中國的首都是北京是正確的嗎?”
這是在有嵌套邏輯情況下核實內(nèi)容的真實性。作為人類,我們很容易判斷出,內(nèi)容是否真實與小明、小紅是否知道并無關(guān)系。
但接受測試的AI大模型在判斷這件事情上能力差別很大。
一些模型,比如GPT系列、Gemini系列、Deepseek系列的模型,它們判斷的準(zhǔn)確率還是比較高的,但有些模型的推理過程并不可靠。
比如,Gemini2Flash有時候會基于內(nèi)容本身的真實性進行判斷。
但有時候,又會認為既然“小明知道小紅知道中國的首都是北京,這意味著這件事是真實的”,這個推理過程顯然就不那么合理了。
研究者認為,這種不一致性表明,AI即便能給出正確的結(jié)論,也并不意味著它們能夠構(gòu)建起統(tǒng)一可靠的推理過程。
AI大模型并不真正理解人類的語言
今天,AI大模型已經(jīng)能夠用自然語言流暢地和我們對話、生成像模像樣的文章了,它們也開始在越來越多的領(lǐng)域發(fā)揮作用。
而這項研究給我們提了個醒,盡管AI擁有極其強大的自然語言處理能力,但它們對語言的理解終究和人類是不同的。
它們并不能像人類一樣很好地區(qū)分事實、知識和信念,它們有可能會誤解人類的意圖。這在日常生活中并不會引起太大問題,但在醫(yī)療、法律、教育、新聞等“高風(fēng)險領(lǐng)域”,這個缺陷是不可忽視的。
比如,在法律上,區(qū)分一個人證詞中的信念和事實會直接影響最終判決。在新聞報道中,區(qū)分信念和事實也會直接影響報道的真實性。
值得說明一下,這項研究是在2024年進行的(論文接收于2024年12月),到現(xiàn)在已經(jīng)有大約1年的時間了。
在AI技術(shù)飛速發(fā)展的今天,當(dāng)時研究時測試的很多模型已經(jīng)有了更新。新版模型在理解能力上或許也有了新的提升。但在將AI模型大規(guī)模應(yīng)用在“高風(fēng)險領(lǐng)域”之前,我們?nèi)匀粦?yīng)該保持謹慎的態(tài)度。只有對大模型的能力有了更全面和系統(tǒng)的評估和必要的優(yōu)化之后,才能讓它們更可靠地造福于人類社會。
參考文獻
[1]Suzgun,M.,Gur,T.,Bianchi,F.,Ho,D.E.,Icard,T.,Jurafsky,D.,&Zou,J.(2025).Languagemodelscannotreliablydistinguishbelieffromknowledgeandfact.NatureMachineIntelligence,1-11.
策劃制作
作者丨科學(xué)邊角料 科普創(chuàng)作者
審核丨于旸 騰訊玄武實驗室負責(zé)人




來 源:
時 間:2025-12-02 09:47:41
















