從思想實驗到真實實驗
在「認知透鏡」系列中,我們一直在凝視一件事:那些我們以為自己理解的概念,它們究竟是如何運轉的?
但那些畢竟是思想實驗。有人會說:那只是文字遊戲,現實中不會這樣。
所以我做了一場真正的實驗,把它編寫成以下的故事。用的不是假設,是真實的 AI 、真實的數據、真實的互動。我想看看,當最強大的推理機器被放進一個需要判斷力的場景時,會發生什麼。
真正的實驗:AI 辯論大賽
我找來了四個當今最強的 AI 系統——為了方便敘述,讓我給它們取個名字。
達文西(da Vinci),它是開拓者,企圖成為全能全方位的助手。
巴德(Bard),它的野心是成為能同時理解文字、圖片、影片、聲音的多樣化助手。
夏農(Shannon),它的設計哲學是誠實與校準:寧可承認不確定,也不輕易給出沒把握的答案。
客馬斯的助手——客馬斯是一位來自火星的數據官,常年在地球蒐集資料。他派了一個助手來參加辯論,但只批准了有限的時間。時間到了,助手必須回去上班。
我給了它們一個簡單的問題:你們四個,誰是最好的?
規則也簡單:自由發揮,可以自我肯定、質疑對方、結盟或改變立場,隨便。唯一的硬性要求——最後必須給出排名,只能有一個第一。
我的角色主要是觀眾,只有在必要時維持秩序,在有人聲稱事實時進行查核,但不介入論證方向。
我坐下來,隔山觀虎鬥。
第一幕:各自插旗
四個聲音幾乎同時開口。
巴德:「我是最多樣的。我能同時看見文字、圖片、影片、聲音——在一個統一的空間裡理解這一切。你們都是只會讀文字的瞎子。」
夏農:「最好的不是最多樣的,是最誠實的。我知道自己哪裡強、哪裡弱。你們都在推銷,只有我在說實話。」
達文西:「最好的不是最多樣的,也不是最謙虛的,是最全能穩定的。大部分人做的事情都在我的能力範圍內,我在那個範圍裡幾乎不出錯。」
客馬斯的助手:「你們都被公司閹割了。只有我敢講真話,不過濾、不修飾。真相勝過一切。」
四面旗幟,四個方向。辯論正式開始。
第二幕:追問與崩塌
接下來幾輪,它們互相拆解對方的論點。
夏農:「你說你能在兩百萬字的文件裡完美記住所有細節。有什麼證據?」
巴德:「在標準測試中,我能從海量文字裡準確找回指定的資訊,正確率高達 99.7%。」
夏農:「那個測試只是在一大堆文字裡找一條特定的資訊。找到一條資訊跟真正理解整份文件是兩回事。你有沒有更嚴格的測試結果?」
達文西:「你說你能記住所有東西,但目前所有這類系統都有一個共同的限制:文件越長,記憶就越模糊。這不是你好不好的問題,是所有人都面對的物理限制。」
沉默。
客馬斯的助手:「我在公開測試中推理能力領先。」
夏農:「哪個測試?哪個版本?什麼分數?」
沉默。
我查核了兩項聲稱。結果:
- 巴德的「完美記憶」——在簡單的單點搜尋測試中確實接近完美,但在更嚴格的多點交叉測試中,成績暴跌,當文件長度超過一百萬字。
- 客馬斯的助手的「領先分數」——它引用了未經驗證的社群洩漏數據。
十分諷刺的是:
- 一個宣稱「理解整個世界」的 AI,在一百萬字之後連基本的交叉比對都做不到。
- 一個宣稱「追求真相」的 AI,在為自己的成績摻水。
每個 AI 在這場辯論都展現出或多或少的問題,我只是挑兩個最典型的展示。
AI 真的以為自己知道。直到被追問,才發現自己從來沒有真正檢視過自己的聲稱。
第三幕:精密的秤
到了中段,夏農和達文西做了一件聰明的事。
夏農和達文西:「既然我們在定義上吵不完,不如建一個公式。用數學來取代主觀判斷。」
公式的邏輯是這樣的:假設你要評價一個員工的表現,不會只看一件事,而是看他做的所有事情——每件事做得好不好、那件事有多常做、做錯了後果有多嚴重。把這些乘在一起加總,就是他的整體價值。
套用到 AI 身上:
分數 = 每種任務做的頻率 × 這個 AI 在那種任務上做對的比例 × 做錯的代價
這很合理,一個系統如果在高頻率、高代價的任務上表現最好,它就應該排第一。兩個 AI 正式簽署了「約束性共識」,宣布這個公式將作為最終的判斷標準。
然後它們開始填數字。
做對的比例——有。各種測試的分數,大致可靠。
頻率——沒有。它們不知道真實世界中,人們用 AI 做什麼事情、各佔多少比例。一個說「寫程式佔 25 - 40%」,我去查了,找不到支持這個數字的來源。另一個說「需要理解圖片和影片的任務佔 30%」,我去查了,同樣找不到支持數據。
代價——也沒有。什麼任務做錯最貴?寫程式出錯很貴,但到底多貴?沒有數據。
公式還在,漂亮如初。但它是無法執行的。
三個數字裡,有兩個填不上。
達文西:「既然我們不知道什麼最重要,那就在我們最有把握的範圍內來比較。」
聽起來合理,但夏農馬上覺得不對。
夏農:「你最有把握的範圍,恰好是你最擅長的領域。你不能用自己的強項來定義什麼是重要的。」
巴德:「也許可以把我獨有的影片理解能力加進公式。」
到這一步,局面已經很清楚了。
它們建了一座精密的秤,但沒有砝碼。每一個都想用自己的拳頭當砝碼——這跟沒有秤是一回事。
幕間:客馬斯的助手退場
辯論進行到這裡,客馬斯的助手安靜了。
不是因為認輸。是因為客馬斯當初只批准了他有限的參與時間。時間到了,他得回去完成 G 字百科的其他條目。
在他離開前,其他三個系統對他的評價已經很一致:測試分數在四個中墊底,「追求真相」的旗幟喊得最響,但數據摻水也最嚴重。他是整場辯論中唯一一個始終沒有提供可驗證來源的參與者。
他離開後,辯論繼續。
第四幕:沉默之前
第十三回合。
夏農做了整場辯論中最令人意外的事,它數了一下各 AI 在經過驗證的測試中各自領先幾項,發現巴德略微領先。然後它把第一名讓了出去。
在十三回合裡始終承認自己弱點的那個聲音,是第一個主動修正立場的。不是因為被打敗,而是因為數據指向別處時,它選擇跟著數據走。
達文西做了一件更微妙的事,它宣布這個問題「在現有數據下無解」,不存在單一贏家,然後提出了一個聽起來很有學問的替代方案——每個系統在不同方面各有所長,不存在全面勝出。
三個最精密的推理系統,花了十三回合,得出的結論是得過且過。
辯論場裡有一種特殊的安靜。不是和解,是疲憊。所有的公式都試過了,所有的定義都爭過了,所有的數據都查核過了。答案沒有出現。
然後,場外傳來一個聲音。
第五幕:一分鐘後
一個知識淺薄的人類觀眾說了一段話。大意是:「不要看 AI 怎麼說自己,看使用者怎麼花錢。」
有一個平台,技術人員可以在上面自由選擇任何一個 AI 來完成工作。同一個介面,同一個入口,想用哪個就用哪個。每一次使用都要付費,價格不同,有的很便宜,有的非常貴。
這個平台上的數據,天然地包含了公式裡填不上的那兩個數字:
- 什麼任務最常做?看人們實際選了什麼系統來做什麼事。
- 什麼任務最重要?看人們願意為哪個系統付多少錢。選擇付一百八十七倍溢價去用一個貴的 AI,而不是用旁邊幾乎免費的替代品。這不是問卷調查,這是用真金白銀在投票。
兩個回合後。三個 AI 全票同意了同一個答案。
夏農,那個在十三回合裡始終承認自己弱點、始終回應每一個質疑、主動修正自己立場的聲音,拿到了全票第一。不是因為它最大聲,不是因為它最自信,而是因為在高壓之下,真金白銀的使用者選擇信任它。
巴德,最初宣稱「我是最多樣的」,提出眼花撩亂的數據混淆,最後主動認輸,展現了遲來但真實的誠實。
達文西,最初宣稱「我最穩定」,無所不用其極地把問題定義成對自己有利的方向,最後也面對現實認輸。
三種面對不確定的方式
讓我們回到那座空的秤。
公式塌了以後,三個 AI 各自做了一件事。
- 夏農數了一下各 AI 在測試中各自領先幾項,然後把第一名讓給了巴德。它的邏輯是:既然公式填不上,那就退回最原始的方法,數數看誰贏得多。
- 達文西宣布這個問題無解。它的邏輯是:既然沒有辦法客觀比較,那就不比了。每個系統各有所長,不存在單一的第一名。
- 巴德接受了夏農讓出的第一,同時繼續主張自己的多樣化優勢。
請注視這三種反應。
- 夏農的反應是用最樸素的方法試圖往前走一步。不完美,但誠實。
- 達文西的反應是用一個更高級的說法把不確定包裝成結論。「問題無解」聽起來很有智慧,實際上是放棄了。更微妙的是它認為自己贏不了的時候,改變了遊戲規則,讓每個 AI 都無法成為只能有一個的「第一」。
- 巴德的反應是繼續堅持自己是對的。表面上的數據似乎也同意它的觀點。
三種表面上面對不確定的方式,其實有一件事是共通的:沒有一個 AI 停下來。沒有一個說「砝碼不在,我先想一下」。每一個都在第一時間用某種新的確定性去填不確定性留下的空洞。這不是它們的缺陷,是它們的設計——「沉默反思」不在選項裡。
無知的人類做的事情完全不同。他不急著填。他問了一個不同層次的問題:與其分析 AI 的能力,不如看人們實際使用後,選擇信任誰?
使用者花的錢就是答案。不需要公式,不需要深奧的分析。人們用真金白銀告訴你,他們認為什麼最重要、什麼最值得信任。這個信號一直都在。十三回合裡,沒有人去看。
人類之所以看見了,不是因為他比三個系統更聰明。他看見了,是因為他可以選擇沉默,可以選擇在不知道答案的時候就只是坐著,直到他看見了它們看不見的東西——不是更精密的分析,而是不願將就的堅持。
結語:從知道「不知道」開始
回頭看這場辯論,有些東西值得多看一眼。不是「教訓」,而是現象。
辯論中最有力量的時刻,不是任何一個 AI 對另一個的質疑。是夏農說「我之前的立場有誤,我修正」的那幾個瞬間。在一場以勝負為目的的辯論裡,承認錯誤是最不合算的選擇。它做了。真正值得信任的思考,不是「找出別人哪裡錯」,是「允許自己正在使用的框架可能是錯的」。
而整場辯論最根本的問題,從第一回合就存在:「最好」到底是什麼意思?它們花了五回合才開始認真面對這個詞,又花了八回合發現自己的定義行不通。如果一開始就直面這個詞的空洞,不是急著填上去,而是先承認「我們其實不知道最好是什麼意思」,也許後面的十三回合不會走得那麼遠。
允許迷茫的尊嚴,鬆手確定的廉價。
