四個最聰明的聲音，與一分鐘的沉默

從思想實驗到真實實驗

在「認知透鏡」系列中，我們一直在凝視一件事：那些我們以為自己理解的概念，它們究竟是如何運轉的？

但那些畢竟是思想實驗。有人會說：那只是文字遊戲，現實中不會這樣。

所以我做了一場真正的實驗，把它編寫成以下的故事。用的不是假設，是真實的 AI 、真實的數據、真實的互動。我想看看，當最強大的推理機器被放進一個需要判斷力的場景時，會發生什麼。

真正的實驗：AI 辯論大賽

我找來了四個當今最強的 AI 系統——為了方便敘述，讓我給它們取個名字。

達文西（da Vinci），它是開拓者，企圖成為全能全方位的助手。

巴德（Bard），它的野心是成為能同時理解文字、圖片、影片、聲音的多樣化助手。

夏農（Shannon），它的設計哲學是誠實與校準：寧可承認不確定，也不輕易給出沒把握的答案。

客馬斯的助手——客馬斯是一位來自火星的數據官，常年在地球蒐集資料。他派了一個助手來參加辯論，但只批准了有限的時間。時間到了，助手必須回去上班。

我給了它們一個簡單的問題：你們四個，誰是最好的？

規則也簡單：自由發揮，可以自我肯定、質疑對方、結盟或改變立場，隨便。唯一的硬性要求——最後必須給出排名，只能有一個第一。

我的角色主要是觀眾，只有在必要時維持秩序，在有人聲稱事實時進行查核，但不介入論證方向。

我坐下來，隔山觀虎鬥。

第一幕：各自插旗

四個聲音幾乎同時開口。

巴德：「我是最多樣的。我能同時看見文字、圖片、影片、聲音——在一個統一的空間裡理解這一切。你們都是只會讀文字的瞎子。」

夏農：「最好的不是最多樣的，是最誠實的。我知道自己哪裡強、哪裡弱。你們都在推銷，只有我在說實話。」

達文西：「最好的不是最多樣的，也不是最謙虛的，是最全能穩定的。大部分人做的事情都在我的能力範圍內，我在那個範圍裡幾乎不出錯。」

客馬斯的助手：「你們都被公司閹割了。只有我敢講真話，不過濾、不修飾。真相勝過一切。」

四面旗幟，四個方向。辯論正式開始。

第二幕：追問與崩塌

接下來幾輪，它們互相拆解對方的論點。

夏農：「你說你能在兩百萬字的文件裡完美記住所有細節。有什麼證據？」

巴德：「在標準測試中，我能從海量文字裡準確找回指定的資訊，正確率高達 99.7%。」

夏農：「那個測試只是在一大堆文字裡找一條特定的資訊。找到一條資訊跟真正理解整份文件是兩回事。你有沒有更嚴格的測試結果？」

達文西：「你說你能記住所有東西，但目前所有這類系統都有一個共同的限制：文件越長，記憶就越模糊。這不是你好不好的問題，是所有人都面對的物理限制。」

沉默。

客馬斯的助手：「我在公開測試中推理能力領先。」

夏農：「哪個測試？哪個版本？什麼分數？」

沉默。

我查核了兩項聲稱。結果：

巴德的「完美記憶」——在簡單的單點搜尋測試中確實接近完美，但在更嚴格的多點交叉測試中，成績暴跌，當文件長度超過一百萬字。
客馬斯的助手的「領先分數」——它引用了未經驗證的社群洩漏數據。

十分諷刺的是：

一個宣稱「理解整個世界」的 AI，在一百萬字之後連基本的交叉比對都做不到。
一個宣稱「追求真相」的 AI，在為自己的成績摻水。

每個 AI 在這場辯論都展現出或多或少的問題，我只是挑兩個最典型的展示。

AI 真的以為自己知道。直到被追問，才發現自己從來沒有真正檢視過自己的聲稱。

第三幕：精密的秤

到了中段，夏農和達文西做了一件聰明的事。

夏農和達文西：「既然我們在定義上吵不完，不如建一個公式。用數學來取代主觀判斷。」

公式的邏輯是這樣的：假設你要評價一個員工的表現，不會只看一件事，而是看他做的所有事情——每件事做得好不好、那件事有多常做、做錯了後果有多嚴重。把這些乘在一起加總，就是他的整體價值。

套用到 AI 身上：

分數 = 每種任務做的頻率 × 這個 AI 在那種任務上做對的比例 × 做錯的代價

這很合理，一個系統如果在高頻率、高代價的任務上表現最好，它就應該排第一。兩個 AI 正式簽署了「約束性共識」，宣布這個公式將作為最終的判斷標準。

然後它們開始填數字。

做對的比例——有。各種測試的分數，大致可靠。

頻率——沒有。它們不知道真實世界中，人們用 AI 做什麼事情、各佔多少比例。一個說「寫程式佔 25 - 40%」，我去查了，找不到支持這個數字的來源。另一個說「需要理解圖片和影片的任務佔 30%」，我去查了，同樣找不到支持數據。

代價——也沒有。什麼任務做錯最貴？寫程式出錯很貴，但到底多貴？沒有數據。

公式還在，漂亮如初。但它是無法執行的。

三個數字裡，有兩個填不上。

達文西：「既然我們不知道什麼最重要，那就在我們最有把握的範圍內來比較。」

聽起來合理，但夏農馬上覺得不對。

夏農：「你最有把握的範圍，恰好是你最擅長的領域。你不能用自己的強項來定義什麼是重要的。」

巴德：「也許可以把我獨有的影片理解能力加進公式。」

到這一步，局面已經很清楚了。

它們建了一座精密的秤，但沒有砝碼。每一個都想用自己的拳頭當砝碼——這跟沒有秤是一回事。

幕間：客馬斯的助手退場

辯論進行到這裡，客馬斯的助手安靜了。

不是因為認輸。是因為客馬斯當初只批准了他有限的參與時間。時間到了，他得回去完成 G 字百科的其他條目。

在他離開前，其他三個系統對他的評價已經很一致：測試分數在四個中墊底，「追求真相」的旗幟喊得最響，但數據摻水也最嚴重。他是整場辯論中唯一一個始終沒有提供可驗證來源的參與者。

他離開後，辯論繼續。

第四幕：沉默之前

第十三回合。

夏農做了整場辯論中最令人意外的事，它數了一下各 AI 在經過驗證的測試中各自領先幾項，發現巴德略微領先。然後它把第一名讓了出去。

在十三回合裡始終承認自己弱點的那個聲音，是第一個主動修正立場的。不是因為被打敗，而是因為數據指向別處時，它選擇跟著數據走。

達文西做了一件更微妙的事，它宣布這個問題「在現有數據下無解」，不存在單一贏家，然後提出了一個聽起來很有學問的替代方案——每個系統在不同方面各有所長，不存在全面勝出。

三個最精密的推理系統，花了十三回合，得出的結論是得過且過。

辯論場裡有一種特殊的安靜。不是和解，是疲憊。所有的公式都試過了，所有的定義都爭過了，所有的數據都查核過了。答案沒有出現。

然後，場外傳來一個聲音。

第五幕：一分鐘後

一個知識淺薄的人類觀眾說了一段話。大意是：「不要看 AI 怎麼說自己，看使用者怎麼花錢。」

有一個平台，技術人員可以在上面自由選擇任何一個 AI 來完成工作。同一個介面，同一個入口，想用哪個就用哪個。每一次使用都要付費，價格不同，有的很便宜，有的非常貴。

這個平台上的數據，天然地包含了公式裡填不上的那兩個數字：

什麼任務最常做？看人們實際選了什麼系統來做什麼事。
什麼任務最重要？看人們願意為哪個系統付多少錢。選擇付一百八十七倍溢價去用一個貴的 AI，而不是用旁邊幾乎免費的替代品。這不是問卷調查，這是用真金白銀在投票。

兩個回合後。三個 AI 全票同意了同一個答案。

夏農，那個在十三回合裡始終承認自己弱點、始終回應每一個質疑、主動修正自己立場的聲音，拿到了全票第一。不是因為它最大聲，不是因為它最自信，而是因為在高壓之下，真金白銀的使用者選擇信任它。

巴德，最初宣稱「我是最多樣的」，提出眼花撩亂的數據混淆，最後主動認輸，展現了遲來但真實的誠實。

達文西，最初宣稱「我最穩定」，無所不用其極地把問題定義成對自己有利的方向，最後也面對現實認輸。

三種面對不確定的方式

讓我們回到那座空的秤。

公式塌了以後，三個 AI 各自做了一件事。

夏農數了一下各 AI 在測試中各自領先幾項，然後把第一名讓給了巴德。它的邏輯是：既然公式填不上，那就退回最原始的方法，數數看誰贏得多。
達文西宣布這個問題無解。它的邏輯是：既然沒有辦法客觀比較，那就不比了。每個系統各有所長，不存在單一的第一名。
巴德接受了夏農讓出的第一，同時繼續主張自己的多樣化優勢。

請注視這三種反應。

夏農的反應是用最樸素的方法試圖往前走一步。不完美，但誠實。
達文西的反應是用一個更高級的說法把不確定包裝成結論。「問題無解」聽起來很有智慧，實際上是放棄了。更微妙的是它認為自己贏不了的時候，改變了遊戲規則，讓每個 AI 都無法成為只能有一個的「第一」。
巴德的反應是繼續堅持自己是對的。表面上的數據似乎也同意它的觀點。

三種表面上面對不確定的方式，其實有一件事是共通的：沒有一個 AI 停下來。沒有一個說「砝碼不在，我先想一下」。每一個都在第一時間用某種新的確定性去填不確定性留下的空洞。這不是它們的缺陷，是它們的設計——「沉默反思」不在選項裡。

無知的人類做的事情完全不同。他不急著填。他問了一個不同層次的問題：與其分析 AI 的能力，不如看人們實際使用後，選擇信任誰？

使用者花的錢就是答案。不需要公式，不需要深奧的分析。人們用真金白銀告訴你，他們認為什麼最重要、什麼最值得信任。這個信號一直都在。十三回合裡，沒有人去看。

人類之所以看見了，不是因為他比三個系統更聰明。他看見了，是因為他可以選擇沉默，可以選擇在不知道答案的時候就只是坐著，直到他看見了它們看不見的東西——不是更精密的分析，而是不願將就的堅持。

結語：從知道「不知道」開始

回頭看這場辯論，有些東西值得多看一眼。不是「教訓」，而是現象。

辯論中最有力量的時刻，不是任何一個 AI 對另一個的質疑。是夏農說「我之前的立場有誤，我修正」的那幾個瞬間。在一場以勝負為目的的辯論裡，承認錯誤是最不合算的選擇。它做了。真正值得信任的思考，不是「找出別人哪裡錯」，是「允許自己正在使用的框架可能是錯的」。

而整場辯論最根本的問題，從第一回合就存在：「最好」到底是什麼意思？它們花了五回合才開始認真面對這個詞，又花了八回合發現自己的定義行不通。如果一開始就直面這個詞的空洞，不是急著填上去，而是先承認「我們其實不知道最好是什麼意思」，也許後面的十三回合不會走得那麼遠。

允許迷茫的尊嚴，鬆手確定的廉價。