

【新智元導(dǎo)讀】史上最強(qiáng)模型 Claude Opus 4.5 發(fā)布后,全面碾壓了人類頂尖工程師,逼得 Anthropic 不得不被迫放棄招聘筆試!現(xiàn)在,內(nèi)部考題已經(jīng)全面開(kāi)源了。
就在剛剛,人類程序員最后的堡壘崩塌了。
曾經(jīng),Anthropic 為自己應(yīng)聘者準(zhǔn)備了一份出了名困難的考題,讓他們?cè)诩彝瓿伞?/p>
這份考題一直效果不錯(cuò),直到 Claude Opus 4.5 的出現(xiàn)。
有了這個(gè)史上最強(qiáng)模型的加持,人類應(yīng)聘者輕松做出各種考題,因而這份考卷也就失效了。
今天,因?yàn)闊o(wú)法再通過(guò)傳統(tǒng)技術(shù)筆試篩選人才,Anthropic 被迫開(kāi)源了舊版試題,并且向全世界求助:有沒(méi)有辦法,讓我們真正測(cè)試出人類的編程能力?

作為告別,Anthropic 選擇將把最初版本的測(cè)試題發(fā)布,作為一個(gè)面向大眾的公開(kāi)挑戰(zhàn)。

地址:https://github.com/anthropics/original_performance_takehome
在這個(gè)測(cè)試題中,候選人需要逐步進(jìn)行多核并行優(yōu)化、SIMD 向量化、VLIW 指令打包優(yōu)化,并用 Perfetto trace 做分析。

上下滑動(dòng)查看
他們依然相信:在無(wú)限時(shí)間下,最強(qiáng)人類依然能超越 Claude 的極限。
同時(shí)他們強(qiáng)調(diào):如果哪個(gè)人類能擊敗 Claude Opus 4.5,請(qǐng)務(wù)必聯(lián)系 Anthropic!
剛剛,Claude Opus 4.5 把我們的筆試題秒了
在 AI 時(shí)代,究竟該如何進(jìn)行軟件工程師的面試?
Anthropic 在這篇博客里,進(jìn)行了細(xì)致的探索。

博客地址:https://www.anthropic.com/engineering/AI-resistant-technical-evaluations
要知道,曾經(jīng) Anthropic 有一套完美的篩選考題。
可隨著 AI 能力的指數(shù)級(jí)提升,今天還能完美區(qū)分菜鳥(niǎo)和大神的試題,明天就可能被新模型秒殺,這套考題就瞬間失去意義了!
比如,自 2024 年初,他們的性能工程團(tuán)隊(duì)一直在用下面這套題:要求候選人為一個(gè)模擬加速器優(yōu)化代碼。
這套題在 1000 多名面試者中,篩出了幾十個(gè)最頂尖的工程師。正是這些人,點(diǎn)亮了 Anthropic 的 Trainium 集群,發(fā)布了從 Claude 3 Opus 至今的每一個(gè)模型。
結(jié)果,每個(gè)新版本的 Claude,都在讓這套題失效!
同樣的時(shí)間里,Claude Opus 4 已經(jīng)優(yōu)于大多數(shù)人類申請(qǐng)者,Anthropic 勉強(qiáng)還能篩出最強(qiáng)的人類。
結(jié)果 Claude Opus 4.5 的橫空出世,直接追平了最強(qiáng)人類天花板!
如果給無(wú)限的時(shí)間,人類或許還能險(xiǎn)勝,但在面試時(shí)間限制下,已經(jīng)根本無(wú)法區(qū)分誰(shuí)是頂尖候選人,誰(shuí)是最強(qiáng)模型了。
為此,Anthropic 已經(jīng)把這套題迭代了三個(gè)版本,甚至越來(lái)越「劍走偏鋒」。
這套測(cè)試的誕生
2023 年 11 月,Anthropic 正準(zhǔn)備發(fā)布 Claude Opus 3。
新的 TPU 和 GPU 集群就位,樂(lè)魚(yú)體育官方網(wǎng)站大 Trainium 集群即將上線,公司在算力上的投入是過(guò)去的數(shù)倍,但性能工程師卻嚴(yán)重緊缺。
為此,Anthropic 公司績(jī)效優(yōu)化團(tuán)隊(duì)負(fù)責(zé)人 Tristan Hume 在 Twitter 上發(fā)帖求賢,雖然收到了大量簡(jiǎn)歷,但標(biāo)準(zhǔn)的面試流程太耗時(shí)了。

于是,他花了兩個(gè)星期設(shè)計(jì)了一個(gè) Take-home 測(cè)試,從而精準(zhǔn)識(shí)別出真正硬核的候選人。
設(shè)計(jì)初衷
為了做出一個(gè)好玩的、能讓候選人興奮的東西,并且能以「高分辨率」掃描他們的技術(shù)實(shí)力,Tristan Hume 做了精心設(shè)計(jì)。
相比現(xiàn)場(chǎng)面試,這種形式在評(píng)估性能工程技能上更有優(yōu)勢(shì):
時(shí)間更充裕:4 小時(shí)(后改為 2 小時(shí))的窗口比 50 分鐘的面試更能反映真實(shí)工作狀態(tài)。
環(huán)境更真實(shí):沒(méi)有面試官盯著,候選人在自己的編輯器里干活,零干擾。
深度考察:性能優(yōu)化需要理解系統(tǒng)、造工具,這在短面試?yán)锖茈y體現(xiàn)。
兼容 AI 輔助:明確允許使用 AI。因?yàn)閷?duì)于長(zhǎng)線難題,AI 很難直接給出完美解。
另外,Tristan 還構(gòu)建了一個(gè) Python 模擬器,模擬了一個(gè)具有 TPU 特征的假加速器。
候選人需要優(yōu)化在這臺(tái)機(jī)器上運(yùn)行的代碼,并通過(guò)一個(gè)支持熱重載的 Perfetto trace 來(lái)觀察執(zhí)行過(guò)程,該 trace 會(huì)展示每一條指令,效果類似公司在 Trainium 上使用的工具鏈。

這臺(tái)模擬機(jī)器包含了一些讓加速器優(yōu)化變得很有挑戰(zhàn)性的特性,包括:
手動(dòng)管理的 scratchpad 內(nèi)存(不同于 CPU,加速器通常需要顯式進(jìn)行內(nèi)存管理)
VLIW 架構(gòu)(每個(gè)周期可以并行運(yùn)行多個(gè)執(zhí)行單元,金沙電玩城需要高效地進(jìn)行指令打包)
SIMD(一條指令同時(shí)對(duì)多個(gè)數(shù)據(jù)元素進(jìn)行向量化運(yùn)算)
多核架構(gòu)(需要將工作負(fù)載合理地分配到多個(gè)核心上)
這些硬核要素,都讓底層優(yōu)化變得更有趣。

這個(gè)任務(wù)是一個(gè)并行的樹(shù)遍歷問(wèn)題,刻意設(shè)計(jì)成不帶深度學(xué)習(xí)背景的形式,因?yàn)榇蠖鄶?shù)性能工程師并沒(méi)有做過(guò)深度學(xué)習(xí)工作,具體知識(shí)可以在入職后再學(xué)習(xí)。
該問(wèn)題的靈感來(lái)自于無(wú)分支的 SIMD 決策樹(shù)推理——這是一個(gè)經(jīng)典的機(jī)器學(xué)習(xí)優(yōu)化挑戰(zhàn)。
候選人一開(kāi)始拿到的是一個(gè)完全串行的實(shí)現(xiàn),需要逐步挖掘并利用這臺(tái)機(jī)器的并行能力。
早期戰(zhàn)果:它曾完美工作
最初的效果非常好。
一位得分遙遙領(lǐng)先的候選人入職后,立即開(kāi)始優(yōu)化算子,并解決了一個(gè)阻礙發(fā)布的編譯器 Bug。
在之后的一年半里,這套題幫忙組建了核心團(tuán)隊(duì),甚至發(fā)掘了幾位本科剛畢業(yè)但實(shí)力超群的天才。
許多候選人甚至因?yàn)橛X(jué)得太好玩,在超時(shí)后還在繼續(xù)優(yōu)化。最強(qiáng)的一份提交,甚至包含了一個(gè)完整的迷你優(yōu)化編譯器。
第一輪崩潰:Claude Opus 4 進(jìn)場(chǎng)
到了 25 年 5 月,Claude 3.7 Sonnet 已經(jīng)進(jìn)化到讓一半的候選人只要把題丟給它,就能拿高分。
隨后,Tristan 用 Claude Opus 4 的預(yù)發(fā)布版本試了一下。結(jié)果令人絕望:在 4 小時(shí)內(nèi),它的代碼比幾乎所有人類都要好。
這并非他第一次被 Claude 擊敗。早在 2023 年,Claude 3 Opus 和 3.5 Sonnet 就先后攻破了他們精心準(zhǔn)備的現(xiàn)場(chǎng)面試題。
對(duì)于這次崩潰,Tristan 做了緊急修復(fù):既然問(wèn)題深度不夠,那就加碼。他重寫(xiě)了啟動(dòng)代碼,增加了機(jī)器特性的復(fù)雜度,并把時(shí)間縮短到 2 小時(shí)。
第二版?zhèn)戎乜疾烨擅畹膬?yōu)化洞察力,而非單純的代碼量。這招奏效了——但是,也只撐了幾個(gè)月而已。
第二輪崩潰:Claude Opus 4.5 的降維打擊
后來(lái),當(dāng) Tristan 拿到 Claude Opus 4.5 的預(yù)發(fā)布版本時(shí),他眼睜睜看著 Claude Code 跑了 2 小時(shí)。它像個(gè)老練的工程師,先解決了初始瓶頸,搞定了所有常規(guī)微優(yōu)化。
{jz:field.toptypename/}然后它卡住了,遇到了一個(gè)看似不可逾越的內(nèi)存帶寬瓶頸——大多數(shù)人類也卡在這里。但當(dāng)它提示「理論極限」時(shí),它思考片刻,竟然找到了那個(gè)只有極少數(shù)人類能發(fā)現(xiàn)的巧妙技巧。
最終,它的得分與人類歷史最高紀(jì)錄持平(而那個(gè)人類考生還是在重度依賴 Claude 4 的情況下完成的)。

更可怕的是,Anthropic 在內(nèi)部的「測(cè)試時(shí)計(jì)算」框架中驗(yàn)證發(fā)現(xiàn),它不僅能在 2 小時(shí)內(nèi)擊敗人類,甚至隨著思考時(shí)間的增加,分?jǐn)?shù)還在不斷上漲。
大麻煩來(lái)了:即將發(fā)布的模型,將徹底摧毀公司招聘這個(gè)模型開(kāi)發(fā)者的測(cè)試題。所以,他們只能采用這個(gè)策略——把工作直接外包給 Claude Code。
艱難的抉擇
有人建議禁止 AI,但 Tristan 并未采納。因?yàn)樵谡鎸?shí)工作中,人類就是需要和 AI 協(xié)作。
也有人建議提高及格線,但這會(huì)導(dǎo)致候選人淪為 AI 的看客,甚至因跟不上 AI 的思路而不知所措。
性能工程師的真實(shí)工作其實(shí)更多是艱難的調(diào)試、系統(tǒng)設(shè)計(jì)、分析,以及讓 AI 生成的代碼更優(yōu)雅。這些很難通過(guò)客觀測(cè)試來(lái)考察。
到底該怎樣設(shè)計(jì)一個(gè)「像真實(shí)工作」的面試題?這個(gè)任務(wù)從未如此艱難。
嘗試 1:換個(gè)題型?被秒殺
首先,Tristan 試圖設(shè)計(jì)一個(gè)更難的內(nèi)核優(yōu)化問(wèn)題:2D TPU 寄存器上的高效數(shù)據(jù)轉(zhuǎn)置,且要避免 Bank 沖突。這是一個(gè)非常棘手的真實(shí)難題。


然而,Claude Opus 4.5 發(fā)現(xiàn)了一個(gè)他都沒(méi)想到的絕佳優(yōu)化路徑:它重寫(xiě)了整個(gè)計(jì)算過(guò)程,直接繞過(guò)了轉(zhuǎn)置的難點(diǎn)。即便他修補(bǔ)了漏洞,Claude Code 配合深度思考(Ultrathink)功能,依然能找出修復(fù) Bank 沖突的技巧。
這讓他意識(shí)到,這類問(wèn)題在已有代碼庫(kù)中太常見(jiàn),Claude 已經(jīng)擁有了海量的訓(xùn)練數(shù)據(jù)「經(jīng)驗(yàn)」。
嘗試 2:變得更古怪
既然「真實(shí)」行不通,他只能追求「分布外(Out of distribution)」——即 AI 沒(méi)見(jiàn)過(guò)的數(shù)據(jù)。
他想到了 Zachtronics 的編程解謎游戲。這類游戲使用極度受限的指令集,迫使你用非傳統(tǒng)方式編程。



于是,他設(shè)計(jì)了一套全新的測(cè)試:使用微小且極度受限的指令集,目標(biāo)是指令數(shù)最小化。沒(méi)有可視化工具,沒(méi)有調(diào)試器——候選人必須自己造工具(比如讓 AI 生成調(diào)試器)。
他把這套題丟給 Claude Opus 4.5,它終于失敗了。
這套新題效果不錯(cuò),分?jǐn)?shù)與候選人的實(shí)際能力高度相關(guān)。但 Tristan 心中仍有遺憾:他們放棄了原版試題的「真實(shí)感」和「多樣性深度」。
但這或許就是代價(jià)。
「真實(shí)感」已經(jīng)成為了奢侈品。原版試題之所以有效,因?yàn)樗褚郧暗墓ぷ鳎滑F(xiàn)在的試題之所以有效,因?yàn)樗M了一個(gè)全新的、AI 尚未涉足的領(lǐng)域。
公開(kāi)向人類挑戰(zhàn):原版測(cè)試題開(kāi)源!
最終,Anthropic 宣布:將原版測(cè)試題開(kāi)源。雖然 Claude 很強(qiáng),但在無(wú)限時(shí)間下,人類專家的極限仍高于 AI。

目前,Claude 的戰(zhàn)績(jī)?nèi)缦拢ㄖ芷跀?shù)越低越好):
2164:Claude Opus 4
1790:Claude Opus 4.5(隨手一跑)
1487:Claude Opus 4.5(11.5 小時(shí)超長(zhǎng)思考后)
1363:Claude Opus 4.5(改進(jìn)框架后)
Tristan 表示:如果你能優(yōu)化到1487 周期以下,擊敗 Claude 的最佳表現(xiàn),請(qǐng)一定聯(lián)系他們!
同時(shí),他也歡迎大家通過(guò)常規(guī)流程申請(qǐng),體驗(yàn)一下人類要靠多久才能被攻破的「防 Claude」新考題。

備案號(hào):