另类做爱网,亚洲精品骚货,91探花大神纪实

金沙電玩app 剛剛，Anthropic內(nèi)部考題開(kāi)源！年薪百萬(wàn)工程師，被AI秒了

發(fā)布日期：2026-01-25 12:46 點(diǎn)擊次數(shù)：67

金沙電玩app 剛剛，Anthropic內(nèi)部考題開(kāi)源！年薪百萬(wàn)工程師，被AI秒了

【新智元導(dǎo)讀】史上最強(qiáng)模型 Claude Opus 4.5 發(fā)布后，全面碾壓了人類頂尖工程師，逼得 Anthropic 不得不被迫放棄招聘筆試！現(xiàn)在，內(nèi)部考題已經(jīng)全面開(kāi)源了。

就在剛剛，人類程序員最后的堡壘崩塌了。

曾經(jīng)，Anthropic 為自己應(yīng)聘者準(zhǔn)備了一份出了名困難的考題，讓他們?cè)诩彝瓿伞?/p>

這份考題一直效果不錯(cuò)，直到 Claude Opus 4.5 的出現(xiàn)。

有了這個(gè)史上最強(qiáng)模型的加持，人類應(yīng)聘者輕松做出各種考題，因而這份考卷也就失效了。

今天，因?yàn)闊o(wú)法再通過(guò)傳統(tǒng)技術(shù)筆試篩選人才，Anthropic 被迫開(kāi)源了舊版試題，并且向全世界求助：有沒(méi)有辦法，讓我們真正測(cè)試出人類的編程能力？

作為告別，Anthropic 選擇將把最初版本的測(cè)試題發(fā)布，作為一個(gè)面向大眾的公開(kāi)挑戰(zhàn)。

地址：https://github.com/anthropics/original_performance_takehome

在這個(gè)測(cè)試題中，候選人需要逐步進(jìn)行多核并行優(yōu)化、SIMD 向量化、VLIW 指令打包優(yōu)化，并用 Perfetto trace 做分析。

上下滑動(dòng)查看

他們依然相信：在無(wú)限時(shí)間下，最強(qiáng)人類依然能超越 Claude 的極限。

同時(shí)他們強(qiáng)調(diào)：如果哪個(gè)人類能擊敗 Claude Opus 4.5，請(qǐng)務(wù)必聯(lián)系 Anthropic！

剛剛，Claude Opus 4.5 把我們的筆試題秒了

在 AI 時(shí)代，究竟該如何進(jìn)行軟件工程師的面試？

Anthropic 在這篇博客里，進(jìn)行了細(xì)致的探索。

博客地址：https://www.anthropic.com/engineering/AI-resistant-technical-evaluations

要知道，曾經(jīng) Anthropic 有一套完美的篩選考題。

可隨著 AI 能力的指數(shù)級(jí)提升，今天還能完美區(qū)分菜鳥(niǎo)和大神的試題，明天就可能被新模型秒殺，這套考題就瞬間失去意義了！

比如，自 2024 年初，他們的性能工程團(tuán)隊(duì)一直在用下面這套題：要求候選人為一個(gè)模擬加速器優(yōu)化代碼。

這套題在 1000 多名面試者中，篩出了幾十個(gè)最頂尖的工程師。正是這些人，點(diǎn)亮了 Anthropic 的 Trainium 集群，發(fā)布了從 Claude 3 Opus 至今的每一個(gè)模型。

結(jié)果，每個(gè)新版本的 Claude，都在讓這套題失效！

同樣的時(shí)間里，Claude Opus 4 已經(jīng)優(yōu)于大多數(shù)人類申請(qǐng)者，Anthropic 勉強(qiáng)還能篩出最強(qiáng)的人類。

結(jié)果 Claude Opus 4.5 的橫空出世，直接追平了最強(qiáng)人類天花板！

如果給無(wú)限的時(shí)間，人類或許還能險(xiǎn)勝，但在面試時(shí)間限制下，已經(jīng)根本無(wú)法區(qū)分誰(shuí)是頂尖候選人，誰(shuí)是最強(qiáng)模型了。

為此，Anthropic 已經(jīng)把這套題迭代了三個(gè)版本，甚至越來(lái)越「劍走偏鋒」。

這套測(cè)試的誕生

2023 年 11 月，Anthropic 正準(zhǔn)備發(fā)布 Claude Opus 3。

新的 TPU 和 GPU 集群就位，樂(lè)魚(yú)體育官方網(wǎng)站大 Trainium 集群即將上線，公司在算力上的投入是過(guò)去的數(shù)倍，但性能工程師卻嚴(yán)重緊缺。

為此，Anthropic 公司績(jī)效優(yōu)化團(tuán)隊(duì)負(fù)責(zé)人 Tristan Hume 在 Twitter 上發(fā)帖求賢，雖然收到了大量簡(jiǎn)歷，但標(biāo)準(zhǔn)的面試流程太耗時(shí)了。

于是，他花了兩個(gè)星期設(shè)計(jì)了一個(gè) Take-home 測(cè)試，從而精準(zhǔn)識(shí)別出真正硬核的候選人。

設(shè)計(jì)初衷

為了做出一個(gè)好玩的、能讓候選人興奮的東西，并且能以「高分辨率」掃描他們的技術(shù)實(shí)力，Tristan Hume 做了精心設(shè)計(jì)。

相比現(xiàn)場(chǎng)面試，這種形式在評(píng)估性能工程技能上更有優(yōu)勢(shì)：

時(shí)間更充裕：4 小時(shí)（后改為 2 小時(shí)）的窗口比 50 分鐘的面試更能反映真實(shí)工作狀態(tài)。

環(huán)境更真實(shí)：沒(méi)有面試官盯著，候選人在自己的編輯器里干活，零干擾。

深度考察：性能優(yōu)化需要理解系統(tǒng)、造工具，這在短面試?yán)锖茈y體現(xiàn)。

兼容 AI 輔助：明確允許使用 AI。因?yàn)閷?duì)于長(zhǎng)線難題，AI 很難直接給出完美解。

另外，Tristan 還構(gòu)建了一個(gè) Python 模擬器，模擬了一個(gè)具有 TPU 特征的假加速器。

候選人需要優(yōu)化在這臺(tái)機(jī)器上運(yùn)行的代碼，并通過(guò)一個(gè)支持熱重載的 Perfetto trace 來(lái)觀察執(zhí)行過(guò)程，該 trace 會(huì)展示每一條指令，效果類似公司在 Trainium 上使用的工具鏈。

這臺(tái)模擬機(jī)器包含了一些讓加速器優(yōu)化變得很有挑戰(zhàn)性的特性，包括：

手動(dòng)管理的 scratchpad 內(nèi)存（不同于 CPU，加速器通常需要顯式進(jìn)行內(nèi)存管理）

VLIW 架構(gòu)（每個(gè)周期可以并行運(yùn)行多個(gè)執(zhí)行單元，金沙電玩城需要高效地進(jìn)行指令打包）

SIMD（一條指令同時(shí)對(duì)多個(gè)數(shù)據(jù)元素進(jìn)行向量化運(yùn)算）

多核架構(gòu)（需要將工作負(fù)載合理地分配到多個(gè)核心上）

這些硬核要素，都讓底層優(yōu)化變得更有趣。

這個(gè)任務(wù)是一個(gè)并行的樹(shù)遍歷問(wèn)題，刻意設(shè)計(jì)成不帶深度學(xué)習(xí)背景的形式，因?yàn)榇蠖鄶?shù)性能工程師并沒(méi)有做過(guò)深度學(xué)習(xí)工作，具體知識(shí)可以在入職后再學(xué)習(xí)。

該問(wèn)題的靈感來(lái)自于無(wú)分支的 SIMD 決策樹(shù)推理——這是一個(gè)經(jīng)典的機(jī)器學(xué)習(xí)優(yōu)化挑戰(zhàn)。

候選人一開(kāi)始拿到的是一個(gè)完全串行的實(shí)現(xiàn)，需要逐步挖掘并利用這臺(tái)機(jī)器的并行能力。

早期戰(zhàn)果：它曾完美工作

最初的效果非常好。

一位得分遙遙領(lǐng)先的候選人入職后，立即開(kāi)始優(yōu)化算子，并解決了一個(gè)阻礙發(fā)布的編譯器 Bug。

在之后的一年半里，這套題幫忙組建了核心團(tuán)隊(duì)，甚至發(fā)掘了幾位本科剛畢業(yè)但實(shí)力超群的天才。

許多候選人甚至因?yàn)橛X(jué)得太好玩，在超時(shí)后還在繼續(xù)優(yōu)化。最強(qiáng)的一份提交，甚至包含了一個(gè)完整的迷你優(yōu)化編譯器。

第一輪崩潰：Claude Opus 4 進(jìn)場(chǎng)

到了 25 年 5 月，Claude 3.7 Sonnet 已經(jīng)進(jìn)化到讓一半的候選人只要把題丟給它，就能拿高分。

隨后，Tristan 用 Claude Opus 4 的預(yù)發(fā)布版本試了一下。結(jié)果令人絕望：在 4 小時(shí)內(nèi)，它的代碼比幾乎所有人類都要好。

這并非他第一次被 Claude 擊敗。早在 2023 年，Claude 3 Opus 和 3.5 Sonnet 就先后攻破了他們精心準(zhǔn)備的現(xiàn)場(chǎng)面試題。

對(duì)于這次崩潰，Tristan 做了緊急修復(fù)：既然問(wèn)題深度不夠，那就加碼。他重寫(xiě)了啟動(dòng)代碼，增加了機(jī)器特性的復(fù)雜度，并把時(shí)間縮短到 2 小時(shí)。

第二版?zhèn)戎乜疾烨擅畹膬?yōu)化洞察力，而非單純的代碼量。這招奏效了——但是，也只撐了幾個(gè)月而已。

第二輪崩潰：Claude Opus 4.5 的降維打擊

后來(lái)，當(dāng) Tristan 拿到 Claude Opus 4.5 的預(yù)發(fā)布版本時(shí)，他眼睜睜看著 Claude Code 跑了 2 小時(shí)。它像個(gè)老練的工程師，先解決了初始瓶頸，搞定了所有常規(guī)微優(yōu)化。

{jz:field.toptypename/}

然后它卡住了，遇到了一個(gè)看似不可逾越的內(nèi)存帶寬瓶頸——大多數(shù)人類也卡在這里。但當(dāng)它提示「理論極限」時(shí)，它思考片刻，竟然找到了那個(gè)只有極少數(shù)人類能發(fā)現(xiàn)的巧妙技巧。

最終，它的得分與人類歷史最高紀(jì)錄持平（而那個(gè)人類考生還是在重度依賴 Claude 4 的情況下完成的）。

更可怕的是，Anthropic 在內(nèi)部的「測(cè)試時(shí)計(jì)算」框架中驗(yàn)證發(fā)現(xiàn)，它不僅能在 2 小時(shí)內(nèi)擊敗人類，甚至隨著思考時(shí)間的增加，分?jǐn)?shù)還在不斷上漲。

大麻煩來(lái)了：即將發(fā)布的模型，將徹底摧毀公司招聘這個(gè)模型開(kāi)發(fā)者的測(cè)試題。所以，他們只能采用這個(gè)策略——把工作直接外包給 Claude Code。

艱難的抉擇

有人建議禁止 AI，但 Tristan 并未采納。因?yàn)樵谡鎸?shí)工作中，人類就是需要和 AI 協(xié)作。

也有人建議提高及格線，但這會(huì)導(dǎo)致候選人淪為 AI 的看客，甚至因跟不上 AI 的思路而不知所措。

性能工程師的真實(shí)工作其實(shí)更多是艱難的調(diào)試、系統(tǒng)設(shè)計(jì)、分析，以及讓 AI 生成的代碼更優(yōu)雅。這些很難通過(guò)客觀測(cè)試來(lái)考察。

到底該怎樣設(shè)計(jì)一個(gè)「像真實(shí)工作」的面試題？這個(gè)任務(wù)從未如此艱難。

嘗試 1：換個(gè)題型？被秒殺

首先，Tristan 試圖設(shè)計(jì)一個(gè)更難的內(nèi)核優(yōu)化問(wèn)題：2D TPU 寄存器上的高效數(shù)據(jù)轉(zhuǎn)置，且要避免 Bank 沖突。這是一個(gè)非常棘手的真實(shí)難題。

然而，Claude Opus 4.5 發(fā)現(xiàn)了一個(gè)他都沒(méi)想到的絕佳優(yōu)化路徑：它重寫(xiě)了整個(gè)計(jì)算過(guò)程，直接繞過(guò)了轉(zhuǎn)置的難點(diǎn)。即便他修補(bǔ)了漏洞，Claude Code 配合深度思考（Ultrathink）功能，依然能找出修復(fù) Bank 沖突的技巧。

這讓他意識(shí)到，這類問(wèn)題在已有代碼庫(kù)中太常見(jiàn)，Claude 已經(jīng)擁有了海量的訓(xùn)練數(shù)據(jù)「經(jīng)驗(yàn)」。

嘗試 2：變得更古怪

既然「真實(shí)」行不通，他只能追求「分布外（Out of distribution）」——即 AI 沒(méi)見(jiàn)過(guò)的數(shù)據(jù)。

他想到了 Zachtronics 的編程解謎游戲。這類游戲使用極度受限的指令集，迫使你用非傳統(tǒng)方式編程。

于是，他設(shè)計(jì)了一套全新的測(cè)試：使用微小且極度受限的指令集，目標(biāo)是指令數(shù)最小化。沒(méi)有可視化工具，沒(méi)有調(diào)試器——候選人必須自己造工具（比如讓 AI 生成調(diào)試器）。

他把這套題丟給 Claude Opus 4.5，它終于失敗了。

這套新題效果不錯(cuò)，分?jǐn)?shù)與候選人的實(shí)際能力高度相關(guān)。但 Tristan 心中仍有遺憾：他們放棄了原版試題的「真實(shí)感」和「多樣性深度」。

但這或許就是代價(jià)。

「真實(shí)感」已經(jīng)成為了奢侈品。原版試題之所以有效，因?yàn)樗褚郧暗墓ぷ鳎滑F(xiàn)在的試題之所以有效，因?yàn)樗M了一個(gè)全新的、AI 尚未涉足的領(lǐng)域。

公開(kāi)向人類挑戰(zhàn)：原版測(cè)試題開(kāi)源！

最終，Anthropic 宣布：將原版測(cè)試題開(kāi)源。雖然 Claude 很強(qiáng)，但在無(wú)限時(shí)間下，人類專家的極限仍高于 AI。

目前，Claude 的戰(zhàn)績(jī)?nèi)缦拢ㄖ芷跀?shù)越低越好）：

2164：Claude Opus 4

1790：Claude Opus 4.5（隨手一跑）

1487：Claude Opus 4.5（11.5 小時(shí)超長(zhǎng)思考后）

1363：Claude Opus 4.5（改進(jìn)框架后）

Tristan 表示：如果你能優(yōu)化到1487 周期以下，擊敗 Claude 的最佳表現(xiàn)，請(qǐng)一定聯(lián)系他們！

同時(shí)，他也歡迎大家通過(guò)常規(guī)流程申請(qǐng)，體驗(yàn)一下人類要靠多久才能被攻破的「防 Claude」新考題。

草逼第一页-草逼黄片-草逼精品-草逼看黄片-草逼美免费视频-草逼免费-草逼免费网站-草逼牛牛-草逼欧美大片-草逼片视频-草逼社区-草逼视频78