2025-10-18 09:04:11

在算法競賽的世界裏，規則明確、限制嚴格、評測毫不留情。

@SentientAGI 發布的 LiveCodeBench Pro，把這種真實的編程環境完整搬進了模型評測體系，並正式被 @NeurIPSConf 接收。

這套系統重新定義了“模型會寫代碼”這件事。
評測過程覆蓋完整的算法推理路徑：閱讀題目、設計方案、生成代碼、編譯執行、通過隱藏測試。
每個環節都在統一的 Docker 環境下運行，時間和內存限制嚴格遵循原始競賽標準。

傳統評測往往使用寬松的條件和重復的題庫，模型分數看似亮眼，卻難以復現。
LiveCodeBench Pro 直接從真實競賽中提取最新題目，鎖定當時的限制，添加 Codeforces 風格的 hack 階段和內部 fuzz 測試。
評測結果經過充分對抗與檢驗，能夠反映模型的真實算法能力與代碼執行表現。

整個流程從比賽結束開始：系統自動抓取題面、輸入生成器和評測邏輯，然後凍結原始約束條件。
模型需在限定資源內完成完整解題，生成可編譯的 C++ 程序，並在統一環境中接受隱藏測試。
每次運行都會輸出完整日志、時間消耗、內存佔用、編譯信息和評測結果，爲後續分析提供完整依據。

任務來源覆蓋多個權威競賽平台：

- Codeforces 持續輸出多樣化的最新題目；
- ICPC 體現團隊合作下的快速算法設計與實現；
- IOI 帶來面向結構與復雜度控制的奧賽級挑戰。

題目難度採用類似 Elo 的動態評級系統：
≤2000 爲 Easy，2000–3000 爲 Medium，>3000 爲 Hard。
難度等級會隨着人類與模型的解題記錄實時更新，確保評測結果在不同時間點都具備可比性與可信度。

LiveCodeBench Pro 支持本地復現與公開對比。
只需複製倉庫，安裝 Python 3.12 與 Docker，並配置模型適配器，即可在本地完整運行評測。
本地結果與公共榜單使用相同的判題環境和數據集，保證分數之間可直接對照。

每次運行都會生成結構化 JSON 文件，記錄每道題的判定、運行時間、內存使用與失敗標籤，便於研究團隊深入定位問題來源。
這些數據揭示模型在長程邏輯、搜索策略、復雜度控制或數據結構設計上的具體短板，爲改進提供明確方向。

在生成式模型頻繁追求高分與提示技巧的階段，LiveCodeBench Pro 提供了一種幹淨的參照。
它把算法能力重新拉回真實語境，讓模型面對與人類程序員相同的規則和壓力。
這是一場關於邏輯與執行的考驗，也是一面清晰的鏡子，呈現出模型在編程理解上的真實邊界。

LiveCodeBench Pro 讓代碼回到規則的世界，讓評測回到可驗證的現實。

#KAITO #cookiedotfun #SentientAGI #Sentient

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

熱門話題查看更多
#參與創作者認證計劃月領$10,000
2.27萬熱度
#Gate跨所交易平臺CrossEx上線
9028 熱度
#美聯儲如期降息25基點
1.99萬熱度
#Solana質押ETF上市
5660 熱度
#比特幣行情分析
8.85萬熱度

熱門 Gate Fun查看更多

1
G3G3
市值:$4527.05持有人數:2
0.00%
2
33
市值:$4530.55持有人數:2
0.00%
3
Web3Web3
市值:$4527.05持有人數:2
0.00%
4
GWeb3GWeb3
市值:$4523.56持有人數:2
0.00%
5
寻西山隐者不遇文化上链=财富密码¥$😃
市值:$4523.56持有人數:2
0.00%