2025-10-18 09:04:11

アルゴリズム競技の世界では、ルールが明確で制限が厳しく、評価は容赦ありません。

@SentientAGI が発表した LiveCodeBench Pro は、このリアルなプログラミング環境を完全にモデル評価システムに移行し、正式に @NeurIPSConf に受理されました。

このシステムは「モデルがコードを書く」ということを再定義しました。
評価プロセスは、完全なアルゴリズム推論パスをカバーします：問題を読み、設計を行い、コードを生成し、コンパイルして実行し、隠れたテストを通過します。
各段階は統一されたDocker環境で実行され、時間とメモリの制限は原始的な競技基準に厳密に従います。

従来の評価は緩やかな条件と繰り返しの問題集を使用することが多く、モデルのスコアは一見素晴らしいように見えるが、再現することが難しい。
LiveCodeBench Proは、リアルコンペティションから最新の問題を直接抽出し、その時の制限をロックし、Codeforcesスタイルのハックフェーズと内部ファズテストを追加します。
評価結果は十分な対抗と検証を経ており、モデルの真のアルゴリズム能力とコード実行パフォーマンスを反映することができます。

全体のプロセスは試合の終了から始まります：システムは自動的に問題文、入力生成器、評価ロジックを取得し、原始的な制約条件を凍結します。
モデルは制限されたリソース内で完全な問題解決を完了し、コンパイル可能なC++プログラムを生成し、統一された環境で隠されたテストを受ける必要があります。
毎回の実行では、完全なログ、時間消費、メモリ使用、コンパイル情報、および評価結果が出力され、後続の分析に完全な根拠を提供します。

タスクの出所は複数の権威あるコンペティションプラットフォームをカバーしています：

- Codeforcesは、さまざまな最新のトピックを出力し続けます。
- ICPCはチームワークに基づく迅速なアルゴリズム設計と実装を体現しています；
- IOIは構造と複雑さの制御に焦点を当てたオリンピックレベルの挑戦をもたらします。

題目難易度はEloに似た動的評価システムを採用しています：
≤2000 は簡単、2000–3000 は中、>3000 は難しいです。
難易度レベルは人間とモデルの解決記録に応じてリアルタイムで更新され、異なる時間における評価結果が比較可能で信頼性があることを保証します。

LiveCodeBench Pro は、ローカル再現と公開比較をサポートしています。
リポジトリをクローンし、Python 3.12とDockerをインストールし、モデルアダプターを設定するだけで、ローカルで完全に評価を実行できます。
ローカル結果と公衆ランキングは同じ判定環境とデータセットを使用しており、スコア間の直接照合が保証されています。

毎回の実行で構造化されたJSONファイルが生成され、各問題の判定、実行時間、メモリ使用量、失敗タグが記録され、研究チームが問題の原因を深く特定するのに役立ちます。
これらのデータは、モデルの長距離ロジック、検索戦略、複雑さの制御、またはデータ構造設計における具体的な短所を明らかにし、改善のための明確な方向性を提供します。

生成モデルが頻繁に高得点とヒントのテクニックを追求する段階で、LiveCodeBench Proはクリーンなリファレンスを提供します。
それはアルゴリズムの能力を現実の文脈に戻し、モデルが人間のプログラマーと同じルールとプレッシャーに直面することを可能にします。
これは論理と実行に関する試練であり、プログラミング理解におけるモデルの真の境界を映し出す明確な鏡でもあります。

LiveCodeBench Pro は、コードをルールとレビューの世界に戻し、検証可能な現実に戻します。

#KAITO #cookiedotfun #SentientAGI #センティエント

原文表示