Gate 广场「创作者认证激励计划」开启:入驻广场,瓜分每月 $10,000 创作奖励!
无论你是广场内容达人,还是来自其他平台的优质创作者,只要积极创作,就有机会赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
参与资格:
满足以下任一条件即可报名👇
1️⃣ 其他平台已认证创作者
2️⃣ 单一平台粉丝 ≥ 1000(不可多平台叠加)
3️⃣ Gate 广场内符合粉丝与互动条件的认证创作者
立即填写表单报名 👉 https://www.gate.com/questionnaire/7159
✍️ 丰厚创作奖励等你拿:
🎁 奖励一:新入驻创作者专属 $5,000 奖池
成功入驻即可获认证徽章。
首月发首帖(≥ 50 字或图文帖)即可得 $50 仓位体验券(限前100名)。
🎁 奖励二:专属创作者月度奖池 $1,500 USDT
每月发 ≥ 30 篇原创优质内容,根据发帖量、活跃天数、互动量、内容质量综合评分瓜分奖励。
🎁 奖励三:连续活跃创作福利
连续 3 个月活跃(每月 ≥ 30 篇内容)可获 Gate 精美周边礼包!
🎁 奖励四:专属推广名额
认证创作者每月可优先获得 1 次官方项目合作推广机会。
🎁 奖励五:Gate 广场四千万级流量曝光
【推荐关注】资源位、“优质认证创作者榜”展示、每周精选内容推荐及额外精选帖激励,多重曝光助你轻
在算法竞赛的世界里,规则明确、限制严格、评测毫不留情。
@SentientAGI 发布的 LiveCodeBench Pro,把这种真实的编程环境完整搬进了模型评测体系,并正式被 @NeurIPSConf 接收。
这套系统重新定义了“模型会写代码”这件事。
评测过程覆盖完整的算法推理路径:阅读题目、设计方案、生成代码、编译执行、通过隐藏测试。
每个环节都在统一的 Docker 环境下运行,时间和内存限制严格遵循原始竞赛标准。
传统评测往往使用宽松的条件和重复的题库,模型分数看似亮眼,却难以复现。
LiveCodeBench Pro 直接从真实竞赛中提取最新题目,锁定当时的限制,添加 Codeforces 风格的 hack 阶段和内部 fuzz 测试。
评测结果经过充分对抗与检验,能够反映模型的真实算法能力与代码执行表现。
整个流程从比赛结束开始:系统自动抓取题面、输入生成器和评测逻辑,然后冻结原始约束条件。
模型需在限定资源内完成完整解题,生成可编译的 C++ 程序,并在统一环境中接受隐藏测试。
每次运行都会输出完整日志、时间消耗、内存占用、编译信息和评测结果,为后续分析提供完整依据。
任务来源覆盖多个权威竞赛平台:
- Codeforces 持续输出多样化的最新题目;
- ICPC 体现团队合作下的快速算法设计与实现;
- IOI 带来面向结构与复杂度控制的奥赛级挑战。
题目难度采用类似 Elo 的动态评级系统:
≤2000 为 Easy,2000–3000 为 Medium,>3000 为 Hard。
难度等级会随着人类与模型的解题记录实时更新,确保评测结果在不同时间点都具备可比性与可信度。
LiveCodeBench Pro 支持本地复现与公开对比。
只需克隆仓库,安装 Python 3.12 与 Docker,并配置模型适配器,即可在本地完整运行评测。
本地结果与公共榜单使用相同的判题环境和数据集,保证分数之间可直接对照。
每次运行都会生成结构化 JSON 文件,记录每道题的判定、运行时间、内存使用与失败标签,便于研究团队深入定位问题来源。
这些数据揭示模型在长程逻辑、搜索策略、复杂度控制或数据结构设计上的具体短板,为改进提供明确方向。
在生成式模型频繁追求高分与提示技巧的阶段,LiveCodeBench Pro 提供了一种干净的参照。
它把算法能力重新拉回真实语境,让模型面对与人类程序员相同的规则和压力。
这是一场关于逻辑与执行的考验,也是一面清晰的镜子,呈现出模型在编程理解上的真实边界。
LiveCodeBench Pro 让代码回到规则的世界,让评测回到可验证的现实。
#KAITO #cookiedotfun #SentientAGI #Sentient