Gate 广场「创作者认证激励计划」开启:入驻广场,瓜分每月 $10,000 创作奖励! 
无论你是广场内容达人,还是来自其他平台的优质创作者,只要积极创作,就有机会赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励! 
参与资格: 
满足以下任一条件即可报名👇 
1️⃣ 其他平台已认证创作者 
2️⃣ 单一平台粉丝 ≥ 1000(不可多平台叠加) 
3️⃣ Gate 广场内符合粉丝与互动条件的认证创作者 
立即填写表单报名 👉 https://www.gate.com/questionnaire/7159 
✍️ 丰厚创作奖励等你拿: 
🎁 奖励一:新入驻创作者专属 $5,000 奖池 
成功入驻即可获认证徽章。 
首月发首帖(≥ 50 字或图文帖)即可得 $50 仓位体验券(限前100名)。 
🎁 奖励二:专属创作者月度奖池 $1,500 USDT 
每月发 ≥ 30 篇原创优质内容,根据发帖量、活跃天数、互动量、内容质量综合评分瓜分奖励。 
🎁 奖励三:连续活跃创作福利 
连续 3 个月活跃(每月 ≥ 30 篇内容)可获 Gate 精美周边礼包! 
🎁 奖励四:专属推广名额 
认证创作者每月可优先获得 1 次官方项目合作推广机会。 
🎁 奖励五:Gate 广场四千万级流量曝光 
【推荐关注】资源位、“优质认证创作者榜”展示、每周精选内容推荐及额外精选帖激励,多重曝光助你轻
刚看到 @SentientAGI 发布的 SPIN-Bench,正好补上了AI评估里最容易被忽视的一块。
很多基准只考单个模型做短平快的事,但真正智能的系统要能做长期规划、在不确定里合作,甚至看懂别人想干什么。SPIN-Bench 把这些难点用“可控难度阶梯”与“多智能体交互”组织起来,让进步能被丈量出来。
为什么说它统一?
—————————————————————————
SPIN-Bench 既是标准化的测试集,又是一个可跑智能体的模拟环境。可以系统地调取三样关键维度:动作/状态有多复杂、任务要走多长、需要和多少个体互动。
覆盖四类代表性场景:
PDDL 规划:给到目标和规则,规划出可行的长计划。要会拆目标、记约束、验证整条链路能走通。
竞技棋类:不能只按剧本走,需要搜索、评估、随对手招法及时改。
合作卡牌:信息不全、沟通受限。关键在于和队友配合、猜隐藏信息、用有限的信息传达意图。
外交场景:像 Diplomacy 一样有利益冲突。要会提议、结盟、识别错误信息等。
模型最容易“掉链子”的地方
—————————————————————————
LLM 做查资料、列短计划没问题,一旦需要做多步推理、面对更大的状态空间、同时还要顾及更多对手或队友,表现就会急转直下。
尤其在带社交关系的任务上要协同、要暗示、要谈判。
SPIN-Bench 把这些环节进行拆解。定位哪里出错、为什么出错,就能更有针对性地改进。
—————————————————————————
当我们能够稳定地测出“计划得多深、配合得多好、沟通多有效”,改进也就有了清晰刻度。 @SentientAGI SPIN-Bench 提供的是一把能指向下一个突破口的标准尺。
用这把尺子去优化长期规划与社会推理,AI 距离更通用、更可靠的智能形态就会更进一步。