Gate 廣場「創作者認證激勵計劃」開啓:入駐廣場,瓜分每月 $10,000 創作獎勵! 
無論你是廣場內容達人,還是來自其他平台的優質創作者,只要積極創作,就有機會贏取豪華代幣獎池、Gate 精美週邊、流量曝光等超 $10,000+ 豐厚獎勵! 
參與資格: 
滿足以下任一條件即可報名👇 
1️⃣ 其他平台已認證創作者 
2️⃣ 單一平台粉絲 ≥ 1000(不可多平台疊加) 
3️⃣ Gate 廣場內符合粉絲與互動條件的認證創作者 
立即填寫表單報名 👉 https://www.gate.com/questionnaire/7159 
✍️ 豐厚創作獎勵等你拿: 
🎁 獎勵一:新入駐創作者專屬 $5,000 獎池 
成功入駐即可獲認證徽章。 
首月發首帖(≥ 50 字或圖文帖)即可得 $50 倉位體驗券(限前100名)。 
🎁 獎勵二:專屬創作者月度獎池 $1,500 USDT 
每月發 ≥ 30 篇原創優質內容,根據發帖量、活躍天數、互動量、內容質量綜合評分瓜分獎勵。 
🎁 獎勵三:連續活躍創作福利 
連續 3 個月活躍(每月 ≥ 30 篇內容)可獲 Gate 精美週邊禮包! 
🎁 獎勵四:專屬推廣名額 
認證創作者每月可優先獲得 1 次官方項目合作推廣機會。 
🎁 獎勵五:Gate 廣場四千萬級流量曝光 
【推薦關注】資源位、“優質認證創作者榜”展示、每週精選內容推薦及額外精選帖激勵,多重曝光助你輕
剛看到 @SentientAGI 發布的 SPIN-Bench,正好補上了AI評估裏最容易被忽視的一塊。
很多基準只考單個模型做短平快的事,但真正智能的系統要能做長期規劃、在不確定裏合作,甚至看懂別人想幹什麼。SPIN-Bench 把這些難點用“可控難度階梯”與“多智能體交互”組織起來,讓進步能被丈量出來。
爲什麼說它統一?
—————————————————————————
SPIN-Bench 既是標準化的測試集,又是一個可跑智能體的模擬環境。可以系統地調取三樣關鍵維度:動作/狀態有多復雜、任務要走多長、需要和多少個體互動。
覆蓋四類代表性場景:
PDDL 規劃:給到目標和規則,規劃出可行的長計劃。要會拆目標、記約束、驗證整條鏈路能走通。
競技棋類:不能只按劇本走,需要搜索、評估、隨對手招法及時改。
合作卡牌:信息不全、溝通受限。關鍵在於和隊友配合、猜隱藏信息、用有限的信息傳達意圖。
外交場景:像 Diplomacy 一樣有利益衝突。要會提議、結盟、識別錯誤信息等。
模型最容易“掉鏈子”的地方
—————————————————————————
LLM 做查資料、列短計劃沒問題,一旦需要做多步推理、面對更大的狀態空間、同時還要顧及更多對手或隊友,表現就會急轉直下。
尤其在帶社交關係的任務上要協同、要暗示、要談判。
SPIN-Bench 把這些環節進行拆解。定位哪裏出錯、爲什麼出錯,就能更有針對性地改進。
—————————————————————————
當我們能夠穩定地測出“計劃得多深、配合得多好、溝通多有效”,改進也就有了清晰刻度。 @SentientAGI SPIN-Bench 提供的是一把能指向下一個突破口的標準尺。
用這把尺子去優化長期規劃與社會推理,AI 距離更通用、更可靠的智能形態就會更進一步。