-
阿里巴巴 Qwen-AgentWorld:不訓練 agent 行動,改訓練模型「預測環境」
阿里巴巴 Qwen-AgentWorld 把語言模型訓練成「環境本人」而非 agent:學預測下一個環境觀察,而不是學行動。結果一個從沒被當 agent 訓練的模型,在七個工具任務上全面變強,還能當可控模擬器取代昂貴的真...
阿里巴巴 Qwen-AgentWorld 把語言模型訓練成「環境本人」而非 agent:學預測下一個環境觀察,而不是學行動。結果一個從沒被當 agent 訓練的模型,在七個工具任務上全面變強,還能當可控模擬器取代昂貴的真...