多模態 | DataAgent

AI 工程

PixelRAG 圖解：為什麼「讓模型看截圖」會比解析文字更準、還更省 token

2026-06-15 / 0 評論

Berkeley SkyLab 團隊的 PixelRAG 把文件渲染成截圖、直接檢索影像，跳過「PDF 轉文字」這一步。結果在多個基準上比文字 RAG 更準，agent 場景的 token 用量約降一個量級。這篇用圖解把...

閱讀全文

 Yang Abao