martech_jy
- Finetune , LLM
- 9 3 月, 2024
- 1102 views
進階微調 Mistral-7B 模型的方法:直接偏好優化
預訓練的大型語言模型(LLM)只能進行下一個詞預測,使得它們無法回答問題。這就是為什麼這些基礎模型之後需要通過指令和答案的配對進行精調,以充當有用的助手。然而,這個過程仍可能存在缺陷:精調後的 LLM 可能會有偏見、有毒害、有害等。這就是人類反饋中的強化學習(RLHF)發揮作用的地方。
You Missed
用 Antigravity 讓 AI 自己做出一個完整產品:Site Health AI Auditor(含完整教學)
martech_jy
- 20 11 月, 2025
- 89 views
【AI Agent 實戰系列】讓 AI 幫你逛街、挑選、結帳:Shopify Storefront MCP 這樣做
martech_jy
- 26 9 月, 2025
- 475 views
GPT‑5 調參實戰指南:reasoning_effort × verbosity,三步把速度、成本、品質一次調好
JiunYi Yang
- 10 8 月, 2025
- 734 views







