以太坊價格 以太坊價格
Ctrl+D 以太坊價格
ads
首頁 > Pol幣 > Info

CHA:ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因

Author:

Time:1900/1/1 0:00:00

撰文:TanyaMalhotra

來源:Marktechpost

編譯:DeFi之道

圖片來源:由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功,大型語言模型正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI開發的ChatGPT是一個自然語言處理模型,允許用戶生成有意義的文本。不僅如此,它還可以回答問題,總結長段落,編寫代碼和電子郵件等。其他語言模型,如Pathways語言模型、Chinchilla等,在模仿人類方面也有很好的表現。

去中心化交易平臺THORChain宣布多鏈Chaosnet即將啟動:3月6日消息,去中心化交易平臺THORChain表示,多鏈Chaosnet即將啟動。[2021/3/6 18:20:40]

大型語言模型使用強化學習來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋,而完成地不好則會有相應的懲罰。像ChatGPT這樣的LLM表現出的卓越性能都要歸功于強化學習。

ChatGPT使用來自人類反饋的強化學習,通過最小化偏差對模型進行微調。但為什么不是監督學習呢?一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢?人工智能和機器學習研究員SebastianRaschka在他的推特上分享了一些原因,即為什么強化學習被用于微調而不是監督學習。

動態 | Invest In Blockchain宣布與Brave瀏覽器合作:據bitcoinexchangeguide消息,加密貨幣分析公司Invest In Blockchain宣布已將其網站與Brave瀏覽器和BAT(Brave Attention Token)生態系統集成,屆時用戶在其網上查看廣告將會獲得BAT作為獎勵。[2018/9/27]

不使用監督學習的第一個原因是,它只預測等級,不會產生連貫的反應;該模型只是學習給與訓練集相似的反應打上高分,即使它們是不連貫的。另一方面,RLHF則被訓練來估計產生反應的質量,而不僅僅是排名分數。

初鏈TrueChain獲得中國云體系產業創新戰略聯盟理事單位牌照:初鏈TrueChain獲得中國云體系產業創新戰略聯盟理事單位牌照。今天上午,初鏈創始人大永接受了工信部領導頒發的中國云體系產業創新戰略聯盟理事單位牌照。[2018/5/20]

SebastianRaschka分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和ChatGPT之間的連貫對話也是必要的,而監督學習無法提供這種獎勵。

不選擇SL的第三個原因是,它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上,改變反應中的個別單詞可能對整體損失只有很小的影響,但如果一個單詞被否定,產生連貫性對話的復雜任務可能會完全改變上下文。因此,僅僅依靠SL是不夠的,RLHF對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型,但根據經驗發現RLHF往往表現得更好。2022年的一篇論文《從人類反饋中學習總結》顯示,RLHF比SL表現得更好。原因是RLHF考慮了連貫性對話的累積獎勵,而SL由于其文本段落級的損失函數而未能很好做到這一點。

像InstructGPT和ChatGPT這樣的LLMs同時使用監督學習和強化學習。這兩者的結合對于實現最佳性能至關重要。在這些模型中,首先使用SL對模型進行微調,然后使用RL進一步更新。SL階段允許模型學習任務的基本結構和內容,而RLHF階段則完善模型的反應以提高準確性。

Tags:CHAHAIGPTChainvmschainiotchaingpt幣價格Glass Chain

Pol幣
穩定幣:美聯儲觀點:如何平衡加密貨幣的監管與創新?

美聯儲副主席MichaelS.Barr觀點:我今天在這里討論我們從最近加密行業的動蕩中學到了什么?以及監管層面在支持創新技術上應該發揮什么樣的作用.

1900/1/1 0:00:00
以太坊:金色觀察 | BanklessDAO:詳述以太坊Shapella升級

文/AustinFoss,BanklessDAO;譯/金色財經xiaozou我們都知道以太坊的下一個即將到來的升級稱為Shanghai升級,或硬分叉.

1900/1/1 0:00:00
以太坊:ZK擴容賽道現狀觀察:誰能脫穎而出?

原文:《What’sNewwithZKs?》byWilliamM.Peaster 編譯:Kyle 如果您深入了解加密世界,那么您已經聽說過零知識證明及其應用已有一段時間了.

1900/1/1 0:00:00
ANT:重建中的EOS:“初代以太坊殺手”要回來了?

原文作者:Messari-PeterHorton編譯:BlockTurboEOS曾被認為是最有前途的區塊鏈發之一,但發展未如預期.

1900/1/1 0:00:00
LIB:如何用聯合曲線管理 DAO 治理代幣?

撰文:KarimHalabi,OutlierVentures編譯:aididiaojp.eth,ForesightNews代幣治理委員會可以通過許多不同的方式將代幣分配到社區和利益相關者手中.

1900/1/1 0:00:00
COI:重新審視Web3時代的聚合理論:如何建立市場護城河?

原文標題:《RevisitingAggregationTheory》 撰文:JoelJohn 編譯:Frank,ForesightNews一年前,我們寫了一篇關于Web3時代的聚合器理論的文章.

1900/1/1 0:00:00
ads