BTC/HKD+0.54%
HK$ 739054
$ 94860

ETH/HKD+2.57%
HK$ 14385
$ 1846.3

LTC/HKD+0.82%
HK$ 680.15
$ 87.3

DOT/HKD-0.5%
HK$ 33.2
$ 4.261

ADA/HKD+1.07%
HK$ 5.59
$ 0.717

SOL/HKD+0.13%
HK$ 1164.5
$ 149.465

XRP/HKD-0.09%
HK$ 17.12
$ 2.198

DOGE/US-0.4%
HK$ 1.42
$ 0.182

以太坊交易所最好的以太坊交易所

幣安

世界排名第一的以太坊交易所

URL：https://www.binance.com

火幣

成立於2013年的以太坊交易所

URL：https://www.huobi.com

歐易OKX

成立於2014年的以太坊交易所

URL：https://www.okx.com

PLU:達摩院貓頭鷹 mPLUG-Owl 亮相：模塊化多模態大模型，追趕 GPT-4 多模態能力

Author：

Time：1900/1/1 0:00:00

來源：機器之心

純文本大模型方興未艾，多模態領域也開始涌現出多模態大模型工作，地表最強的GPT-4具備讀圖的多模態能力，但是遲遲未向公眾開放體驗，于是乎研究社區開始在這個方向上發力研究并開源。MiniGPT-4和LLaVA問世不久，阿里達摩院便推出mPLUG-Owl，一個基于模塊化實現的多模態大模型。

今天要介紹的是mPLUG-Owl，該工作不僅通過大量cases展示出優秀的多模態能力，還第一次針對視覺相關的指令理解提出一個全?的測試集OwlEval，通過人工評測對比了已有模型，包括LLaVA、MiniGPT-4、BLIP-2以及系統類MM-REACT等工作，實驗結果表明mPLUG-Owl展示出更優的多模態能力，尤其在多模態指令理解能力、多輪對話能力、知識推理能力等方?表現突出

挪威央行：當局應考慮制定規范加密資產市場的國家戰略，正在加緊研究 CBDC 工作:5月26日消息，挪威銀行（挪威央行）在一份報告中表示，當局應考慮制定規范加密資產市場的國家戰略。全球范圍內正在制定和制定加密資產市場的法規，但不確定需要多長時間。挪威當局應評估是否要更快地進行，而不是等待國際監管解決方案。另外，挪威銀行正在加緊研究中央銀行數字貨幣（CBDC）的工作。（norges-bank.no）[2023/5/26 10:41:04]

論文鏈接：https://arxiv.org/abs/2304.14178

代碼鏈接：https://github.com/X-PLUG/mPLUG-Owl

ModelScope體驗地址：

昨日BTC活躍地址為96.215萬個，新增地址數46.261萬個:金色財經報道，數據顯示，昨日BTC活躍地址數為96.215萬個，較7日均值上漲9.61%；昨日BTC新增地址數46.261萬個，較7日均值上漲9.13%。[2023/5/5 14:44:52]

https://modelscope.cn/studios/damo/mPLUG-Owl/summary

HuggingFace體驗地址：

https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

多模態能力展示

我們把mPLUG-Owl與現有工作進行對比來感受一下mPLUG-Owl的多模態效果，值得一提的是，該工作中評比的測試樣例基本上都來自已有工作，避免了cherrypick問題。

下圖6展示了mPLUG-Owl很強的多輪對話能力。

數據：1,500枚BTC從未知錢包轉移CryptoCom:金色財經報道，WhaleAlert監測數據顯示，1,500枚BTC(價值42,713,121美元)從未知錢包轉移到CryptoCom。[2023/5/3 14:40:05]

從圖7中可以發現，?mPLUG-Owl具有很強的推理能力。

如圖9展示了一些笑話解釋例?。

Safe未申領空投重新分配提案將開放投票:3月15日消息，數字資產管理平臺 Safe（原 Gnosis Safe）治理社區 SafeDAO 關于未申領 SAFE 空投重新分配的提案 SEP #5 將開放投票。

此前，Safe 向用戶共計空投占總發行量 5%（即 5000 萬枚）SAFE Token，其中 17,799,818 枚已由用戶主動申領。本次投票涉及剩余超 3220 萬枚 Safe Token 的歸屬方式。[2023/3/15 13:05:58]

在該工作中，除了評測對比外，該研究團隊還觀察到mPLUG-Owl初顯一些意想不到的能力，比如多圖關聯、多語?、文字識別和文檔理解等能力。

如圖10所示，雖然在訓練階段并沒有進行多圖關聯數據的訓練，mPLUG-Owl展現出了一定的多圖關聯能力。

BTC鯨魚數量達到1個月低點:金色財經報道，Glassnode數據顯示，BTC鯨魚數量剛剛達到1,727的1個月低點。[2022/7/19 2:22:09]

如圖11所示，盡管mPLUG-Owl在訓練階段僅使用了英文數據，但其展現出了有趣的多語?能力。這可能是因為mPLUG-Owl中的語?模型使用了LLaMA，從而出現了這一現象。

盡管mPLUG-Owl沒有在帶有標注的文檔數據上進行訓練，但其仍然展現出了一定的文字識別和文檔理解能力，測試結果如圖12所示。

方法介紹

該工作提出的mPLUG-Owl，其整體架構如圖2所示。

模型結構：它由視覺基礎模塊(開源的ViT-L)、視覺抽象模塊以及預訓練語?模型(LLaMA-7B)組成。視覺抽象模塊將較?的、細粒度的圖像特征概括為少量可學習的Token，從而實現對視覺信息的?效建模。?成的視覺Token與文本查詢一起輸?到語?模型中，以?成相應的回復。

模型訓練：采用兩階段的訓練方式

第一階段：主要目的也是先學習視覺和語?模態間的對?。不同于先前的工作，?mPLUG-Owl提出凍住視覺基礎模塊會限制模型關聯視覺知識和文本知識的能力。?因此mPLUG-Owl在第一階段只凍住LLM的參數，采用LAION-400M，?COYO-700M，?CC以及MSCOCO訓練視覺基礎模塊和視覺摘要模塊。

第?階段：延續mPLUG和mPLUG-2中不同模態混合訓練對彼此有收益的發現，Owl在第?階段的指令微調訓練中也同時采用了純文本的指令數據(52kfromAlpaca+90kfromVicuna+50kfromBaize)和多模態的指令數據(150kfromLLaVA)。作者通過詳細的消融實驗驗證了引?純文本指令微調在指令理解等方?帶來的收益。第?階段中視覺基礎模塊、視覺摘要模塊和原始LLM的參數都被凍住，參考LoRA，只在LLM引?少量參數的adapter結構用于指令微調。

實驗結果

SOTA對比

為了比較不同模型的多模態能力，該工作構建一個多模態指令評測集OwlEval。由于?前并沒有合適的自動化指標，參考Self-Intruct對模型的回復進行人工評測，打分規則為：A="正確且令人滿意"；B="有一些不完美，但可以接受"；C="理解了指令但是回復存在明顯錯誤"；D="完全不相關或不正確的回復"。

對比結果如下圖3所示，實驗證明Owl在視覺相關的指令回復任務上優于已有的OpenFlamingo、BLIP-2、LLaVA、MiniGPT-4。