ChatGPT引爆的AI熱潮也“燒到了”金融圈,彭博社重磅發布為金融界打造的大型語言模型(LLM)——BloombergGPT。
3月30日,根據彭博社最新發布的報告顯示,其構建迄今為止最大的特定領域數據集,并訓練了專門用于金融領域的LLM,開發了擁有500億參數的語言模型——BloombergGPT。
報告顯示,該模型依托彭博社的大量金融數據源,構建了一個3630億個標簽的數據集,支持金融行業內的各類任務。該模型在金融任務上的表現遠超過現有模型,且在通用場景上的表現與現有模型也能一較高下。
一般來說,在NLP領域,參數數量和復雜程度之間具有正相關性,GPT-3.5模型的參數量為2000億,GPT-3的參數量為1750億。
英國金融行為監管局:向英國消費者營銷的加密資產公司必須為金融促銷制度做好準備:金色財經報道,英國金融行為監管局(FCA):向英國消費者營銷的加密資產公司必須為金融促銷制度做好準備。所有向英國消費者營銷的加密資產公司,包括總部位于海外的公司,很快將需要遵守英國新的金融促銷制度。[2023/2/6 11:50:06]
關于BloombergGPT
報告指出,研究人員利用彭博社現有的數據,對資源進行創建、收集和整理,通過構建迄今為止最大的特定領域數據集來完成BloomberGPT,并基于通用和金融業務的場景進行混合模型訓練:
彭博社主要是一家金融數據公司,數據分析師在公司成立的四十年的時間里收集了大量的金融文件,擁有廣泛的金融數據檔案,涵蓋了一系列的主題。
我們將這些數據添加到公共數據集中,以創建一個擁有超過7000億個標簽的大型訓練語料庫。
聲音 | 人行重慶營管部主任:應用區塊鏈等技術加強金融科技在綠色金融領域創新:據人民日報1月21日消息,人民銀行重慶營業管理部主任馬天祿發文《探索綠色金融發展成效顯著 充分發揮示范作用任重道遠》稱,綠色金融發展要充分利用科技賦能,在“長江綠融通”綠色金融大數據綜合服務系統的基礎上,充分應用人工智能、大數據、區塊鏈等前沿技術,進一步加強金融科技在綠色金融領域的工具和產品創新應用,解決綠色項目認證和識別成本高、信息不對稱等綠色金融發展障礙。[2020/1/22]
使用這個訓練語料庫的一部分,我們訓練了一個具有彭博風格的,達500億參數的模型,該模型是根據Hoffmann和Le Scao等人的指導方針設計,基于通用和金融業務的場景進行混合模型訓練。
結果表明,我們的混合訓練方法使我們的模型在金融任務上的表現大大超過了現有的模型,而在通用場景上的表現則與之相當甚至優于現有模型。
動態 | 個人金融應用Money Dashboard與Coinbase進行整合:據The Scotsman消息,愛丁堡個人金融應用Money Dashboard已經與Coinbase進行整合,以幫助消費者在日常銀行賬戶中查看自己持有的加密貨幣。據悉,該公司上周在最近一次眾籌活動的首日籌集200多萬英鎊。[2019/5/31]
1.BloombergGPT優勢:特定領域模型仍有其不可替代性且彭博數據來源可靠
在論文中,彭博社指出,現階段,通用的自然語言處理模型可以涵蓋許多領域,但針對特定領域模型仍有其不可替代性,因彭博社的大多數應用均為金融領域,著手構建了一個針對金融領域的模型尤其優勢,同時可以在通用LLM基準測試上保持競爭力:
動態 | 瑞士金融市場監管局或將對銀行比特幣交易設置嚴格限制:據swissinfo消息,據瑞士金融市場監管局(FINMA)發布的一封保密信函,當銀行計算虧損吸收資本緩沖時,像比特幣這樣的加密算法的風險加權應該是市值的8倍。最近FINMA收到越來越多的銀行和證券交易商的詢問,FINMA正在建議金融業者,加密賬戶應“被指定為800%的持平風險權重,以彌補市場和信用風險,無論這些頭寸是在銀行還是交易中持有書”。[2018/11/5]
除了構建金融領域的LLM外,本文的經驗也為其他研究領域的專用模型提供了參考。我們的方法是在特定領域和一般數據源上訓練LLM,以開發在特定領域和通用基準上表現優異的模型。
此外,我們的訓練數據不同于傳統的網絡爬取數據,網絡上的數據總有重復和錯誤,但我們的數據來源可靠。
聲音 | OKEx金融市場總監Lennix:維護市場公平有序是OKEx設計產品的核心原則:金色財經現場報道,在7月21日OKEx產業共贏大會上,?OKEx金融市場總監Lennix針對業內人士關心的OKEx?的交易所產品、金融衍生品、全幣種錢包等做了詳細介紹。并表示,隨著市場出現越來越多專業化、多樣化的產品,OKEx會以開放共贏的原則,建立一個全方位數字資產服務平臺。因此OKEx除了打造多層次金融中心之外,還將定價中心和公平有序的產品核心設計思想加入到產品布局當中。黎智凱認為,在未來通證經濟時代,數字資產也需要估值,?需要定價,?以及一個有效的價格發現機制。這樣,交易所就會承載通證定價功能,為了保證這一功能,交易所會變得公開透明,并以維護市場公平及有序作為目標。[2018/7/21]
2.BloombergGPT的訓練數據集:
BloombergGPT的訓練數據庫名為FINPILE,由一系列英文金融信息組成,包括新聞、文件、新聞稿、網絡爬取的金融文件以及提取到的社交媒體消息。
為了提高數據質量,FINPILE數據集也使用了公共數據集,例如The Pile、C4和Wikipedia。FINPILE的訓練數據集中大約一半是特定領域的文本,一半是通用文本。為了提高數據質量,每個數據集都進行了去重處理。
對金融領域的理解更準
報告指出,在金融領域中的自然語言處理在通用模型中也很常見,但是,針對金融領域,這些任務執行時將面臨挑戰:
以情感分析為例,一個題為“某公司將裁員1萬人”,在一般意義上表達了負面情感,但在金融情感方面,它有時可能被認為是積極的,因為它可能導致公司的股價或投資者信心增加。
報告指出,從測試來看,BloombergGPT在五項任務中的四項(ConvFinQA,FiQA SA,FPB和Headline)表現最佳,在NER(Named Entity Recognition)中排名第二。因此,BloombergGPT有其優勢性。
測試一:ConvFinQA數據集是一個針對金融領域的問答數據集,包括從新聞文章中提取出的問題和答案,旨在測試模型對金融領域相關問題的理解和推理能力。
測試二:FiQA SA,第二個情感分析任務,測試英語金融新聞和社交媒體標題中的情感走向。
測試三:標題,數據集包括關于黃金商品領域的英文新聞標題,標注了不同的子集。任務是判斷新聞標題是否包含特定信息,例如價格上漲或價格下跌等。
測試四:FPB,金融短語庫數據集包括來自金融新聞的句子情緒分類任務。
測試五:NER,命名實體識別任務,針對從提交給SEC的金融協議中收集金融數據,進行信用風險評估。
對于ConvFinQA來說,這個差距尤為顯著,因為它需要使用對話式輸入來對表格進行推理并生成答案,具有一定挑戰性。
ChatGPT為彭博點贊
華爾街見聞就這個問題專門詢問了ChatGPT,ChatGPT認為BloombergGPT是一項很有意義的技術進步:
它是專門為金融領域開發的一種語言模型,可以更好地處理金融領域的數據和任務,并且在金融領域的基準測試中表現出色。
這將有助于金融從業者更好地理解和應用自然語言處理技術,促進金融科技的發展。同時,BloombergGPT還可以為其他領域的語言模型的發展提供參考和借鑒。總的來說,BloombergGPT是一個有益的技術創新。
華爾街見聞
媒體專欄
閱讀更多
金色財經 善歐巴
金色早8點
白話區塊鏈
歐科云鏈
Odaily星球日報
Arcane Labs
MarsBit
深潮TechFlow
BTCStudy
鏈得得
【4.02 - 4.08】周報概要:1、上周NFT總交易額:397,399,544(美元)2、上周NFT總交易筆數:713,641金色財經行情播報 | BTC小幅反彈回落.
1900/1/1 0:00:00文:卞純 經濟學家指出,如果沒有加密貨幣,經濟會更好,會有更多的錢用于消費和投資。自比特幣誕生以來,人們對于這一加密貨幣的看法一直存在著巨大的分歧.
1900/1/1 0:00:00近期,香港在擁抱Web3的進程中大動作頻頻,來自全世界的Web3 Builder們都迫不及待的加入了此次盛會,分享新知表達觀點的同時,也與新伙伴相識、與老伙計“奔現”.
1900/1/1 0:00:00金色財經記者Jessy 4月5日至4月8日,為期四天的以太坊黑客馬拉松“ETHBeijing”在北京舉行.
1900/1/1 0:00:00退出騙局,我們俗稱的項目跑路。又被形象地稱為“拉地毯(Rug Pull)”,是Web 3.0領域的一種犯罪詐騙手段.
1900/1/1 0:00:00原文作者:100y,A41 Alforone 編譯整理:白澤研究院 上周,EigenLayer 宣布獲得 5000 萬美元融資,由 Blockchain Capital 領投.
1900/1/1 0:00:00