ChatGPT引爆的AI熱潮也“燒到了”金融圈,彭博社重磅發布為金融界打造的大型語言模型——BloombergGPT。
3月30日,根據彭博社最新發布的報告顯示,其構建迄今為止最大的特定領域數據集,并訓練了專門用于金融領域的LLM,開發了擁有500億參數的語言模型——BloombergGPT。
報告顯示,該模型依托彭博社的大量金融數據源,構建了一個3630億個標簽的數據集,支持金融行業內的各類任務。該模型在金融任務上的表現遠超過現有模型,且在通用場景上的表現與現有模型也能一較高下。
一般來說,在NLP領域,參數數量和復雜程度之間具有正相關性,GPT-3.5模型的參數量為2000億,GPT-3的參數量為1750億。
太易控股王漪嘉:數字貨幣在一定程度上具備金融屬性:在9月8日舉辦的服貿會上,太易控股集團首席合規官王漪嘉表示,區塊鏈本身是一項技術,只是目前最為成熟的一項落地產業是數字貨幣,其目前在法律法規上被認定是一項虛擬商品。雖然目前絕大部分案例確權了物權屬性,但在一定程度上也具備金融屬性,因此具備一定的流通和支付屬性與能力,以及一定的匿名性特征,進而容易滋生經濟型犯罪,或觸及國家監管路線,這確實是目前的現狀。王漪嘉強調稱,區塊鏈技術本身是無罪的,其本身是基于開源的一項技術,但如何良好地運用它,如何避免犯罪行為,以及如何盡快去貼近監管方向,或是了解監管的思路,是目前所有企業都應該時刻警醒的。(一財網)[2020/9/9]
關于BloombergGPT
報告指出,研究人員利用彭博社現有的數據,對資源進行創建、收集和整理,通過構建迄今為止最大的特定領域數據集來完成BloomberGPT,并基于通用和金融業務的場景進行混合模型訓練:
人大代表陳建華:建議加強區塊鏈技術在金融領域的應用研究:全國人大代表、人民銀行石家莊中心支行行長陳建華建議,探索符合我國實際的國家金融數據模型,實現金融數據互融互通。加強區塊鏈基礎技術、量子保密通信以及人工智能技術在金融領域應用研究。[2020/5/25]
彭博社主要是一家金融數據公司,數據分析師在公司成立的四十年的時間里收集了大量的金融文件,擁有廣泛的金融數據檔案,涵蓋了一系列的主題。
我們將這些數據添加到公共數據集中,以創建一個擁有超過7000億個標簽的大型訓練語料庫。
使用這個訓練語料庫的一部分,我們訓練了一個具有彭博風格的,達500億參數的模型,該模型是根據Hoffmann和LeScao等人的指導方針設計,基于通用和金融業務的場景進行混合模型訓練。
聲音 | 新華社:Libra等數字貨幣概念近期被許多人熟知 但金融本質需要被尊重:Libra等數字貨幣概念近期被許多人熟知,金融科技應用正在加速推動金融變革。業界認為,金融科技正在給金融業帶來深刻變化,但金融的本質始終需要被尊重,金融風險始終需要被敬畏。業內人士認為,無論是“科技+金融”,還是“金融+科技”,金融科技并沒有改變任何金融業傳統的宗旨和安全原則。金融科技不但要把網絡數字平臺的好處高效地用足用好用夠,還要堅守現代金融形成的宗旨、原則和理念。(新華社)[2019/8/11]
結果表明,我們的混合訓練方法使我們的模型在金融任務上的表現大大超過了現有的模型,而在通用場景上的表現則與之相當甚至優于現有模型。
動態 | 眾應互聯擬收購深圳區塊鏈金融服務有限公司:據投資者報消息,通過不斷置出原有業務、并購新資產,眾應互聯(002464.SH)擬收購深圳區塊鏈金融服務有限公司51%的股權,發力區塊鏈金融。而當記者就不斷調整的經營主線關系和對未來發展的設計問題采訪公司時,眾應互聯方面并未做出回應。但從上述收購標的可以看出,眾應互聯的收購方向基本都是跟隨當時的市場熱點在走,而熱點題材往往能夠享受更高溢價。[2018/8/27]
1.BloombergGPT優勢:特定領域模型仍有其不可替代性且彭博數據來源可靠
在論文中,彭博社指出,現階段,通用的自然語言處理模型可以涵蓋許多領域,但針對特定領域模型仍有其不可替代性,因彭博社的大多數應用均為金融領域,著手構建了一個針對金融領域的模型尤其優勢,同時可以在通用LLM基準測試上保持競爭力:
日本金融廳今日公告稱,對幣安發出警告的具體內容是“通過網絡對日本居民提供虛擬貨幣交易業務”:日本金融廳今日公告稱,對幣安發出警告的具體內容是“通過網絡對日本居民提供虛擬貨幣交易業務”,依據是行政指南第三分冊:金融公司關系第16章中虛擬貨幣交易關系Ⅲ-1-4第二部分第二小節的細則。據悉,該細則規定,對于已查明未注冊、并且在未注冊的情況下進行虛擬貨幣交易等業務的企業,如果未登記注冊的原因被認定為有故意性,出于保護用戶的原因,將會聯系相應機關,并立即取消其運營,同時進行書面警告。[2018/3/23]
除了構建金融領域的LLM外,本文的經驗也為其他研究領域的專用模型提供了參考。我們的方法是在特定領域和一般數據源上訓練LLM,以開發在特定領域和通用基準上表現優異的模型。
此外,我們的訓練數據不同于傳統的網絡爬取數據,網絡上的數據總有重復和錯誤,但我們的數據來源可靠。
2.BloombergGPT的訓練數據集:
BloombergGPT的訓練數據庫名為FINPILE,由一系列英文金融信息組成,包括新聞、文件、新聞稿、網絡爬取的金融文件以及提取到的社交媒體消息。
為了提高數據質量,FINPILE數據集也使用了公共數據集,例如ThePile、C4和Wikipedia。FINPILE的訓練數據集中大約一半是特定領域的文本,一半是通用文本。為了提高數據質量,每個數據集都進行了去重處理。
對金融領域的理解更準
報告指出,在金融領域中的自然語言處理在通用模型中也很常見,但是,針對金融領域,這些任務執行時將面臨挑戰:
以情感分析為例,一個題為“某公司將裁員1萬人”,在一般意義上表達了負面情感,但在金融情感方面,它有時可能被認為是積極的,因為它可能導致公司的股價或投資者信心增加。
報告指出,從測試來看,BloombergGPT在五項任務中的四項表現最佳,在NER中排名第二。因此,BloombergGPT有其優勢性。
測試一:ConvFinQA數據集是一個針對金融領域的問答數據集,包括從新聞文章中提取出的問題和答案,旨在測試模型對金融領域相關問題的理解和推理能力。
測試二:FiQASA,第二個情感分析任務,測試英語金融新聞和社交媒體標題中的情感走向。
測試三:標題,數據集包括關于黃金商品領域的英文新聞標題,標注了不同的子集。任務是判斷新聞標題是否包含特定信息,例如價格上漲或價格下跌等。
測試四:FPB,金融短語庫數據集包括來自金融新聞的句子情緒分類任務。
測試五:NER,命名實體識別任務,針對從提交給SEC的金融協議中收集金融數據,進行信用風險評估。
對于ConvFinQA來說,這個差距尤為顯著,因為它需要使用對話式輸入來對表格進行推理并生成答案,具有一定挑戰性。
ChatGPT為彭博點贊
華爾街見聞就這個問題專門詢問了ChatGPT,ChatGPT認為BloombergGPT是一項很有意義的技術進步:
它是專門為金融領域開發的一種語言模型,可以更好地處理金融領域的數據和任務,并且在金融領域的基準測試中表現出色。
這將有助于金融從業者更好地理解和應用自然語言處理技術,促進金融科技的發展。同時,BloombergGPT還可以為其他領域的語言模型的發展提供參考和借鑒。總的來說,BloombergGPT是一個有益的技術創新。
Tags:GPTBLOLOOMERGCGPT幣BCB Blockchainloom幣幣情ENERGY Vault (NFTX)
BTC突如其來的上漲打亂了許多投資者的陣腳,在懊悔踏空之余,大家又開始思考:比特幣今年還會上漲嗎?2022年底市場進入深熊以來,人們對下一輪市場周期的預期大都放在了2024年比特幣減半之際.
1900/1/1 0:00:00頭條 ▌?Terra聯合創始人DoKwon在黑山被逮捕?美國聯邦檢察官對DoKwon提起刑事欺詐指控金色財經報道,黑山內政部門:Terra聯合創始人DoKwon在黑山被逮捕.
1900/1/1 0:00:00凌晨兩點半,你還在我身邊,……凌晨兩點半,你不在我身邊,……你以為,我唱的是,臺灣歌手張信哲那首叫《寬容》的歌曲么? 不不不,我唱的是,投資者和美聯儲的關系.
1900/1/1 0:00:007:00-12:00關鍵詞:Allbridge、Dmail、AlchemyPay、Bybit1.Dmail:將接入由WorldcoinID登陸并使用Dmail跨鏈通信服務;2.
1900/1/1 0:00:00文章作者:JoelJohn文章編譯:Blockunicorn一年前,我們曾談及Web3時代的聚合理論。在Web2.0時代,聚合平臺因為打破了分銷成本而受益,將許多服務提供者匯集到一起.
1900/1/1 0:00:00頭條 ▌MagicEden宣布為Ordinals推出Launchpad金色財經報道,NFT平臺MagicEden將為Ordinals推出一個創作者Launchpad.
1900/1/1 0:00:00