以太坊價格 以太坊價格
Ctrl+D 以太坊價格
ads

NLP:NLP 的命名實體識別 Jieba

Author:

Time:1900/1/1 0:00:00

本文主要來介紹NLP中的命名實體識別。命名實體識別與中文分詞、詞性標注一樣,也是NLP的一個基礎任務,是信息抽取、信息檢索、機器翻譯、問答系統等多種NLP技術不可或缺的一部分。其目的是:識別語料中的人名、地名、組織機構名等命名實體。

隨著命名實體數量的不斷增加,一般不可能在詞典中全部列出,由于命名實體的構成方法具有規律性,通常把對這些詞的識別在任務中進行獨立處理,稱之為命名實體識別。NER一般分為3大類和7小類。

1.中文命名實體識別的難點

各類命名實體的數量眾多。命名實體的構成規律復雜。比如人名的構成規則各有不同,中文人名識別又可以細分為中國人名識別、日本人名識別和音譯人名識別等;再比如機構名的組成方式,機構名的種類繁多,各有獨特的命名方式,用詞也相當廣泛,只有結尾用詞相對集中。嵌套情況復雜。一個命名實體經常和一些詞組合成一個嵌套的命名實體,人名中嵌套著地名,地名中也經常嵌套著人名。長度不確定。與其他類型的命名實體相比,長度和邊界難以確定,使得機構名更難識別。中國人名一般二到四字,常用地名一般二到四字,但是機構名長度變化范圍極大,少的只有兩個字簡稱,多的達到幾十個字的全稱。2命名實體識別方式

DeFi借貸協議OpenLeverage推出質押借貸服務,并將在Arb上發二次空投:4月18日消息,據官方推特,去中心化借貸和保證金交易協議OpenLeverage宣布已經在Arbitrum上上線了質押借貸協議,可以給Arb上所有的長尾項目提供質押和借貸服務,此外,OpenLeverage即將在Arb上推出第二個追溯獎勵計劃(空投),以鼓勵協議使用、市場創造和流動性增加。[2023/4/19 14:11:59]

中文分詞中,主要有基于規則方法、基于統計方法和基于二者的混合方法。命名實體識別主要也包含這三種方法。

基于規則的命名實體識別:規則加詞典是早期命名實體識別中最行之有效的方式。依賴手工規則,結合命名實體庫,對每條規則進行權重賦值,然后通過實體與規則的相符情況來進行類型判斷。基于統計的命名實體識別:與分詞類似,目前主流的基于統計的命名實體識別方法有:隱馬爾可夫模型、最大熵模型、條件隨機場等。其主要思想是:基于人工標注的語料,將命名實體識別任務作為序列標注問題來解決。基于混合的命名實體識別:NLP并不完全是一個隨機過程,單獨使用基于統計的方法使狀態搜索空間非常龐大,必須借助規則知識提前進行過濾修剪處理。目前幾乎沒有單純使用統計模型而不使用規則知識的命名實體識別系統,在很多情況下是使用混合方法,結合規則和統計方法。序列標注方式是目前命名實體識別中的主流方法,下面重點介紹基于CRF條件隨機場的方法。

RTFKT-MNLTH系列NFT交易總額突破1億美元:金色財經消息,據 NFTGo.io 數據顯示,RTFKT-MNLTH 系列盲盒 NFT 交易總額已突破 1 億美元,截至目前為 129,826,412 美元,當前市值達到 197,833,663 美元,地板價為 9.99 ETH。

MNLTH 是 RTFKT 與耐克聯名的首個神秘箱子NFT 項目,該箱子外部采用幾何圖案的深色金屬飾面,并且刻有發光的耐克和 RTFKT 標志。[2022/4/24 14:45:03]

3基于CRF的命名實體識別

條件隨機場的主要思想來源于HMM,也是一種用來標記和切分序列化數據的統計模型。不同的是,條件隨機場是在給定觀察的標記序列下,計算整個標記序列的聯合概率,而HMM是在給定當前狀態下,定義下一個狀態的分布。

OpenOcean 宣布集成 Chainlink Keepers ,以啟用限價單功能:1月8日消息,去中心化聚合交易協議 OpenOcean 宣布正在集成 Chainlink Keepers ,以啟用限價單功能,目前已在 BSC 支持該功能,未來會擴展到其他網絡。該項目還表示,Chainlink 預言機還將支持其新的SaaS 產品中的交易工具,用于智能財富管理,例如網格交易。

具體而言,Chainlink Keepers 將使用去中心化的鏈下計算來監控資產價格。當資產價格超過用戶限價單設定的預定義閾值時,Chainlink Keepers 將調用負責限價單的 OpenOcean 智能合約。一旦被調用,OpenOcean 智能合約將參考Chainlink Price Feeds來驗證某些價格點是否被達到,如果驗證通過,則將代表用戶執行限價單交易。[2022/1/8 8:34:53]

條件隨機場的定義為:假設X=(X1,X2,X3,…,Xn)和Y=(Y1,Y2,Y3,…,Ym)是聯合隨機變量,若隨機變量Y構成一個無向圖G=(V,E)表示的馬爾可夫模型,則其條件概率分布P(Y|X)稱為條件隨機場,即:

Chainlink預言機正式完成Heco鏈部署:3月9日,據官方消息,Heco鏈已正式集成Chainlink預言機,Heco鏈上所有開發者均可通過Chainlink將智能合約連接至可靠的鏈下數據。

Chainlink安全穩定的喂價服務(Price Feeds)為開發者在Heco鏈上搭建各種類型的DApp協議提供了強大的后盾,成功集成Chainlink預言機后,開發者可以在Heco上開發出覆蓋穩定幣、衍生品、NFT、自動化支付和資產管理服務等全新的應用場景。

Heco是一條完全兼容EVM(虛擬機)的去中心化高效節能公鏈,可為開發人員提供高效且低成本的鏈上環境,以運行去中心化智能合約應用程序(DApps)和存儲數字資產。[2021/3/9 18:29:33]

P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v)

Bitcoin Suisse Online已上線AAVE、KSM和OCEAN:瑞士加密資產經紀商Bitcoin Suisse發推稱,其平臺Bitcoin Suisse Online已上線熱門DeFi代幣AAVE、KSM和OCEAN,并支持相關交易。[2021/1/13 16:05:41]

其中w~v表示無向圖G=(V,E)中與結點v有邊連接的所有節點,w≠v表示結點v以外的所有節點。

例如:對句子“我來到陶家村”進行標注,正確標注后的結果為:我/O來/O到/O陶/B家/M村/E。采用線性鏈CRF來進行解決,那么是其一種標注序列,也是是其一種標注選擇,類似的可選擇的標注序列有很多,在NER任務中就是在這么多的可選標注序列中,找出最靠譜的作為句子的標注。

那么我們要解決的問題就是要判斷標注序列是否靠譜。就剛才的兩種標注方法,顯然第一種比第二種更為準確,因為第二種將“陶”和“家”都作為地名首字標成了“B”,一個地名兩個首字符,顯然不合理。假如給每個標注序列打分,分值代表標注序列的靠譜程度,越高代表越靠譜,那么可以定一個規則,若在標注中出現連續兩個“B”結構的標注序列,則給它低分。連續“B”結構打低分就對應一條特征函數。在CRF中,定義一個特征函數集合,然后使用這個特征函數集合為標注序列進行打分,據此選出最靠譜的標注序列,該序列的分值是通過特征函數集合得出的。

在CRF中有兩種特征函數,分別為:轉移函數tk(yi-1,yi,i)和狀態函數sl(yi,X,i)。tk(yi-1,yi,i)依賴于當前和前一個位置,表示從標注序列中位置i-1的標記yi-1轉移到位置i上的標記yi的概率。sl(yi,X,i)依賴當前位置,表示標記序列在位置i上為標記yi的概率。通常特征函數取值為1或0,表示符不符合該條規則約束。

4日期識別代碼示例

應用場景:

現有一個智能外呼系統,由機器人撥打電話給客戶,通知客戶新股中簽情況,客戶與機器人進行對話。對話機器人根據用戶的語音進行解析,發覺用戶的需求,比如:新股中簽的時間,新股買入的時間等。通過asr技術將用戶的語音轉換成中文文本,然后由于asr的識別準確度問題,許多日期類的數據并不是嚴格的數字,比如會出現“十一月12日”“2019年11月”“20191112”“后天下午”等形式。

現在的需求是識別出每個請求文本中可能的日期信息,并將其轉換成統一的格式進行輸出。比如:“我打算今天或明天買入新股”,那么通過日期解析后,應該輸出為“2019-11-12”和“2019-11-13”。

通過結果分析可以看到,text1text2text3text4結果還是相對較好的,對于text5這種規則覆蓋之外的場景,方法效果大大降低。

作者:KevinTao

知乎號:Kevin陶民澤

備注:轉載請注明出處。

如發現錯誤,歡迎留言指正。

Tags:CRFNLPNERCRF幣CRF價格NLP價格NLP幣NER價格NER幣

萊特幣最新價格
ABS:央行數字貨幣研究所所長姚前:ABS區塊鏈平臺創新及應用

來源:國金ABS云 文章轉自第一財經,作者:姚前/中國人民銀行數字貨幣研究所所長;蔣國慶、彭楓/中國人民銀行數字貨幣研究所研發一部主管,如有侵權請聯系刪除.

1900/1/1 0:00:00
Frontier:愛奇藝智能獲得億元及以上人民幣A輪融資 Frontier Car Group獲得戰略投資

導語:重慶愛奇藝智能科技有限公司完成億級人民幣A輪融資,此輪融資由毅達資本領投,貝信資本跟投。資金將投入于技術產品研發、應用生態搭建及營銷推廣等方面,進一步融合愛奇藝在內容、技術、用戶等方面多年.

1900/1/1 0:00:00
TRA:脊柱外科“栽樹人”,胸腔鏡外科開拓者……細數新晉院士的醫學貢獻

2019年11月22日上午,中國科學院及中國工程院2019年院士增選名單公布。健康時報記者梳理名單發現,共17名醫藥領域專家當選兩院院士。健康時報記者采訪了部分新晉院士,展示他們的學術成果.

1900/1/1 0:00:00
TRO:從古代維護糧價穩定的方法,看古人的宏觀調控思想

民以食為天,糧價的穩定對百姓的安居樂業起著至關重要的作用,然而現實常會發生“豐收則賤谷傷農、歉收則糧價飛漲”的事情。現代社會,國家有中儲糧集團負責調控糧食的價格與儲備.

1900/1/1 0:00:00
Maker:抵押數字貨幣借貸,DeFi 模式真的能革傳統金融的命?

圖片來源@視覺中國 文|一本財經,作者|棘輪最近數字貨幣領域最火的一個詞,就是DeFi。這到底是一個什么商業模式?DeFi從業者天天喊著要革傳統金融的命,這是否有可能性?實際上,DeFi并不神秘.

1900/1/1 0:00:00
比特幣:幣圈風云:區塊鏈、虛擬幣與人性

來源:創事記 歡迎關注“創事記”微信訂閱號:sinachuangshiji 文/陸離監制/闌夕 來源:闌夕 10月25日,黃浦江上最豪華的游輪之一藍黛公主號迎來了一批特殊的客人.

1900/1/1 0:00:00
ads