網(wǎng)上有很多關(guān)于pos機標(biāo)注,基于細粒度知識融合的序列標(biāo)注領(lǐng)域適應(yīng)的知識,也有很多人為大家解答關(guān)于pos機標(biāo)注的問題,今天pos機之家(www.afbey.com)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
pos機標(biāo)注
作者 | 南大NLP編輯 | 唐里
本文來自公眾號南大NLP,AI科技評論獲授權(quán)轉(zhuǎn)載,如需轉(zhuǎn)載請聯(lián)系原公眾號。
背景介紹
序列標(biāo)注任務(wù),例如中文分詞(CWS),詞性標(biāo)注(POS),命名實體識別(NER)等是自然語言處理中的基礎(chǔ)任務(wù)。最近,隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)序列標(biāo)注方案已經(jīng)達到了很好的性能,同時也依賴于大規(guī)模的標(biāo)注數(shù)據(jù)。然而大部分的規(guī)范標(biāo)注數(shù)據(jù)來自于新聞領(lǐng)域,將在這些數(shù)據(jù)集上訓(xùn)練的模型應(yīng)用到其他領(lǐng)域時,模型的性能往往會大幅下降。領(lǐng)域適應(yīng)(domain adaptation)利用源領(lǐng)域(source domain)的豐富知識來提升目標(biāo)領(lǐng)域(target domain)的性能,適合用來解決這一問題。我們關(guān)注于有監(jiān)督的領(lǐng)域適應(yīng),利用大規(guī)模的有標(biāo)注的源領(lǐng)域數(shù)據(jù)來幫助僅有少量標(biāo)注數(shù)據(jù)的目標(biāo)領(lǐng)域的學(xué)習(xí)。
對于序列標(biāo)注任務(wù),我們觀察到一個有趣的現(xiàn)象:不同的目標(biāo)域句子傾向于和源領(lǐng)域有不同的領(lǐng)域相關(guān)性(domain relevance),表1中展示了幾個twitter的句子,它們和源領(lǐng)域(新聞)的相關(guān)程度不同,同時,句子內(nèi)部不同的單元(中英文詞)也有不同的領(lǐng)域相關(guān)性。
表1 來自于社交媒體領(lǐng)域的推特和源領(lǐng)域(新聞領(lǐng)域)有不同的領(lǐng)域相關(guān)性。在每個例子中,加粗的部分與源領(lǐng)域強相關(guān),斜體的部分與源領(lǐng)域弱相關(guān)。
傳統(tǒng)的神經(jīng)序列標(biāo)注領(lǐng)域適應(yīng)方案關(guān)注于減少源域和目標(biāo)域集合層面的差異,忽略了樣本和元素層級的領(lǐng)域相關(guān)性。如圖1中,(左) 展示了之前的方案,對于目標(biāo)域中具有不同領(lǐng)域相關(guān)性的樣本進行了相同的知識遷移,然而,理想的知識遷移過程如圖(右),對于和源領(lǐng)域強相關(guān)的樣本和元素應(yīng)該遷移更多的知識,反之應(yīng)該保持其目標(biāo)域特性,從源領(lǐng)域?qū)W習(xí)更少的知識。
圖 1 知識遷移方法比較。(左) 之前的方法,(右)我們的方法
在本文中,我們提出了一個細粒度的知識融合方案來控制學(xué)習(xí)源領(lǐng)域和保持目標(biāo)領(lǐng)域之間的平衡,通過建模樣本層面和元素層面的領(lǐng)域相關(guān)性,以及將其引入到領(lǐng)域適應(yīng)過程中,有效的減少了負遷移(negative transfer),同時增強了領(lǐng)域適應(yīng)的效果。
解決方案
相關(guān)性建模
圖2 相關(guān)性建模過程
(1)元素級的領(lǐng)域相關(guān)性
為了獲得元素級的相關(guān)性,我們引入了領(lǐng)域表示q,我們使用了兩種方式來獲得q:
(a)domain-q:q是可訓(xùn)練的領(lǐng)域向量,領(lǐng)域內(nèi)所有的元素共享q;(b)sample-q:q是從每個樣本抽出的領(lǐng)域相關(guān)的特征,每個樣本內(nèi)部的元素共享q,這里我們使用膠囊網(wǎng)絡(luò)(capsule network)來抽取這個特征。通過計算隱層與領(lǐng)域表示的相似性得到元素級的領(lǐng)域相關(guān)性。
(2)樣本級的領(lǐng)域相關(guān)性
為了獲得樣本級的相關(guān)性,我們進行了樣本級別的領(lǐng)域分類,基于元素級的相關(guān)性對隱層加權(quán)求和得到樣本表示,對樣本進行領(lǐng)域分類得到樣本級的領(lǐng)域相關(guān)性。
細粒度的知識融合
圖3 知識蒸餾與細粒度的知識融合
知識蒸餾(knowledge distillation)為學(xué)生模型(student model)的每個樣本和元素提供了從老師模型(teacher model)學(xué)習(xí)的目標(biāo),在這里我們將源域模型作為老師模型,目標(biāo)域模型作為學(xué)生模型。目標(biāo)域模型的損失函數(shù)由兩部分組成:序列標(biāo)注損失和知識蒸餾損失,其中序列標(biāo)注損失可以看作從目標(biāo)域數(shù)據(jù)學(xué)習(xí)的知識,知識蒸餾損失可以看作從源域模型學(xué)習(xí)到的知識,超參alpha用來平衡二者。
通過引入前面學(xué)習(xí)到的各層級的領(lǐng)域相關(guān)性,實現(xiàn)細粒度的知識融合,從而實現(xiàn)考慮到領(lǐng)域相關(guān)性的領(lǐng)域適應(yīng)。
樣本級別的知識融合:根據(jù)每個目標(biāo)域樣本不同的領(lǐng)域相關(guān)性得到其相應(yīng)的alpha,從而實現(xiàn)樣本級別的知識融合。
元素級別的知識融合:根據(jù)每個目標(biāo)域元素不同的領(lǐng)域相關(guān)性得到其相應(yīng)的alpha,從而實現(xiàn)元素級別的知識融合。
多層級的知識融合:同時考慮樣本級別和元素級別的領(lǐng)域相關(guān)性,可以得到多層級的alpha,從而實現(xiàn)多層級的知識融合。
訓(xùn)練過程
訓(xùn)練過程主要分為四步:
(1)(可選)用源域數(shù)據(jù)預(yù)訓(xùn)練源域模型和目標(biāo)域模型;
(2)訓(xùn)練源域模型,預(yù)測目標(biāo)域數(shù)據(jù)的概率分布;
(3)計算各層次的領(lǐng)域相關(guān)性權(quán)重;
(4)按照細粒度知識融合的方案訓(xùn)練目標(biāo)域模型;
重復(fù)(2)(3)(4)步直到目標(biāo)域模型收斂。
實驗分析
數(shù)據(jù)集
我們在兩種語言(中文和英文)和三個序列標(biāo)注任務(wù)(中文分詞,詞性標(biāo)注,命名實體識別)上進行了實驗,使用的數(shù)據(jù)集見表2。
表2 實驗中用到的數(shù)據(jù)集
實驗結(jié)果
我們使用F1-score和OOV recall來評價在中文分詞領(lǐng)域適應(yīng)上的表現(xiàn),我們比較了不同的領(lǐng)域表示方案和不同層次的知識融合方案,結(jié)果見表3??梢园l(fā)現(xiàn)在領(lǐng)域表示的層面上,樣本級別的領(lǐng)域表示(Sample-q)好于領(lǐng)域級別的領(lǐng)域表示(Domain-q),在知識融合的層面上,多層級的方式好于元素層面的融合,也好于樣本層面的融合。我們最終的方案為基于樣本級別領(lǐng)域表示的多層次知識融合方法(FGKF)。
表3 細粒度知識融合在中文分詞任務(wù)上的結(jié)果
我們在兩種語言,三個任務(wù)上復(fù)現(xiàn)了序列標(biāo)注領(lǐng)域適應(yīng)的相關(guān)工作,我們的方案均獲得了最好的結(jié)果。
表4 在三個任務(wù)上領(lǐng)域適應(yīng)的結(jié)果,其中zh表示微博數(shù)據(jù)集,en表示推特數(shù)據(jù)集。
結(jié)果分析
(1)不同領(lǐng)域相關(guān)性的結(jié)果
將目標(biāo)域元素根據(jù)訓(xùn)練集中的相關(guān)權(quán)重均值劃分為領(lǐng)域強相關(guān)和領(lǐng)域弱相關(guān)兩類,結(jié)果見表5。從表中可以看出,相比于基本的知識蒸餾方案(BasicKD),通過引入了領(lǐng)域相關(guān)性,F(xiàn)GKF提升了領(lǐng)域強相關(guān)元素的性能,同時有效緩解了負遷移現(xiàn)象。
表5 推特測試集強/弱領(lǐng)域相關(guān)部分分別的結(jié)果
(2)相關(guān)性權(quán)重可視化
我們對兩種領(lǐng)域表示方案得到的元素級別的相關(guān)性權(quán)重進行了可視化,如圖4,樣本級別的領(lǐng)域表示(下方)相較于領(lǐng)域級別的領(lǐng)域表示(上方)能更好地提取出各樣本的領(lǐng)域特征,從而得到更好的元素級別的相關(guān)性權(quán)重。
圖4 元素級別領(lǐng)域相關(guān)性可視化
(3)消融實驗
我們在Twitter數(shù)據(jù)集上進行了消融實驗(見表6),發(fā)現(xiàn)在訓(xùn)練目標(biāo)域模型時固定源域模型的參數(shù)是十分重要的,同時共享embedding層,預(yù)訓(xùn)練也對結(jié)果產(chǎn)生了一定影響。
表6 推特測試集消融實驗結(jié)果
(4)目標(biāo)域數(shù)據(jù)規(guī)模的影響
我們也研究了不同的目標(biāo)域數(shù)據(jù)規(guī)模對領(lǐng)域適應(yīng)結(jié)果的影響(見圖5),當(dāng)目標(biāo)域數(shù)據(jù)較少時(20%),BasicKD與FGKF有較大的差距,說明此時領(lǐng)域相關(guān)性是十分重要的,隨著目標(biāo)域數(shù)據(jù)規(guī)模的增加,BasicKD與FGKF仍然存在的一定的差距。
圖5 不同的目標(biāo)域數(shù)據(jù)規(guī)模對領(lǐng)域適應(yīng)結(jié)果的影響
總結(jié)
本文提出了細粒度的知識融合方案,將目標(biāo)域數(shù)據(jù)的領(lǐng)域相關(guān)性引入到序列標(biāo)注領(lǐng)域適應(yīng)過程中,有效的增強了領(lǐng)域強相關(guān)部分的遷移,同時減少了負遷移。實驗結(jié)果表明我們的方案能有效的提升序列標(biāo)注領(lǐng)域適應(yīng)的效果,同時也展現(xiàn)出了其在其他領(lǐng)域適應(yīng)任務(wù)上的潛力。
南大NLP研究組介紹
南京大學(xué)自然語言處理研究組從事自然語言處理領(lǐng)域的研究工作始于20世紀(jì)80年代。曾先后承擔(dān)過該領(lǐng)域的18項國家科技攻關(guān)項目、863項目、國家自然科學(xué)基金和江蘇省自然科學(xué)基金以及多項對外合作項目的研制。其中,承擔(dān)的國家七五科技攻關(guān)項目“日漢機譯系統(tǒng)研究”獲七五國家科技攻關(guān)重大成果獎、教委科技進步二等獎以及江蘇省科技進步三等獎。
分析理解人類語言是人工智能的重要問題之一,本研究組在自然語言處理的多個方向上做了大量、深入的工作。近年來集中關(guān)注文本分析、機器翻譯、社交媒體分析推薦、知識問答等多個熱點問題,結(jié)合統(tǒng)計方法和深度學(xué)習(xí)方法進行問題建模和求解,取得了豐富的成果。本研究組在自然語言處理頂級國際會議ACL上連續(xù)三年發(fā)表多篇論文,也在人工智能頂級國際會議IJCAI和AAAI上發(fā)表論文多篇,相關(guān)系統(tǒng)在機器翻譯、中文分詞、命名實體識別、情感計算等多個國際國內(nèi)評測中名列前茅。
本實驗室立志于研究和解決在傳統(tǒng)文本和互聯(lián)網(wǎng)資源的分析處理中面臨的各項問題和挑戰(zhàn),并積極探索自然語言處理的各種應(yīng)用。如果你也和我們有共同興趣或目標(biāo),歡迎加入我們!
以上就是關(guān)于pos機標(biāo)注,基于細粒度知識融合的序列標(biāo)注領(lǐng)域適應(yīng)的知識,后面我們會繼續(xù)為大家整理關(guān)于pos機標(biāo)注的知識,希望能夠幫助到大家!
