網(wǎng)上有很多關(guān)于pos機命名,外部知識在命名實體識別任務(wù)中的重要性研究的知識,也有很多人為大家解答關(guān)于pos機命名的問題,今天pos機之家(www.afbey.com)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
1、pos機命名
pos機命名
ACL 2018 Short Papers
外部知識在命名實體識別任務(wù)中的重要性研究
A Study of the Importance of External Knowledge in the Named Entity Recognition Task
伊利諾伊大學(xué)
University of Illinois
本文是伊利諾伊大學(xué)發(fā)表于 ACL 2018 的工作,討論了外部知識對于執(zhí)行命名實體識別(NER)任務(wù)的重要性,提出了一個新穎的模塊化框架,根據(jù)知識傳遞的深度將知識分成四類。每個類別由一組從不同的信息源自動生成的特征組成,如知識庫、名稱列表或文檔特定的語義注釋。此外,我們展示當(dāng)逐步增加更深的知識時對性能的影響,并討論了其有效性及效率間的關(guān)系。
命名實體識別(Named Entity Recognition,NER)的任務(wù)是檢測文本中的命名實體引用,并給它們分配相應(yīng)的類型。它是自然語言理解任務(wù)的重要組成部分,如命名實體消歧(NED)、問答等。
以前的工作認(rèn)為NER是知識密集型任務(wù),并且使用具有突出結(jié)果的先驗知識。在這項工作中,我們試圖量化外部知識對NER性能影響到了何種程度。盡管最近在端到端神經(jīng)網(wǎng)絡(luò)方法上已經(jīng)取得了卓越的成績,但是本文的目的是提供透明度和用戶可理解的可解釋性。
我們通過設(shè)計一個簡單的模塊化框架來開發(fā)不同的外部知識源。根據(jù)信息源所傳達的知識深度,我們將信息源分為四個不同的類別,每個類別攜帶的信息都比前一個類別多。每個類別由一組反映每個源中包含的知識程度的特征組成。然后,我們使用線性CRF,一種透明的、廣泛使用的方法用于NER。
我們通過測試知識類別的各種組合,在兩個標(biāo)準(zhǔn)數(shù)據(jù)集上執(zhí)行實驗。結(jié)果表明,知識量與NER性能高度相關(guān)。具有更多外部知識的配置系統(tǒng)勝過更多不可知論的系統(tǒng)。
接下來我們詳細(xì)描述了四個知識類別。下表給出了使用外部知識類別特征的概述,特征用于訓(xùn)練線性鏈CRF,這一種簡單易懂、對NER十分有效的方法。
知識不可知論(A):這個類別包含“l(fā)ocal”特征,可以在沒有任何外部知識的情況下直接從文本中提取。它們大多具有詞匯、句法或語言學(xué)性質(zhì),在文學(xué)界已有大量研究。我們實現(xiàn)了Finkel中描述的大部分特征:
(1)當(dāng)前詞和大小為2的窗口中的詞;(2)當(dāng)前詞的詞形和大小為2的窗口中的詞;(3)大小為2的窗口中詞的POS標(biāo)記;(4)前綴(長度3和4)和后綴(長度1至4);(5)當(dāng)前詞在大小為4的窗口中存在的次數(shù);(6)句子的開始部分。
基于名字的知識(名稱):我們從命名實體名稱列表中提取知識。這些特征試圖識別名稱中的模式,并利用不同名稱集有限的事實。我們從YAGO中提取了總計超過2000萬個名稱,并導(dǎo)出了以下特征:
經(jīng)常提及的tokens。反映給定token在實體名稱列表中的頻率。我們標(biāo)記了列表并計算了頻率。該特征賦予對應(yīng)于它們的歸一化頻率的文本中的每個token的權(quán)重。高權(quán)重應(yīng)該被分配給指示命名實體的token。例如,我們在英語中找到的前5位的符號是“county”, “john”, “school”, “station” 和 “district”。沒有出現(xiàn)的所有tokens的權(quán)重被分配0。
頻繁POS標(biāo)簽序列。識別命名實體常見的POS序列。例如,人名往往被描述為一系列專有名詞,而組織可能具有更豐富的模式?!癘rganization of American States” 和 “Union for Ethical Biotrade” 都具有NNP-IN-NNP-NNP模式。我們排序名稱POS標(biāo)簽序列,保留前100名。通過查找輸入文本中最長的匹配序列并標(biāo)記當(dāng)前token是否屬于頻繁序列來實現(xiàn)該特征。
基于知識庫的知識(KB):該類別組特征從KB或?qū)嶓w注釋語料庫中提取。他們編碼關(guān)于命名實體本身或用法的知識。我們采用了三個特征:
類型注入地名匹配。查找在特定類型的地名詞典中最長出現(xiàn)的token序列。根據(jù)token是序列的一部分,它向每個token添加二進制指示符。我們使用由Ratinov和Roth發(fā)布的30本字典,其中包含英文的類型名稱信息。還可以通過將每個字典映射到一組KB類型,并提取相應(yīng)的名稱來自動創(chuàng)建這些字典。這種自動生成在多語言設(shè)置中是有用的。
維基百科鏈接概率。此特征測量token鏈接到命名實體維基百科頁面的可能性。從直覺上說,鏈接到命名實體頁面的標(biāo)記更傾向于指示命名實體。例如,token“Obama”通常是鏈接的,而“box”不是。引用命名實體的頁面列表是從YAGO中提取的。給定文本中的token,如果文檔d中的tokent鏈接到另一個Wikipedia文檔,則根據(jù)等式1為其分配鏈接概率,其中l(wèi)inkd(t)等于1。若t在d中出現(xiàn),則presentd等于1。
類型概率。對屬于給定類型的token的可能性進行編碼。它抓住了這樣一個概念,例如,“Obama”這個符號更像是一個人而不是一個地點。給定YAGO中的一組實體E,其中提到Me和tokenTem,我們計算給定token t的c ∈ C類的概率,如下式所示,其中如果實體e屬于c類,則c(e)=1,否則c(e)=0。對于文本中的每個token,我們?yōu)槊糠N類型創(chuàng)建一個特征,以各自的概率作為其值。
token類型位置。反映token可以根據(jù)實體類型出現(xiàn)在不同的位置。例如,“Supreme Court of the United States”是一個組織,“United”出現(xiàn)在最后。在“United States”中,一個地點,它出現(xiàn)在開始。這有助于命名實體嵌套。
這是使用BILOU(Begin, Inside, Last, Outside, Unit)編碼實現(xiàn)的,它針對每個token出現(xiàn)的位置標(biāo)記每個token。特征的數(shù)量取決于數(shù)據(jù)集中類型的數(shù)量(4個BILU位置乘以n個類+O位置)。對于每個token,每個特征接收給定token和位置的類概率。利用上式計算類概率,還包括標(biāo)記位置。
因此,對于每個token,我們現(xiàn)在有超過4n+1類別的概率分布。以token“Obama”為例。我們希望,對于“B-Person”(即,姓氏與姓氏的組合)和“UPerson”(即,沒有姓氏的姓氏)類,它具有高的概率。所有其他類的概率將接近于零。相比之下,單詞“box”對于類“O”應(yīng)該有很高的概率,對于所有其他類,它應(yīng)該接近于零,因為我們不希望在許多命名實體中發(fā)生這種情況。
基于實體的知識(實體):這個類別對在文本中發(fā)現(xiàn)的實體的文檔特定知識進行編碼,以利用NER和NED之間的關(guān)聯(lián)。以前的工作表明,這些系統(tǒng)之間的信息流動產(chǎn)生了顯著的性能改進。
相對而言,該模塊需要更多的計算資源。它需要首先運行NED,來基于已消除歧義的命名實體生成文檔特定特征。這些特征在NER的第二次運行中使用。
隨后,在NED首次運行之后,我們創(chuàng)建了一組源自消除歧義的實體的文檔專用地名錄。此信息有助于第二輪查找先前丟失的新命名實體。比如“Some citizens of the European Union working in the United Kingdom do not meet visa requirements for non-EU workers after the uk leaves the bloc”。我們可以想象,在第一輪NED中,European Union 和United Kingdom很容易被識別,但“EU”或大小寫不當(dāng)?shù)摹皍k”也可能被忽略。在消除歧義之后,我們知道這兩個實體都是組織,并且分別具有別名EU和UK。然后,在第二輪中,更容易發(fā)現(xiàn)“EU”和“uk”。
在第一次運行NER+NED之后,我們從YAGO中提取所有被識別的實體的表面形式。這些被標(biāo)記并分配了相應(yīng)實體的類型,加上它的BILOU位置。例如,“Barack Obama”導(dǎo)致“Barack”和“Obama”,分別指定為“B-Person”和“L-Person”。有17個二進制特征(BILU標(biāo)記乘以4個粗粒度類型+O標(biāo)記),當(dāng)token是包含從token到類型-BILOU對的映射列表的一部分時觸發(fā)。
實驗使用線性鏈CRF。CRF是透明的,廣泛用于NER任務(wù)?;趯嶓w的組件使用AIDA實體消歧系統(tǒng)實現(xiàn)。我們在兩個標(biāo)準(zhǔn)的NER數(shù)據(jù)集上進行評估:COLL2003,一個英文通訊社的集合,包括四種類型的實體(PER、ORG、LOC、MISC);MUC-7,紐約時報的一組文章,其中注釋了三種類型的實體(PER、ORG、LOC)。
我們分析逐步增加外部知識的影響。下圖示出了四種變體。每個都包含對應(yīng)于給定類別的特征。在所有情況下,增加知識可以提高F1性能。對于MUC-7測試來說,效果尤其明顯,總體上增加了近10點。在兩個數(shù)據(jù)集中,當(dāng)添加基于KB的特征時,效果明顯提升。作為參考,迄今為止最好的系統(tǒng)之一(基于神經(jīng)網(wǎng)絡(luò)的)在CoNLL2013測試中F1達到91.62,而我們的全知CRF的F1達到91.12。
下表顯示了知識類別的不同組合。從KB到Entity的改進表明KB特征被后面的特征所包含。這在某種程度上是預(yù)期的,因為實體特定信息是從相同的KB中提取的,并且都依賴于實體類型。然而,正如我們所看到的,這是有代價的。
我們分別針對基于A、Name、KB和Entity的特征測量314ms、494ms、693ms和4139ms(如下圖)。由于基于KB的特征在性能上與基于實體的特征相當(dāng),但是后者昂貴得多,因此這些發(fā)現(xiàn)允許從業(yè)人員仔細(xì)地決定附加的計算成本是否值得相對小的性能改進。我們特征類的模塊化允許在有效性/效率方面進行權(quán)衡,對系統(tǒng)進行最優(yōu)調(diào)整。
為了證明我們方法的普遍適用性,我們?yōu)榱硗鈨煞N語言,即德語和西班牙語,實現(xiàn)了NER系統(tǒng)。Name、KB和Entity知識類的所有特征都源自相應(yīng)語言的Wikipedia。在CoNLL2003g上為德文進行性能評估,在CoNLL2002上為西班牙語進行性能評估。結(jié)果如下圖。與英語數(shù)據(jù)的性能類似,我們可以看到添加更多的外部知識可以提高性能。作為參考,我們發(fā)現(xiàn),性能接近于最先進的兩種語言。我們的系統(tǒng)在德語中僅落后1.56 F1得分,在西班牙語中落后1.98 F1得分。
本文通過定義四個特征類別,研究了外部知識對于執(zhí)行命名實體識別任務(wù)的重要性。除了現(xiàn)有文獻中常用的特征外,我們還定義了四個新特征,并將它們合并到我們的分類方案中。實驗結(jié)果表明,盡管更多的外部知識導(dǎo)致性能提高,但它在性能上取得了相當(dāng)大的折衷。
onq系統(tǒng)全稱是什么?
OnQ系統(tǒng)是希爾頓酒店集團自行開發(fā)的系統(tǒng),可以說是開創(chuàng)了酒店業(yè)自主研發(fā)的先河。
OnQ的功能自然是按照希爾頓所需兒工作的,也就是最適合希爾頓使用的唯一系統(tǒng)。其核心是System 21酒店管理系統(tǒng),目前已經(jīng)發(fā)展到2.11版本,將會被重新命名為OnQ V2系統(tǒng),它作為一個統(tǒng)一的前端系統(tǒng),除了完成日常的酒店業(yè)務(wù)外,還可以透明地訪問到由其他后臺系統(tǒng)提供的數(shù)據(jù),這些系統(tǒng)包括Focus收益管理系統(tǒng)、Group 1客戶聯(lián)絡(luò)管理系統(tǒng)、E.piphany客戶關(guān)系數(shù)據(jù)分析系統(tǒng)等,同時具有與各種電話計費系統(tǒng)、程控交換機系統(tǒng)、語音信箱系統(tǒng)、高速互聯(lián)網(wǎng)系統(tǒng)、迷你吧系統(tǒng)、門鎖系統(tǒng)、POS系統(tǒng)、收費電影系統(tǒng)、能源管理系統(tǒng)、客房內(nèi)傳真系統(tǒng)的接口。
以上就是關(guān)于pos機命名,外部知識在命名實體識別任務(wù)中的重要性研究的知識,后面我們會繼續(xù)為大家整理關(guān)于pos機命名的知識,希望能夠幫助到大家!
