文獻綜述標註

來源:瑞文範文網 1.32W

1、引言

文獻綜述標註

漢語自動分詞和詞性標註是漢語信息處理中重要的基礎性工作,它與語料庫基礎資源建設相輔相成,在中文信息處理中起着關鍵作用。經過將近20 年的研究,自動分詞與詞性標註技術、語料庫的建設都取得了長足的進步,許許多多的系統應用而生;因此,對分詞與詞性自動標註系統進行公正的評測,將會對這項基礎性的工作起到導向性的作用。二者之間有着十分密切的聯繫, 比如, 切分歧義是漢語分詞所面臨的一大難題, 其中能用語法知識消解的就約佔90%以上,而涉及語義和語用知識的切分歧義則很少,另外,詞性標註的質量高低直接影響着自動分詞的效果好壞。

2、漢語自動分詞

2.1 定義和產生原因

所謂的自動分詞就是把連續的字串分割成詞的序列。從處理過程來看,把自動分詞可以看作是用計算機自動識別文本字符流中的詞並在詞與詞之間加入明顯切分標記的過程。

詞是最小的能夠獨立運用的有意義的語言單位,英文單詞之間以空格作爲自然的分隔符。漢語是以字爲基本的書寫單位,詞語之間沒有明顯的區分標誌,計算機不能通過英文句子之間的空格方法區分漢語詞,否則可能會出現錯誤。

如漢語中“學生”整體是一個詞,但計算機不容易理解“學”和“生”兩個字合起來才能表示一個詞,爲了解決類似的問題,中文分詞技術應運而生。

2.2 自動分詞的分詞方法

關於分詞方法,蘇聯學者最先提出了關於“ 6-5-4-3-2-1”的思想,這種方法中的匹配思想成爲後來許多分詞方法的基礎。目前,漢語自動分詞方法不下二十種,例如,最大匹配法、知識分詞方法、鏈接法,在參考衆多文獻的基礎上,綜合各家之言,大體上可概括爲四種類型:基於詞典的分詞方法、基於統計的分詞方法、基於理解的分詞方法和基於人工智能的分詞方法。這些分詞方法各有其特點,分別代表着不同的發展方向。其中基於詞典的分詞方法具有算法成熟,易於實現的特點,目前是使用最普遍切分方法;基於統計的分詞方法由於有的歧義切分能力和低頻詞識別能力,受到越來越多的研究人員的重視,發展較快,但在實際使用中,很少單獨使用,一般都與基於詞典匹配的信息進行更多的處理,因而加大了實現的難度;基於人工智能的分詞方法是目前理論上最爲理想的分詞方法,但是該類分詞方法的研究還處於初級階段,並且由於漢語自然語言複雜靈活,知識表示困難,所以對於這類分詞技術還需要進行更深入和全面的研究。

2.3 自動分詞研究現狀

經過十幾年的研究,漢語自動分詞技術取得了令人矚目的成果,出現了一些實用的自動分詞系統,如:北京航空航天大學的c d w s分詞系統,這些系統在分詞的精確度和分詞速度方面都具有相當的水平,並在一些中文全文檢索系統中得到了應用。中文自動分詞技術取得了可喜的進步,具體表現在:

“詞”是否有了清晰的界定。原來很難精確定義的“詞”,現在可通過“分詞規範+詞表+分詞語料庫”的方法,使中文詞語在真實文本中得到了可計算的定義,界定出詞語的邊界,這是實現計算機自動分詞和可比評測的基礎。

未登錄詞對分詞精度的影響。對交集型歧義字串進行的大規模語料庫調查,明確提出把分詞歧義消解過程分解爲偵察和消歧兩個子過程的認識,都是近十年來分詞研究的重大收穫.

基於字的分詞新方法.過去的分詞方法大都依賴於一個事先編制好的詞表或詞典。自動分詞過程就是通過詞表和相關信息來做出詞語切分的決策。基於字標註的分詞方法實際上是構詞方法。即把分詞過程視爲字在字串中的標註問題。這種方法的一個重要優勢在於,它能夠平衡地看待詞表詞和未登錄詞的識別問題。

2.4 困難和問題

儘管漢語自動分詞取得了重大進展和突破,但仍有大量的問題困擾着這一領域的學者們。因爲要自由進行漢語自動分詞,至少會遇到以下一些困難:

(1) 中文原本沒有詞的概念 ,至今也沒有統一的詞的確切定義。漢語詞與詞之間既沒有西文那樣有明顯的分隔符,也沒有日文那樣豐富的詞尾變化。

(2)漢語迄今爲此仍未有一部公認的、確切完備的並適合於計算機自動處理的語法規則。

漢語無標準性的詞法、複雜性的句法、模糊性的語法與多樣性的語義,如漢語中大量存在多義詞、同義詞、詞性變化、詞義轉借等現象,使漢語表達具有很大的靈活性,所以任何人都都很難對它進行完備的總結。

(3)中文構詞方法的多樣性和句法的“意合”性等特點也是造成自動分詞困難的重要原因。中文造詞的原料,不僅有字,而且有詞、詞組。造句的方式有以字造詞、以詞造詞,甚至壓句成詞。如果沒有語法、語義知識或語境的幫助就很難對有些句子進行正確切分。

(4)語音中所蘊含的部分有用信息在書面語中無從體現。

(5)新詞在不斷增加,如人名、地名、新產生的詞、外來詞等日益充實着漢語詞彙。

但最重要的困難還是歧義切分和未登錄詞的問題。歧義切分有兩種類型,一種是交集性切分歧義,另外一種是組合型切分歧義,如漢字串“將來”是一個詞,其中“將”和“來”也可以單獨成詞,這就涉及到如何切分的問題。組合型歧義是切不切開的問題,交集型歧義是切在哪裏的問題。未登錄詞即是指未包含在分詞詞表中的詞,包括各類專名(人名、地名、企業字號和商標號等)、某些術語、縮略語和新詞等,由於專用術語繁多,新名詞、新概念層出不窮,這些詞一般很難全部收錄到詞典中,但這些詞往往在一定時期內呈現較高的檢索概率。這就要求分詞系統具有一定的未登錄詞識別能力,從而提高分詞的準確性。

對於分詞的歧義處理,目前已經進行了比較深入的研究,人們通過統計和規則相結合的方法,使得歧義字段的正確切分達到了較高的水平 ,同時也認識到歧義的解決需要細緻的個性化的知識積累,對不同類型的歧義要有不同消歧方法,同時研究漢語的構詞規則,增強歧義判別能力;另一方面,無論詞表規模多麼大,未登錄詞語的存在是必然的。因此,與分詞的歧義處理相比較,未登錄詞語的處理成爲影響分詞精確率的最主要、最直接的因素,這也是當前的一個研究的難點和熱點。

3 、漢語詞性標註

3.1 基本含義和標註方法

詞性標註即在給定的句子中判定每個詞最合適的詞性標記,關鍵是如何處理兼類詞或多義詞。詞性標註的正確與否對後續的句法分析、語義分析有很大的影響,是中文信息處理的基礎性課題之一。常用的詞性標註模型有n 元模型、隱馬爾科夫模型、最大熵模型、基於決策樹的模型等。其中,隱馬爾科夫模型是應用較廣泛且效果較好的模型之一。

由於同一個詞在不同的語境下會產生不同的詞性特徵,所以就產生了不同的標註方法。目前主要存在以下四種方法:基於規則的方法;統計方法;規則和統計結合方法;基於轉換的錯誤驅動學習方法。基於規則的方法利用規則對多個詞性的詞進行消歧,利用上下文信息來排除多餘詞性。它能夠利用現有研究成果,通過對語境中的詞語、詞類和詞語的特徵做細緻描述,起到很好的排歧作用,但主觀性較強,覆蓋率低;統計方法可以將一些不確定的知識量化,可以獲得較好的效果和提高覆蓋率,現在一般用統計方法來標註詞性,據說可以獲得95%以上的正確率,但實際消歧效果究竟怎樣,尚不明確;規則和統計結合方法融合了二者的優點;基於轉換的錯誤驅動學習方法是一種這種的方法,它在詞性標註中能達到98%的正確率。

3.2 困難和問題

漢語詞性標註的困難主要是因爲漢語作爲一種孤立語,缺乏嚴格意義上的形態標誌和形態變化,詞類判定基礎是根據詞的已實現的句法功能,對上下文的依賴特別嚴重。

漢語詞性標註的困難具體可分爲:①漢語缺乏詞的形態變化,不能像印歐語那樣,直接從詞的形態變化上去辨別出詞的類別;②常用詞的兼類現象普遍。兼類詞不僅使用頻度高,而且兼類現象複雜多樣,覆蓋面廣,兼類現象分佈不均,漢語中大部分詞類都有兼類現象,使得詞類歧義排除的任務困難重重;③研究者本身的主觀因素也會造成兼類詞處理的困難。

4、應對策略

正因爲在自動分詞和詞性標註上還面臨很多的困難,所以我們今後的研究應着重在某些點上的“有所爲”,纔能有助於達到我們的想要的結果。結合自己的學習和對其他學者的總結,具體地講,大概要抓以下一些工作:l)儘快建立一個質量高、易接受的通用詞表。這是保證其它一切自動分詞研究是否紮實、可靠的先決條件;2)建立一套爲學界同仁認同並遵守的漢語自動分詞規範和詞性標註規範和技術標準,建立詞性標註平衡語料庫,做好系統評測,各家的工作成果應儘量共享,避免簡單重複;3)在通用詞表及極大規模語料庫的支持下,系統地發現那些頻度高、穩定性好的切分歧義,並有針對性地給出解決辦法;4)對覆蓋型切分歧義的研究目前十分薄弱,統計手段似乎心有餘而力不足,應該尋求新的對策;5)促進己有的各種專有名詞識別機制向更加精細化方向發展,並增設少數民族人名等特殊字詞的識別機制; 6)以已有工作爲基礎,構造更加合理的自動分詞評測模型,爭取評測工作的權威化、公開化、持續化。

漢語自動分詞已經被研究了二十多年,涉及的內容很多,分詞方法層出不窮,取得了不少成就,但目前仍是制約中文信息處理髮展的一個瓶頸。詞性標註是一個比較活躍的應用領域,它直接影響到語法分析、文本信息檢索等諸多領域,它與自動分詞相輔相成,詞性標註錯誤必然導致分詞錯誤。就目前情況來看,自動分詞和詞性標註在許多方面有許多的突破,但同時也都面臨着很多的困難和挑戰,相信隨着科技的發展和知識的進步,這些難題終究會被逐一擊破。

熱門標籤