ucbug軟件站:安全、綠色、放心的專業(yè)下載站!首頁|最近更新|專題集合|標簽云|站內(nèi)導(dǎo)航|加入收藏
Jcseg(Java中文分詞器)v2.6.2免費版

Jcseg(Java中文分詞器)v2.6.2免費版

  • 軟件大?。?span>4.90 MB
  • 更新日期:2020-08-31
  • 軟件語言:簡體中文
  • 軟件類別:國產(chǎn)軟件
  • 軟件授權(quán):免費版
  • 評分等級:
  • 插件情況:無插件請放心使用
  • 軟件官網(wǎng)://m.evoucherdeals.com
  • 適用平臺:Win All
本地下載文件大小:4.90 MB高速下載高速下載器,提速50%
軟件介紹人氣軟件相關(guān)文章下載地址

Jcseg是基于mmseg算法的一個輕量級Java中文分詞器,同時集成了關(guān)鍵字提取,關(guān)鍵短語提取,關(guān)鍵句子提取和文章自動摘要等功能,并且提供了一個基于Jetty的web服務(wù)器,方便各大語言直接http調(diào)用,同時提供了最新版本的lucene,solr和elasticsearch的搜索分詞接口!

Jcseg(Java中文分詞器)

功能介紹

Jcseg核心功能:

中文分詞:mmseg算法 + Jcseg 獨創(chuàng)的優(yōu)化算法,七種切分模式。

關(guān)鍵字提?。夯趖extRank算法。

關(guān)鍵短語提?。夯趖extRank算法。

關(guān)鍵句子提?。夯趖extRank算法。

文章自動摘要:基于BM25+textRank算法。

自動詞性標注:基于詞庫+(統(tǒng)計歧義去除計劃),目前效果不是很理想,對詞性標注結(jié)果要求較高的應(yīng)用不建議使用。

命名實體標注:基于詞庫+(統(tǒng)計歧義去除計劃),電子郵件,網(wǎng)址,大陸手機號碼,地名,人名,貨幣,datetime時間,長度,面積,距離單位等。

Restful api:嵌入jetty提供了一個絕對高性能的server模塊,包含全部功能的http接口,標準化json輸出格式,方便各種語言客戶端直接調(diào)用。

Jcseg中文分詞:

七種切分模式:

簡易模式:FMM算法,適合速度要求場合。

復(fù)雜模式:MMSEG四種過濾算法,具有較高的歧義去除,分詞準確率達到了98.41%。

檢測模式:只返回詞庫中已有的詞條,很適合某些應(yīng)用場合。

最多模式:細粒度切分,專為檢索而生,除了中文處理外(不具備中文的人名,數(shù)字識別等智能功能)其他與復(fù)雜模式一致(英文,組合詞等)。

分隔符模式:按照給定的字符切分詞條,默認是空格,特定場合的應(yīng)用。

NLP模式:繼承自復(fù)雜模式,更改了數(shù)字,單位等詞條的組合方式,增加電子郵件,大陸手機號碼,網(wǎng)址,人名,地名,貨幣等以及無限種自定義實體的識別與返回。

n-gram模式:CJK和拉丁系字符的通用n-gram切分實現(xiàn)。

分詞功能特性:

支持自定義詞庫。在lexicon文件夾下,可以隨便添加/刪除/更改詞庫和詞庫內(nèi)容,并且對詞庫進行了分類。

支持詞庫多目錄加載. 配置lexicon.path中使用';'隔開多個詞庫目錄.

詞庫分為簡體/繁體/簡繁體混合詞庫: 可以專門適用于簡體切分, 繁體切分, 簡繁體混合切分, 并且可以利用下面提到的同義詞實現(xiàn),簡繁體的相互檢索, Jcseg同時提供了詞庫兩個簡單的詞庫管理工具來進行簡繁體的轉(zhuǎn)換和詞庫的合并。

中英文同義詞追加/同義詞匹配 + 中文詞條拼音追加.詞庫整合了《現(xiàn)代漢語詞典》和cc-cedict辭典中的詞條,并且依據(jù)cc-cedict詞典為詞條標上了拼音,依據(jù)《中華同義詞詞典》為詞條標上了同義詞(尚未完成)。更改jcseg.properties配置文檔可以在分詞的時候加入拼音和同義詞到分詞結(jié)果中。

中文數(shù)字和中文分數(shù)識別,例如:"一百五十個人都來了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且 Jcseg會自動將其轉(zhuǎn)換為阿拉伯?dāng)?shù)字加入到分詞結(jié)果中。如:150, 1/40。

支持中英混合詞和英中混合詞的識別(維護詞庫可以識別任何一種組合)。例如:B超, x射線, 卡拉ok, 奇都KTV, 哆啦a夢。

支持英文的類中文切分,同樣使用mmseg算法來消除歧義,例如:“openarkcompiler”會被切分成:“open ark compiler”,該功能也可以被關(guān)閉。

更好的拉丁支持,電子郵件,域名,小數(shù),分數(shù),百分數(shù),字母和標點組合詞(例如C++, c#)的識別。

自定義切分保留標點. 例如: 保留&, 就可以識別k&r這種復(fù)雜詞條。

復(fù)雜英文切分結(jié)果的二次切分: 可以保留原組合,同時可以避免復(fù)雜切分帶來的檢索命中率下降的情況,例如QQ2013會被切分成: qq2013/ qq/ 2013, chenxin619315@gmail.com會被切分成: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。

支持阿拉伯?dāng)?shù)字/小數(shù)/中文數(shù)字基本單字單位的識別,例如2012年,1.75米,38.6℃,五折,并且 Jcseg會將其轉(zhuǎn)換為“5折”加入分詞結(jié)果中。

智能圓角半角, 英文大小寫轉(zhuǎn)換。

特殊字母識別:例如:Ⅰ,Ⅱ;特殊數(shù)字識別:例如:①,⑩。

配對標點內(nèi)容提?。豪纾鹤詈玫腏ava書《java編程思想》,‘暢想杯黑客技術(shù)大賽’,被《,‘,“,『標點標記的內(nèi)容。(1.6.8版開始支持)。

智能中文人名/外文翻譯人名識別。中文人名識別正確率達94%以上。(中文人名可以維護lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex來提高準確率),(引入規(guī)則和詞性后會達到98%以上的識別正確率)。

自動中英文停止詞過濾功能(需要在jcseg.properties中開啟該選項,lex-stopwords.lex為停止詞詞庫)。

詞庫更新自動加載功能, 開啟一個守護線程定時的檢測詞庫的更新并且加載(注意需要有對應(yīng)詞庫目錄下的的lex-autoload.todo文件的寫入權(quán)限)。

自動詞性標注(目前基于詞庫)。

自動實體的識別,默認支持:電子郵件,網(wǎng)址,大陸手機號碼,地名,人名,貨幣等;詞庫中可以自定義各種實體并且再切分中返回。

下載地址

Jcseg(Java中文分詞器)v2.6.2免費版

高速下載器地址:

有問題?不能下載,
下載周排行下載總排行