ucbug軟件站:安全、綠色、放心的專業(yè)下載站!首頁|最近更新|專題集合|標(biāo)簽云|站內(nèi)導(dǎo)航|加入收藏
Jcseg(Java中文分詞器)v2.6.2免費(fèi)版

Jcseg(Java中文分詞器)v2.6.2免費(fèi)版

  • 軟件大?。?span>4.90 MB
  • 更新日期:2020-08-31
  • 軟件語言:簡(jiǎn)體中文
  • 軟件類別:國(guó)產(chǎn)軟件
  • 軟件授權(quán):免費(fèi)版
  • 評(píng)分等級(jí):
  • 插件情況:無插件請(qǐng)放心使用
  • 軟件官網(wǎng)://m.evoucherdeals.com
  • 適用平臺(tái):Win All
本地下載文件大?。?.90 MB高速下載高速下載器,提速50%
軟件介紹人氣軟件相關(guān)文章下載地址

Jcseg是基于mmseg算法的一個(gè)輕量級(jí)Java中文分詞器,同時(shí)集成了關(guān)鍵字提取,關(guān)鍵短語提取,關(guān)鍵句子提取和文章自動(dòng)摘要等功能,并且提供了一個(gè)基于Jetty的web服務(wù)器,方便各大語言直接http調(diào)用,同時(shí)提供了最新版本的lucene,solr和elasticsearch的搜索分詞接口!

Jcseg(Java中文分詞器)

功能介紹

Jcseg核心功能:

中文分詞:mmseg算法 + Jcseg 獨(dú)創(chuàng)的優(yōu)化算法,七種切分模式。

關(guān)鍵字提?。夯趖extRank算法。

關(guān)鍵短語提?。夯趖extRank算法。

關(guān)鍵句子提取:基于textRank算法。

文章自動(dòng)摘要:基于BM25+textRank算法。

自動(dòng)詞性標(biāo)注:基于詞庫+(統(tǒng)計(jì)歧義去除計(jì)劃),目前效果不是很理想,對(duì)詞性標(biāo)注結(jié)果要求較高的應(yīng)用不建議使用。

命名實(shí)體標(biāo)注:基于詞庫+(統(tǒng)計(jì)歧義去除計(jì)劃),電子郵件,網(wǎng)址,大陸手機(jī)號(hào)碼,地名,人名,貨幣,datetime時(shí)間,長(zhǎng)度,面積,距離單位等。

Restful api:嵌入jetty提供了一個(gè)絕對(duì)高性能的server模塊,包含全部功能的http接口,標(biāo)準(zhǔn)化json輸出格式,方便各種語言客戶端直接調(diào)用。

Jcseg中文分詞:

七種切分模式:

簡(jiǎn)易模式:FMM算法,適合速度要求場(chǎng)合。

復(fù)雜模式:MMSEG四種過濾算法,具有較高的歧義去除,分詞準(zhǔn)確率達(dá)到了98.41%。

檢測(cè)模式:只返回詞庫中已有的詞條,很適合某些應(yīng)用場(chǎng)合。

最多模式:細(xì)粒度切分,專為檢索而生,除了中文處理外(不具備中文的人名,數(shù)字識(shí)別等智能功能)其他與復(fù)雜模式一致(英文,組合詞等)。

分隔符模式:按照給定的字符切分詞條,默認(rèn)是空格,特定場(chǎng)合的應(yīng)用。

NLP模式:繼承自復(fù)雜模式,更改了數(shù)字,單位等詞條的組合方式,增加電子郵件,大陸手機(jī)號(hào)碼,網(wǎng)址,人名,地名,貨幣等以及無限種自定義實(shí)體的識(shí)別與返回。

n-gram模式:CJK和拉丁系字符的通用n-gram切分實(shí)現(xiàn)。

分詞功能特性:

支持自定義詞庫。在lexicon文件夾下,可以隨便添加/刪除/更改詞庫和詞庫內(nèi)容,并且對(duì)詞庫進(jìn)行了分類。

支持詞庫多目錄加載. 配置lexicon.path中使用';'隔開多個(gè)詞庫目錄.

詞庫分為簡(jiǎn)體/繁體/簡(jiǎn)繁體混合詞庫: 可以專門適用于簡(jiǎn)體切分, 繁體切分, 簡(jiǎn)繁體混合切分, 并且可以利用下面提到的同義詞實(shí)現(xiàn),簡(jiǎn)繁體的相互檢索, Jcseg同時(shí)提供了詞庫兩個(gè)簡(jiǎn)單的詞庫管理工具來進(jìn)行簡(jiǎn)繁體的轉(zhuǎn)換和詞庫的合并。

中英文同義詞追加/同義詞匹配 + 中文詞條拼音追加.詞庫整合了《現(xiàn)代漢語詞典》和cc-cedict辭典中的詞條,并且依據(jù)cc-cedict詞典為詞條標(biāo)上了拼音,依據(jù)《中華同義詞詞典》為詞條標(biāo)上了同義詞(尚未完成)。更改jcseg.properties配置文檔可以在分詞的時(shí)候加入拼音和同義詞到分詞結(jié)果中。

中文數(shù)字和中文分?jǐn)?shù)識(shí)別,例如:"一百五十個(gè)人都來了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且 Jcseg會(huì)自動(dòng)將其轉(zhuǎn)換為阿拉伯?dāng)?shù)字加入到分詞結(jié)果中。如:150, 1/40。

支持中英混合詞和英中混合詞的識(shí)別(維護(hù)詞庫可以識(shí)別任何一種組合)。例如:B超, x射線, 卡拉ok, 奇都KTV, 哆啦a夢(mèng)。

支持英文的類中文切分,同樣使用mmseg算法來消除歧義,例如:“openarkcompiler”會(huì)被切分成:“open ark compiler”,該功能也可以被關(guān)閉。

更好的拉丁支持,電子郵件,域名,小數(shù),分?jǐn)?shù),百分?jǐn)?shù),字母和標(biāo)點(diǎn)組合詞(例如C++, c#)的識(shí)別。

自定義切分保留標(biāo)點(diǎn). 例如: 保留&, 就可以識(shí)別k&r這種復(fù)雜詞條。

復(fù)雜英文切分結(jié)果的二次切分: 可以保留原組合,同時(shí)可以避免復(fù)雜切分帶來的檢索命中率下降的情況,例如QQ2013會(huì)被切分成: qq2013/ qq/ 2013, chenxin619315@gmail.com會(huì)被切分成: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。

支持阿拉伯?dāng)?shù)字/小數(shù)/中文數(shù)字基本單字單位的識(shí)別,例如2012年,1.75米,38.6℃,五折,并且 Jcseg會(huì)將其轉(zhuǎn)換為“5折”加入分詞結(jié)果中。

智能圓角半角, 英文大小寫轉(zhuǎn)換。

特殊字母識(shí)別:例如:Ⅰ,Ⅱ;特殊數(shù)字識(shí)別:例如:①,⑩。

配對(duì)標(biāo)點(diǎn)內(nèi)容提?。豪纾鹤詈玫腏ava書《java編程思想》,‘暢想杯黑客技術(shù)大賽’,被《,‘,“,『標(biāo)點(diǎn)標(biāo)記的內(nèi)容。(1.6.8版開始支持)。

智能中文人名/外文翻譯人名識(shí)別。中文人名識(shí)別正確率達(dá)94%以上。(中文人名可以維護(hù)lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex來提高準(zhǔn)確率),(引入規(guī)則和詞性后會(huì)達(dá)到98%以上的識(shí)別正確率)。

自動(dòng)中英文停止詞過濾功能(需要在jcseg.properties中開啟該選項(xiàng),lex-stopwords.lex為停止詞詞庫)。

詞庫更新自動(dòng)加載功能, 開啟一個(gè)守護(hù)線程定時(shí)的檢測(cè)詞庫的更新并且加載(注意需要有對(duì)應(yīng)詞庫目錄下的的lex-autoload.todo文件的寫入權(quán)限)。

自動(dòng)詞性標(biāo)注(目前基于詞庫)。

自動(dòng)實(shí)體的識(shí)別,默認(rèn)支持:電子郵件,網(wǎng)址,大陸手機(jī)號(hào)碼,地名,人名,貨幣等;詞庫中可以自定義各種實(shí)體并且再切分中返回。

下載地址

Jcseg(Java中文分詞器)v2.6.2免費(fèi)版

高速下載器地址:

有問題?不能下載,
下載周排行下載總排行