首頁Python+大數(shù)據(jù)學(xué)習(xí)常見問題正文

Python文本數(shù)據(jù)分析：NLTK與jieba概述

更新時(shí)間:2022年11月08日10時(shí)11分來源:傳智教育瀏覽次數(shù):

好口碑IT培訓(xùn)

　　NLTK全稱為Natural Language Toolkit，它是一套基于Python的自然語言處理工具包，可以方便地完成自然語言處理的任務(wù)，包括分詞、詞性標(biāo)注、命名實(shí)體識別(NER)及句法分析等。

　　NLTK是一個(gè)免費(fèi)的、開源的、社區(qū)驅(qū)動的項(xiàng)目，它為超過50個(gè)語料庫和詞匯資源(如WordNet)提供了易于使用的接口，以及一套用于分類、標(biāo)記化、詞干化、解析和語義推理的文本處理庫。接下來，通過一張表來列舉NLTK中用于語言處理任務(wù)的一些常用模塊，具體如表8-1所示。

　　表8-1 NLTK中的常用模塊

NLTK中的常用模塊

　　GitHub上有一段描述Jieba的句子：

　　“jieba”(Chinese for “to stutter”)Chinese text segmentation：built to be the best Python Chinese word segmentation module.

　　翻譯：“Jieba”中文分詞：最好的Python中文分詞組件。

　　由此可見，jieba最適合做中文分詞，這離不開它擁有的一些特點(diǎn)：

　　(1)支持三種分詞模式：

　　◆精確模式：視圖將句子最精確地切開，適合文本分析。

　　◆全模式：把句子中所有的可以成詞的詞語都掃描出來，速度非?？?，但是不能解決歧義。

　　◆搜索引擎模式：在精確模式的基礎(chǔ)上，對長詞再次切分，提高召回率，適合用于搜索引擎分詞。

　　(2)支持繁體分詞。

　　(3)支持自定義詞典。

　　(4)MIT授權(quán)協(xié)議。

　　jieba庫中主要的功能包括分詞、添加自定義詞典、關(guān)鍵詞提取、詞性標(biāo)注、并行分詞等，大家可以參考https://github.com/fxsjy/jieba網(wǎng)址進(jìn)行全面學(xué)習(xí)。后期在使用到j(luò)ieba庫的某些功能時(shí)，會再另行單獨(dú)介紹。

上一篇：Python中怎樣選擇正確的可視化圖表？ 下一篇：Hive的工作原理是什么？Hive和Hadoop執(zhí)行任務(wù)的流程