1
目前常用的自然语言处理库包含 NLTK、spaCy、scikit-learn、gensim、Pattern、polyglot。
- NLTK(自然语言工具包)用于分词、词形还原、词干提取、解析、句法分析、词性标注等任务。该库具备可用于几乎所有 NLP 任务的工具。
- spaCy 是 NLTK 的主要竞争者。这两个库可用于同样的任务。
- scikit-learn 提供一个用于机器学习的大型库,包含用于文本预处理的工具。
- gensim 是用于话题空间建模、向量空间建模和文档相似度的工具包。
- Pattern 库是作为 web 挖掘模块提供服务的,因此,它也支持 NLP 任务。
- polyglot 是另一个用于 NLP 的 Python 包。它不是很流行,但也可以用于大量 NLP 任务。
他们的优缺点如下图:
收藏