中文分词、词性标注、专名识别等功能,经过分析比较最终选择了百度LAC(Lexical Analysis of Chinese)。
由于baidu/lac 2.1依赖paddlepaddle最高1.8.5(使用2.1会报错lac 2.1.2 depends on paddlepaddle>=1.6)。飞桨PaddlePaddle-源于产业实践的开源深度学习平台飞桨致力于让深度学习技术的创新与应用更简单。具有以下特点:同时支持动态图和静态图,兼顾灵活性和效率;精选应用效果最佳算法模型并提供官方支持;真正源于产业实践,提供业界最强的超大规模并行深度学习能力;推理引擎一体化设计,提供训练到多端推理的无缝对接;唯一提供系统化技术服务与支持的深度学习平台https://www.paddlepaddle.org.cn/
python3 -m pip install paddlepaddle==1.8.5 -i https://mirror.baidu.com/pypi/simple
安装baidu/lac 2.1,并验证成功输出内容。GitHub - baidu/lac: 百度NLP:分词,词性标注,命名实体识别,词重要性百度NLP:分词,词性标注,命名实体识别,词重要性. Contribute to baidu/lac development by creating an account on GitHub.https://github.com/baidu/lac
MacBook-Pro Downloads % cat lac-test.py
from LAC import LAC
# 装载分词模型
lac = LAC(mode='seg')
# 单个样本输入,输入为Unicode编码的字符串
text = u"LAC是个优秀的分词工具"
seg_result = lac.run(text)
print( seg_result)
# 批量样本输入, 输入为多个句子组成的list,平均速率会更快
texts = [u"LAC是个优秀的分词工具", u"百度是一家高科技公司"]
seg_result = lac.run(texts)
print( seg_result)
MacBook-Pro Downloads % python3 lac-test.py
['LAC', '是', '个', '优秀', '的', '分词', '工具']
[['LAC', '是', '个', '优秀', '的', '分词', '工具'], ['百度', '是', '一家', '高科技', '公司']]
查看以上输出,表示baidu/lac 2.1分词成功。
|