| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Synonyms 中文近义词工具包 -- 支持文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等 -> 正文阅读 |
|
[人工智能]Synonyms 中文近义词工具包 -- 支持文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等 |
GitHub - chatopera/Synonyms: 中文近义词:聊天机器人,智能问答工具包 SynonymsChinese Synonyms for Natural Language Processing and Understanding. 更好的中文近义词:聊天机器人、智能问答工具包。
Table of Content:Welcomepip install -U synonyms python -c "import synonyms" # download word vectors file 兼容 py2 和 py3,当前稳定版本?v3.x。 提示:安装后初次使用会下载词向量文件,下载速度取决于网络情况。 #118 词向量文件一直下载不下来?可尝试按下述方法设置国内的词向量备份地址: export SYNONYMS_WORD2VEC_BIN_URL_ZH_CN=https://gitee.com/chatopera/cskefu/attach_files/610602/download/words.vector.gz pip install -U synonyms python -c "import synonyms" # download word vectors file 其它环境变量介绍见下文,Windows cmd 使用?set SYNONYMS_WORD2VEC_BIN_URL_ZH_CN?设置环境变量。 本文档的配置和接口说明面向 python 工具包。 Usage支持使用环境变量配置分词词表和 word2vec 词向量文件。
synonyms#nearby(word [, size = 10])import synonyms print("人脸: ", synonyms.nearby("人脸")) print("识别: ", synonyms.nearby("识别")) print("NOT_EXIST: ", synonyms.nearby("NOT_EXIST"))
synonyms.nearby(人脸, 10) = ( ["图片", "图像", "通过观察", "数字图像", "几何图形", "脸部", "图象", "放大镜", "面孔", "Mii"], [0.597284, 0.580373, 0.568486, 0.535674, 0.531835, 0.530 095, 0.525344, 0.524009, 0.523101, 0.516046]) 在 OOV 的情况下,返回? synonyms#compare(sen1, sen2 [, seg=True])两个句子的相似度比较 sen1 = "发生历史性变革" sen2 = "发生历史性变革" r = synonyms.compare(sen1, sen2, seg=True) 其中,参数 seg 表示 synonyms.compare 是否对 sen1 和 sen2 进行分词,默认为 True。返回值:[0-1],并且越接近于 1 代表两个句子越相似。 旗帜引领方向 vs 道路决定命运: 0.429 旗帜引领方向 vs 旗帜指引道路: 0.93 发生历史性变革 vs 发生历史性变革: 1.0 synonyms#display(word [, size = 10])以友好的方式打印近义词,方便调试, >>> synonyms.display("飞机") '飞机'近义词: 1. 飞机:1.0 2. 直升机:0.8423391 3. 客机:0.8393003 4. 滑翔机:0.7872388 5. 军用飞机:0.7832081 6. 水上飞机:0.77857226 7. 运输机:0.7724742 8. 航机:0.7664748 9. 航空器:0.76592904 10. 民航机:0.74209654
synonyms#v(word)获得一个词语的向量,该向量为 numpy 的 array,当该词语是未登录词时,抛出 KeyError 异常。 >>> synonyms.v("飞机") array([-2.412167 , 2.2628384 , -7.0214124 , 3.9381874 , 0.8219283 , -3.2809453 , 3.8747153 , -5.217062 , -2.2786229 , -1.2572327 ], dtype=float32) synonyms#sv(sentence, ignore=False)获得一个分词后句子的向量,向量以 BoW 方式组成 sentence: 句子是分词后通过空格联合起来 ignore: 是否忽略OOV,False时,随机生成一个向量 synonyms#seg(sentence)中文分词 synonyms.seg("中文近义词工具包") 分词结果,由两个 list 组成的元组,分别是单词和对应的词性。 (['中文', '近义词', '工具包'], ['nz', 'n', 'n']) 该分词不去停用词和标点。 synonyms#keywords(sentence [, topK=5, withWeight=False])提取关键词,默认按照重要程度提取关键词。
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 17:38:24- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |