| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> NLP 开源形近字算法补完计划(完结篇) -> 正文阅读 |
|
[人工智能]NLP 开源形近字算法补完计划(完结篇) |
前言所有的故事都有开始,也终将结束。 本文将作为 NLP 汉字相似度的完结篇,为该系列画上一个句号。 承-中文形近字相似度算法实现,为汉字 NLP 尽一点绵薄之力 不足之处之所以有本篇,是因为上一次的算法实现存在一些不足。 巴别塔《圣经》中有关于巴别塔建造,最终人们因为语言问题而停工的故事?。
为了避免语言问题,我一开始就实现了一个 exe4j 打包的对比程序,自己跑的很顺畅。 小伙伴一跑,运行失败。各种环境配置一顿操作,最后还是报错。 于是,我写了一个 python 简易版本,便于做 NLP 研究的小伙伴们学习。
java 是一种语言,python 是一种语言。 编程语言,让人和机器之间可以沟通,却让人与人之间产生了隔阂。 拆字在 当代中国最贵的汉字是什么? 一文中,我们首次说明了汉字的拆合。 汉字的拆分实现,核心目的之一就是为了完善汉字的相似度比较。 通过对比汉字的拆分部分,然后获取拆字的相似度,提高对比的准确性。 拆字相似度简单的需求为了便于小伙伴们理解,我们用产品经理的思维和大家介绍一下实现方式。
小伙伴们,应该已经知道怎么实现了吧? 使用体验诚如产品所言,这个需求已经实现。 maven 引入
使用
对应的结果为:0.9696969696969697 更多使用细节,参考开源地址: 写在完结前涉及的项目汉字的相似度计算到这里算是告一段落。 主要涉及的资料及项目有: 当然,还可以结果 opencc4j 进行繁简体的处理,此处不再延伸。 之后的计划NLP 的领域还有很多东西需要大家攻克,毕竟中文 NLP 才刚刚开始。 技术尚未成功,同志仍需努力。 据说最近鹅城的某位黄老爷惹得大家怨声载道。 很多小伙伴说,如果有一款软件可以实现【月丷夫马言卂彳山兀攴人言】的沟通功能,那么我肯定会用。 所谓说者无心,听者有意。 写一个通讯软件,主要是为了巩固下 netty 的学习,其他的都不重要。 虽然知道就算有,大家肯定也不太会改变,但是老马还是准备试试。 java 实现思路警告,如果你头发已经所剩无几,或者对实现并不感兴趣。 那么就可以收藏+点赞+评论【不明觉厉】,然后离开了。 下面是枯燥的代码实现环节。 程序员的思维下面是程序员的思维。 首先要解决几个问题: (1)汉字的拆分实现 这个直接复用已经实现的汉字拆分实现。
相同的一个汉字可以有多种拆分方式,简单起见,我们默认取第一个。 (2)相似的比较 假设我们对比 A B 两个汉字,可以拆分为如下的子集。 A = {A1, A2, …, Am} B = {B1, B2, …, Bm}
拆分后的子集对比有多种实现方式,简单起见,我们直接遍历元素,判断另一个子集是否存在。 当然,遍历的时候要以拆分数量较少的的为基准。
(3)拆分子集的权重 比如 我们用一个子集的笔画数占整体汉字的笔画数计算权重。
ps: 这里的除以 2,是为了归一化。保证最后的结果在 0-1 之间。 (4)笔画数 获取笔画数的方式,我们可以直接复用以前的方法。 如果没有匹配的,默认笔画数为 1。
java 完整实现我们把所有的碎片拼接起来,就得到一个完整的实现。
小结本文引入了汉字拆字,进一步丰富了相似度的实现。 当然,实现本身依然有很多值得提升的地方,比如拆分后的选择,是否可以递归拆分等,这个还是留给后人研究吧。 我是老马,期待与你的下次重逢。 |
|
|
上一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 3:59:12- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |