IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 数据结构与算法 -> 中文分词算法及python代码实现(持续更新中) -> 正文阅读

[数据结构与算法]中文分词算法及python代码实现(持续更新中)



参考链接:
https://blog.csdn.net/lcwdzl/article/details/78493637

代码源码地址:
https://github.com/lankuohsing/Study_NLP

1. 机械分词算法

1.1. 正向最大匹配算法

# In[]
custom_dict = set(["机械","分词","方法","机械分词方法", "又","叫","基于","字符串","匹配",
                   "的","它","是","按照","一定的","策略","将","待分析的","与","一个","充分",
                   "充分大的","词典","中","词条","进行","若","在","找到","某个","则","成功",
                   "识别出","词","这是","最","简单","分词方法","但","非常","高效","和","常见"])

input_sentence = "机械分词方法又叫基于字符串匹配的分词方法,它是按照一定的策略将待分析的字符串与一个“充分大的”词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。这是最简单的分词方法,但非常高效和常见。"


max_word_len=0
for word in custom_dict:
    if len(word)>max_word_len:
        max_word_len=len(word)

if len(input_sentence)<max_word_len:
    max_word_len=len(input_sentence)


# In[]
cur_sub_sentence=input_sentence
seg_results=[]
while(len(cur_sub_sentence)>0):
#    print("cur_sub_sentence: ",cur_sub_sentence)
    cur_word_to_match=cur_sub_sentence[0:max_word_len]
    while(not (cur_word_to_match in custom_dict)):
        if(len(cur_word_to_match)>1):
            cur_word_to_match=cur_word_to_match[:-1]
        else:#if cur_word_to_match is not in the dict, then split it into chars
            break
#    if len(cur_word_to_match)==0:
#        cur_sub_sentence=cur_sub_sentence[max_word_len:]
#        continue
    seg_results.append(cur_word_to_match)
#    print("cur_word_to_match: ",cur_word_to_match)
    cur_sub_sentence=cur_sub_sentence[len(cur_word_to_match):]
# In[]
print(seg_results)
  数据结构与算法 最新文章
【力扣106】 从中序与后续遍历序列构造二叉
leetcode 322 零钱兑换
哈希的应用:海量数据处理
动态规划|最短Hamilton路径
华为机试_HJ41 称砝码【中等】【menset】【
【C与数据结构】——寒假提高每日练习Day1
基础算法——堆排序
2023王道数据结构线性表--单链表课后习题部
LeetCode 之 反转链表的一部分
【题解】lintcode必刷50题<有效的括号序列
上一篇文章      下一篇文章      查看所有文章
加:2021-12-06 15:30:50  更:2021-12-06 15:32:19 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 14:29:16-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码