IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 文本的表示方法 -(one-hot representation) - 单词表示方法“one-hot encoding”、句子的表示方法“Boolean、count、Tf-idf” 应用举例 -> 正文阅读

[人工智能]文本的表示方法 -(one-hot representation) - 单词表示方法“one-hot encoding”、句子的表示方法“Boolean、count、Tf-idf” 应用举例

文本的表示方法 -(one-hot representation) - 单词表示方法“one-hot encoding”、句子的表示方法“Boolean、count、Tf-idf” 应用举例

一、文本的表示方法简介

由于文字是人类认知过程中产生的高层认知抽象实体,计算机无法直接识别,我们需要将其转换为 “ 数字向量或矩阵 ” 这种计算机可识别的形式。比如:对单词的意思进行编码以便我们可以计算语义它们之间的相似性(例:比较篮球和足球相似,还是足球和菜谱相似)、文档检索(例:检索与查询(web搜索))、在文本数据上应用机器学习(例:聚类/分类算法对向量进行操作)。

文本的表示方法可以分为 “ 通过向量的方式去表达一个单词 ” 与 “ 通过向量的方式去表达一个句子 ” 。

其中, “ 通过向量的方式去表达一个单词 ” 我们此次介绍 one-hot encoding 的方法,“ 通过向量的方式去表达一个句子 ” 我们此次介绍 Boolean 、 count 、Tf-idf 。

由于 “ 通过向量的方式去表达一个句子 ” 时,使用 count词频统计 的方法存在一个问题,即 “ 并不是该单词出现的次数越多就越重要,也不是出现次数越少就越不重要 ”,Tf-idf 则考虑了单词的重要性,如下:

在这里插入图片描述

二、应用举例

2.1、通过向量的方式去表达一个单词

词典为:[我们,又,去,爬山,今天,你们,昨天,跑步]

每个单词的表示 ( 使用one-hot encoding,即 “对应词典” 将“该单词”出现的位置标为1,其它位置全标为0,“向量维度”=“词典维度” ) :

  • 我们:[1,0,0,0,0,0,0,0]
  • 爬山:[0,0,0,1,0,0,0,0]
  • 跑步:[0,0,0,0,0,0,0,1]

2.2、通过向量的方式去表达一个句子(句子已经过分词处理)

词典为:[我们,又,去,爬山,今天,你们,昨天,跑步]

  • 每个句子的表示 ( 使用boolean,即 “对应词典” 将“句子中单词”出现的位置标为1,其它位置全标为0,“向量维度”=“词典维度” ) :
  • 我们 今天 去 爬山:[1,0,1,1,1,0,0,0]
  • 你们 昨天 跑步:[0,0,0,0,0,1,1,1]
  • 你们 又 去 爬山 又 去 跑步:[0,1,1,1,0,1,0,1]
  • 每个句子的表示 ( 使用count,即 “对应词典” 将“句子中单词”出现的位置标为“该单词在句子中出现的次数”,其它位置全标为0,“向量维度”=“词典维度” ) :
  • 我们 今天 去 爬山:[1,0,1,1,1,0,0,0]
  • 你们 昨天 跑步:[0,0,0,0,0,1,1,1]
  • 你们 又 去 爬山 又 去 跑步:[0,2,2,1,0,1,0,1]
  • 每个句子的表示 ( 使用Tf-idf,即 “对应词典” 将“句子中单词”出现的位置标为“Tfidf(w)值”,其它位置全标为0,“向量维度”=“词典维度”。我们假设以下每一个句子为一个单独的文档 ) :
  • 我们 今天 去 爬山:[1log(3),0,1log(3/2),1log(3/2),1log(3),0,0,0]
  • 你们 昨天 跑步:[0,0,0,0,0,1log(3/2),1log(3),1log(3/2)]
  • 你们 又 去 爬山 又 去 跑步:[0,2log(3),2log(3/2),1log(3/2),0,1log(3/2),0,1log(3/2)]
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-13 12:01:20  更:2021-08-13 12:02:24 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 20:24:08-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码