IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> [BERT]获取中文句子向量过程全记录 -> 正文阅读

[人工智能][BERT]获取中文句子向量过程全记录

目的:将数据集输入BERT,直接获取句子向量做后续训练

数据集格式:一句话一行(已过滤掉各种符号)

环境:python3.6 + tensorflow1.14

一、利用BertServer

参考:使用Bert得到句向量简单总结_介样不勾的博客-CSDN博客_bert获取句子向量

我的数据保存:

1. 安装BertServer:

pip install bert-serving-client
pip install bert-serving-server

输出:

2. 启动服务端

bert-serving-start -model_dir ./chinese_L-12_H-768_A-12/ -num_worker 2 -max_seq_len 64

?max_seq_len的取值是经过统计数据集之后得到的长度,num_worker=2是因为服务器上有两张卡是空闲的可以被我拿来用~

?3. 测试一下

import numpy as np
from bert_serving.client import BertClient
bc = BertClient()
sentence = bc.encode(['左侧 肾上腺 增粗 PET 上 异常 放射性 浓聚 考虑 为 肾上腺 转移'])
print(sentence.shape)
print(sentence)
python bert2senvec.py

?输出:

(1, 768)
[[ 2.54443586e-01  3.98949206e-01 -2.38077953e-01 -2.89931267e-01
   3.15846503e-01 -7.56896377e-01 -1.96446180e-01 -8.28849748e-02
  ...
  -2.79337615e-01  2.05526114e-01 -3.87653321e-01 -2.14681253e-01
  -7.32321620e-01  6.60689592e-01 -8.09417069e-01  6.66649314e-04]]

目前看来还比较成功

4. 批量处理一下

参考:使用bert-service获取句向量和相似度计算_马苏比拉米G的博客-CSDN博客_bert获取句向量

from bert_serving.client import BertClient
import numpy as np
import os


def get_sen_vec(file, new_name):
    bc = BertClient()
    sen_vec = []
    len = 0
    with open(file, 'r', encoding='utf-8') as f:
        for line in f.readlines():
            len += 1
            if line.strip('\n').strip() != '':
                # 如果不是空
                sen = bc.encode([line])
                sen_vec.append(sen)               
    print(f"{file}一共有{len}句话")
    np.save(new_name, sen_vec)


if __name__ == '__main__':
    dir = "file.txt"
    output_dir = "file_vec"
    get_sen_vec(file_name, new_name)

启动后运行

nohup python bert2senvec.py > run.log 2>&1 &

nohup:后台自动运行

所有提示信息输入到run.log中,输出消息如下:

nohup: ignoring input
file.txt一共有44122句话

目前看来非常成功,不知道能否顺利拿来应用,如果有后续持续更新

尝试了一下超出max_seq_len的句子如何处理,结果是输出维度依旧是(1,768)

bc = BertClient()
line = '左侧 肾上腺 增粗 PET 上 异常 放射性 浓聚 考虑 为 肾上腺 转移左侧 肾上腺 增粗 PET 上 异常 放射性 浓聚 考虑 为 肾上腺 转移左侧 肾上腺 增粗 PET 上 异常 放射性 浓聚 考虑 为 肾上腺 转移'
sentence = bc.encode([line])
print(sentence.shape)
print(sentence)

$ python bert2senvec.py 
(1, 768)
...

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-09 18:22:35  更:2022-04-09 18:26:01 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/8 4:25:39-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码