关于 sentencepiece
https://github.com/google/sentencepiece
Unsupervised text tokenizer for Neural Network-based text generation.
SentencePiece is an unsupervised text tokenizer and detokenizer mainly for Neural Network-based text generation systems where the vocabulary size is predetermined prior to the neural model training.
SentencePiece implements subword units (e.g., byte-pair-encoding (BPE) [Sennrich et al.]) and unigram language model [Kudo.]) with the extension of direct training from raw sentences.
SentencePiece allows us to make a purely end-to-end system that does not depend on language-specific pre/postprocessing.
重复出现次数多的词组,就认为是一个词。 粒度比分词大。 模型在训练中主要使用统计指标,比如出现的频率,左右连接度等,还有困惑度来训练最终的结果。
安装
方式一:pip 安装
$ pip install sentencepiece
方式二:源码安装
$ git clone https://github.com/google/sentencepiece
$ cd sentencepiece
$ ./autogen.sh
$ ./confiture; make; sudo make install
SentencePiece分为两部分:训练模型和使用模型。 训练模型部分是用C语言实现的,可编成二进程程序执行,训练结果是生成一个model和一个词典文件。
模型使用部分同时支持二进制程序和Python调用两种方式,训练完生成的词典数据是明文,可编辑,因此也可以用任何语言读取和使用。
训练模型
$ spm_train --input=/tmp/a.txt --model_prefix=/tmp/test
$ spm_train --input='../corpus.txt' -- model_prefix='../mypiece' --vocab_size=320000 --character_coverage=1 --model_type='bpe'
参数说明
--input 指定需要训练的文本文件--model_prefix 指定训练好的模型名前缀。将会生成 <model_name>.model 和 <model_name>.vocab (词典信息)。--vocab_size 训练后词表的大小,比如 8000, 16000, 或 32000。数量越大训练越慢,太小(<4000)可能训练不了。--character_coverage 模型中覆盖的字符数,默认是0.995,中文语料设置为1。--model_type ,训练时模型的类别:unigram (default), bpe , char , or word 。- max_sentence_length 最大句子长度,默认是4192,长度貌似按字节来算,意味一个中文字代表长度为2
- max_sentencepiece_length 最大的句子块长度,默认是16
- seed_sentencepiece_size 控制句子数量,默认是100w
- num_threads 线程数,默认是开16个
- use_all_vocab 使用所有的tokens作为词库,不过只对word/char 模型管用
- input_sentence_size 训练器最大加载数量,默认为0
使用模型
命令行调用
$ echo "食材上不会有这样的纠结" | spm_encode --model=/tmp/test.model
Python 调用
import sentencepiece as spm
sp = spm.SentencePieceProcessor()
text = "食材上不会有这样的纠结"
sp.Load("/tmp/test.model")
print(sp.EncodeAsPieces(text))
参考
|