Model | 优点 | 不足 |
Weighted?Words | ·易于计算 ·易于计算文档间相似度 ·提取说明性词汇的basic?metric ·可以处理未知词 | ·不能捕获词语位置信息(句法) ·不能捕获词语意义(语义) ·常用词影响结果(am, is) |
TF-IDF | ·易于计算 ·易于计算文档间相似度 ·提取说明性词汇的basic?metric ·常用词不影响结果 | ·不能捕获词语位置信息(句法) ·不能捕获词语意义(语义) |
Word2Vec (Google, 2013) | ·可以捕获词语位置信息(句法) ·可以捕获词语意义 | ·不能捕获词语多义性 ·不能捕获语料库外的词汇 |
GloVe(Pre-Trained) | ·可以捕获词语位置信息(句法) ·可以捕获词语意义 ·在大规模语料库上训练 | ·不能捕获词语多义性 ·不能捕获语料库外的词汇 ·内存开销大 |
GloVe(Trained) (stanford, 2014) | ·词向量可快速捕获向量空间中的次线性关系(性能优于Word2vec) ·常用词权重低 | ·不能捕获词语多义性 ·不能捕获语料库外的词汇 ·内存开销大 ·需要大规模语料库用语训练 |
FastText (facebook, 2016) | ·可以处理稀有词 ·利用字符级别n-gram处理语料库外的词语 | ·不能捕获词语多义性 ·内存开销大 ·相比GloVe和Word2Vec,计算成本高 |
Contextualized Word Representations (ELMo, NAACL18 Best Paper, 2018) | ·可以捕获单词在文中的含义(结合上下文,处理一词多义) | ·内存开销大 ·显著提高下游任务性能,但计算成本高 ·LSTM和feedforward?layers需要额外word?embedding ·不能捕获语料库外的词汇 ·只处理句子或文本级别 |