[人工智能] TF-IDF与TfidfVectorizer

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> TF-IDF与TfidfVectorizer -> 正文阅读

[人工智能]TF-IDF与TfidfVectorizer

1 TF

Term Frequency :衡量一个单词在一个文档中出现的频率，即==该单词在一个文档中出现的次数/该文档中总共的单词数。

在这里插入图片描述

2 IDF
Inverse Document Frequency：当一个单词在跨文档中出现多次时，该参数用来降低其作用。一个单词出现在很少的文档中时，该单词有较高的IDF分。反之，如果一个单词在各文档中出现频繁，该单词就有低的IDF分，如英语单词‘a’、‘is’。

IDF==文档的总数量/该单词出现的文档数量。

在这里插入图片描述

3 TF-IDF

TF-IDF倾向于过滤掉常见的词语，保留重要的词语。TF-IDF分数越高，表示单词在一个文档中出现频繁（TF高），但在跨多文档中出现不是很频繁（IDF高）。
在这里插入图片描述

4 CountVectorizer

CountVectorizer 类会将文本中的词语转换为词频矩阵TF。也就是通过分词后将所有的文档中的全部词作为一个字典（就是类似于新华字典这种）。然后将每一行的词用0，1矩阵来表示。并且每一行的长度相同，长度为字典的长度，在词典中存在，置为1，否则，为0。

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(min_df=1)

corpus = [ ‘This is the first document.’,
‘This is the second second document.’,
‘And the third one.’,
‘Is this the first document?’,
]
X = vectorizer.fit_transform(corpus)
feature_name = vectorizer.get_feature_names()

print (X)
print (feature_name)
print (X.toarray())

5 TfidfVectorizer

在TfidfVectorizer中通过fit_transform或fit来实现，词汇表建立，以及词汇表中词项的idf值计算，当然fit_transform更进一步将输入的训练集转换成了VSM矩阵形式。TfidfVectorizer的transform函数用于对测试文本进行向量化表示。表示的过程中用到训练得到的词汇表以及词项的idf值，而tf值由测试文本自身决定，因此一篇和多篇对于单篇文本向量表示没有影响。

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(sublinear_tf=True, min_df=0.05,
ngram_range=(1, 2),
stop_words=‘english’,max_features=10)#

fitted_vectorizer = tfidf.fit(train_data_tfidf[‘msgs’])
tfidf_vectorizer_vectors = fitted_vectorizer.transform(train_data_tfidf[‘msgs’]).toarray()

5.1 参数：