Table of Contents
1. 分词技术
2. 语言表示(Representation)
2.1. 概念
1.Term Frequency(TF(x)):指词x在当前文本D
中的词频
$$TF(x)=\frac{N_D(x)}{N_D}$$
2.Inverse Document Frequency(IDF): N代表语料库中文本的总数,而N(x)代表语料库中包含词x的文本总数,平滑后的IDF如下:
$$IDF(x)=\log\frac{N_D+1}{N_D(x)+1}+1$$
3.TF-IDF :
$$TF-IDF(x)= TF(x)IDF(x)=\frac{N_D(x)}{N_D}(\log\frac{N_D+1}{N_D(x)+1}+1)$$