语言表示

1. 分词技术

2. 语言表示(Representation)

2.1. 概念

1.Term Frequency(TF(x)):指词x在当前文本D
中的词频
$$TF(x)=\frac{N_D(x)}{N_D}$$
2.Inverse Document Frequency(IDF): N代表语料库中文本的总数,而N(x)代表语料库中包含词x的文本总数,平滑后的IDF如下:

$$IDF(x)=\log\frac{N_D+1}{N_D(x)+1}+1$$

3.TF-IDF :
$$TF-IDF(x)= TF(x)IDF(x)=\frac{N_D(x)}{N_D}(\log\frac{N_D+1}{N_D(x)+1}+1)$$

3. 参考资料


如果你觉得这篇文章对你有帮助,不妨请我喝杯咖啡,鼓励我创造更多!