IComac

To be a person with heart.

NLP词向量-基于主题模型的特征-PLSA模型

现实中我们一篇文档可能存在多个主题。

思想：首先根据大量的一只文档-词信息p(wj|di),训练出文档-主题p(zk|di)和主题-词项p(wj|zk)，

这样我们就可以得到文档中每个词的生成概率p(di,wj) =p(di)p(wj|di)，其中p(di)是之前我们就可以计算出来的，根据每个词的生成概率去生成文档

步骤：

（1）：按概率p(di)从多篇文档中选择一篇文档di

(2):根据选定的文档di去确定文档的主题分布

(3)：从主题分布中按照概率p(zk|di)选择一个隐含的主题类别zk

(4)：选定zk后，确定主题下的词分布

(5):从词分布中按照概率p(wj|zk)选择一个词wj

具体例子参考

https://blog.csdn.net/pipisorry/article/details/42560693

2018-08-03

#NLP #PLSA