To be a person with heart.

NLP词向量-基于主题模型的特征-PLSA模型

现实中我们一篇文档可能存在多个主题。

思想:首先根据大量的一只文档-词信息p(wj|di),训练出文档-主题p(zk|di)和主题-词项p(wj|zk),

这样我们就可以得到文档中每个词的生成概率p(di,wj) =p(di)p(wj|di),其中p(di)是之前我们就可以计算出来的,根据每个词的生成概率去生成文档

步骤:

            (1):按概率p(di)从多篇文档中选择一篇文档di

               (2):根据选定的文档di去确定文档的主题分布

               (3):从主题分布中按照概率p(zk|di)选择一个隐含的主题类别zk

               (4):选定zk后,确定主题下的词分布

               (5):从词分布中按照概率p(wj|zk)选择一个词wj

具体例子参考

https://blog.csdn.net/pipisorry/article/details/42560693

评论

© IComac | Powered by LOFTER