现实中我们一篇文档可能存在多个主题。
思想:首先根据大量的一只文档-词信息p(wj|di),训练出文档-主题p(zk|di)和主题-词项p(wj|zk),
这样我们就可以得到文档中每个词的生成概率p(di,wj) =p(di)p(wj|di),其中p(di)是之前我们就可以计算出来的,根据每个词的生成概率去生成文档
步骤:
(1):按概率p(di)从多篇文档中选择一篇文档di
(2):根据选定的文档di去确定文档的主题分布
(3):从主题分布中按照概率p(zk|di)选择一个隐含的主题类别zk
(4):选定zk后,确定主题下的词分布
(5):从词分布中按照概率p(wj|zk)选择一个词wj具体例子参考
https://blog.csdn.net/pipisorry/article/details/42560693