LDA短文本的缺点是什么？ - 问答

诸如LDA之类的概率模型利用统计推断来发现潜在的数据模式。简而言之，他们从观察中推断出模型参数。例如，有一个黑盒子，其中装有许多不同颜色的球。您从盒子中抽出一些球，然后推断出球的颜色分布。这是统计推断的典型过程。统计推断的准确性取决于您观察的次数。

现在考虑一下LDA在短文本上的问题。LDA将文档建模为混合主题，然后每个单词都从其中一个主题中提取。您可以想象一个黑盒包含大量从这样一个模型生成的单词。现在你看到的是一个只有几个字的简短文档。观察到的数据明显太少，无法推断出这些参数。这就是我们提到的数据稀疏性问题。

实际上，除了缺乏观察之外，问题还来自于模型的过于复杂。通常，一个更灵活的模型需要更多的观察来推断。Biterm主题模型试图通过降低模型的复杂性来简化主题推理。首先，它将整个语料库建模为混合主题。因为在语料库上推断混合主题比在短文档上推断混合主题容易。其次，它假设每个biterm都来自一个主题。推断biterm的主题也比推断LDA 中单个单词的主题更容易

2021-01-17 11:42 更新

同步 • 1738

理工酷

首页

圈子

资源下载

邀请回答

推荐问题

推荐资源

加入组织

理工酷

首页

圈子

资源下载

站外资源

问答

网址导航

邀请回答 换一组

推荐问题

推荐资源

加入组织

邀请回答