0
诸如LDA之类的概率模型利用统计推断来发现潜在的数据模式。简而言之,他们从观察中推断出模型参数。例如,有一个黑盒子,其中装有许多不同颜色的球。您从盒子中抽出一些球,然后推断出球的颜色分布。这是统计推断的典型过程。统计推断的准确性取决于您观察的次数。
现在考虑一下LDA在短文本上的问题。LDA将文档建模为混合主题,然后每个单词都从其中一个主题中提取。您可以想象一个黑盒包含大量从这样一个模型生成的单词。现在你看到的是一个只有几个字的简短文档。观察到的数据明显太少,无法推断出这些参数。这就是我们提到的数据稀疏性问题。
实际上,除了缺乏观察之外,问题还来自于模型的过于复杂。通常,一个更灵活的模型需要更多的观察来推断。Biterm主题模型试图通过降低模型的复杂性来简化主题推理。首先,它将整个语料库建模为混合主题。因为在语料库上推断混合主题比在短文档上推断混合主题容易。其次,它假设每个biterm都来自一个主题。推断biterm的主题也比推断LDA 中单个单词的主题更容易
收藏