LDA短文本的缺点是什么?
计算机/软件
0 164
0
该提问暂无详细描述
收藏
2021-01-17 11:35 更新 gitvrar •  435
共 1 个回答
高赞 时间
0

诸如LDA之类的概率模型利用统计推断来发现潜在的数据模式。简而言之,他们从观察中推断出模型参数。例如,有一个黑盒子,其中装有许多不同颜色的球。您从盒子中抽出一些球,然后推断出球的颜色分布。这是统计推断的典型过程。统计推断的准确性取决于您观察的次数。

现在考虑一下LDA在短文本上的问题。LDA将文档建模为混合主题,然后每个单词都从其中一个主题中提取。您可以想象一个黑盒包含大量从这样一个模型生成的单词。现在你看到的是一个只有几个字的简短文档。观察到的数据明显太少,无法推断出这些参数。这就是我们提到的数据稀疏性问题。

实际上,除了缺乏观察之外,问题还来自于模型的过于复杂。通常,一个更灵活的模型需要更多的观察来推断。Biterm主题模型试图通过降低模型的复杂性来简化主题推理。首先,它将整个语料库建模为混合主题。因为在语料库上推断混合主题比在短文档上推断混合主题容易。其次,它假设每个biterm都来自一个主题。推断biterm的主题也比推断LDA 中单个单词的主题更容易

收藏
2021-01-17 11:42 更新 同步 •  1253