如何训练贝叶斯分类器？ - 问答

以下回答将假设你正在使用朴素贝叶斯。 1.数据预处理举个例子，你可能要考虑拼写错误的单词。一些垃圾邮件可能将金钱拼写为m0ney（第二个字符应该为'o'）。做到这一点的方法是使用单词的一些相似函数，如编辑距离。 2.估计后验概率朴素贝叶斯最常见的问题之一是某些词可能具有零概率。如果是这种情况该怎么办？解决该问题的一种常用方法是添加人为的先验。但是，也有有更好更复杂的方法可以执行此操作，你可能需要考虑其中的一些方法来改进模型。 3.交叉验证提取特征的方法可能有很多，预处理数据的方法也有很多，但是哪种方法效果最好呢？你需要做交叉验证。 4.增强和混合模型如果你完成上述所有操作，则模型的预测错误率应该会很低，但是如何做得更好呢？你可以尝试增强模型或混合模型。我没有在垃圾邮件分类器上尝试过这些方法，但是它们通常可以显着提高模型性能。 5.其他上面的这些步骤是最基础的。你还可以尝试更多其他类别的方法。比如，考虑一下语义，语法，电子邮件，链接，附件等中的嵌入图片。这些是当你深入研究并真正理解你的问题，而不只是应用标准的ML算法时需要考虑的。

2021-01-15 17:18 更新

Lisa • 1796

有个别重复字

饮水思源 • 9987 2021-01-15 23:50

理工酷

首页

圈子

资源下载

邀请回答

推荐问题

推荐资源

加入组织

理工酷

首页

圈子

资源下载

站外资源

问答

网址导航

邀请回答 换一组

推荐问题

推荐资源

加入组织

邀请回答