本文已参与「新人创作礼」活动
1.交叉验证
交叉验证:测试模型泛化能力
解释:得到的拟合程度->模型的真实水平->分类能力
变换各种方式测试模型->泛化能力
交叉验证的种类:
|
简单的训练集和测试集切分 |
标准K折 |
分层K折 |
留一法交叉验证 |
随机排列交叉验证 |
实现方式 |
直接划分 |
将数据分成n段,训练K次,每次训练取一段作为测试测试数据,n-1段作为训练数据 |
将数据分成K段,训练K次,每次训练取一段作为测试测试数据,K-1段作为训练数据 |
测试集只有一个样本,其余作为训练集,对所有样本进行训练 |
随机划分多次 |
效果 |
测试集覆盖范围较少(一般为20%),这种情况有漏洞 |
测试样本全覆盖,但仍然受到取样的影响 |
每折里不同类别的分布与整体分布一样,充分训练,充分测试,受取样的影响较小 |
减少取样带来的偏差,模型的边界会尽可能平滑,样本数过多训练和测试的时间会很大 |
增大了取样的随机性,减少了取样带来的偏差 |
2.贝叶斯实现垃圾邮件分类
流程:
(1)算概率表(条件概率):正常邮件中每个词出现的概率P(词|正)和垃圾邮件中每个词出现的概率P(词|垃)。
(2)贝叶斯推导:将一封新邮件拆分为词的集合
=P(词的集合)P(垃⋅词的集合)=P(词的集合⋅(正或垃))P(垃)⋅P(词的集合∣垃)=P(词的集合⋅正)+P(词的集合⋅垃)P(垃)⋅P(词的集合∣垃)=P(正)P(词的集合∣正)+P(垃)P(词的集合∣垃)P(垃)⋅P(词的集合∣垃)=P(垃)⋅P(词1∣垃)⋅P(词2∣垃)⋅⋅⋅P(词n∣垃)+P(正)⋅P(词1∣正)⋅P(词2∣正)⋅⋅⋅P(词n∣正)P(垃)⋅P(词1∣垃)⋅P(词2∣垃)⋅⋅⋅P(词n∣垃)
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END