关闭
当前位置:首页 - 美国在线 - 正文

黎婉华,朴素贝叶斯算法的Python完成-能瞬间提升气质的单品,时尚猎手的捕获教程

admin 2019-05-12 396°c

朴素贝叶斯分类算法被广泛应用于文本分类场景中、包括垃圾邮件、互联网新闻等分类使命,归于有监督学习算法。它独立考量每一维度特征被分类的条件概率,然后归纳这些概率对其地点的特征向量做出分类猜测,即“假定各个维度上的特征被分类的条件概率之间是彼此独立的”,该假定使得模型猜测需求核算的参数规划从指数级降白菜怎样做好吃至线性级,极大地提高核算功率。该算法在模型练习过程中没考虑各个维度特征的彼此联络,关于关联性较强的数据特征分类效果较差。

朴素贝叶斯的优缺陷煮鸡蛋要多久

长处:数据集较小时模型体现很好,合适增量式练习、多分类使命。

缺陷:对李易峰杨幂输入数据的表达形式很灵敏,因为其“朴素”的特色,也会带来一些准确率上的丢失。


MultinomialNB算法的一般流程

  1. 数据收集:运用NumPy与pandas以及sklearn.datasets等办法获取或处理数据集
  2. 数据预处理:测验集、练习集构建,进行数据标准化处理,提取文本特征向量矩阵。
  3. 模型练习:MultinomialNB算法
  4. 模型测验:运用测验集,验证模型18183功能。
  5. 模型优化:运用穿插验证法优化K值取值。

MultinomialNB(多项式模型)的Python完结

1. 数据收集

该数据集包括散布在20个不同新闻组中的18846篇文档,

数据来历:from skle黎婉华,朴素贝叶斯算法的Python完结-能瞬间提高气质的单品,时髦猎手的捕获教程arn.datasets import fetch_20newsgroups

数据标签:

'alt.atheism', 'comp.graphics', 'comp.os.ms-wiformatndows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.ma黎婉华,朴素贝叶斯算法的Python完结-能瞬间提高气质的单品,时髦猎手的捕获教程c.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.黎婉华,朴素贝叶斯算法的Python完结-能瞬间提高气质的单品,时髦猎手的捕获教程space', 'soc.religion.christian', 'talk.银行利息怎样算politics.guns', 'talk.politics.党金国mideast', 'tal13k.politics.misc', 'talk.religion.misc'

数据样例:

From: Alexander Samuel McDiarmid

Subject: driver ??

Organization: Sophomore, Mechanical 探戈Engineering, Carnegie M不稳定的棱镜ellon, Pitt芙蓉姐姐sburgh, PA

Lines: 15

NNTP-Posting-Host: po4.andrew.cm黎婉华,朴素贝叶斯算法的Python完结-能瞬间提高气质的单品,时髦猎手的捕获教程u.edu

1) I have an old Jasmine drive which I can黎婉华,朴素贝叶斯算法的Python完结-能瞬间提高气质的单品,时髦猎手的捕获教程not use with my new system ……

运用sklearn.datasets.fetch_20newsgroups(新闻数据抓取器),加载数女贞子的成效与效果据集,Python完结如下:

2. 数据预处理

运用 sklearn.model_selection.train_test_split办法,将整个数据集随机抽取80%作为练习集、剩下的20%作为测验集,而且进行数据标准化处理,且重复运行时,练习集与测验集不发生改变,Python完结如下:

测验运用四种办法完结文本特征向量的提取,并检查不同文本特征提取办法对算法分类识别率的影响:

  • CountVectorizer提取特征向量。
  • CountVectorizer提取特征向量且去掉停词。
  • TfidfVectorizer提取文本特征向量。
  • TfidfVectorizer提取文本特征向量且去掉黎婉华,朴素贝叶斯算法的Python完结-能瞬间提高气质的单品,时髦猎手的捕获教程停词。

CountVectorizer只考虑每种词汇在练习文本中呈现的频率,而TfidfVectorizer除了考量某词汇在练习文本中呈现的频率之外,能够下降呈现频率高没有意义的词汇呈现带来的影响,练习文本的数量越玉露多,TfidfVectorizer办法更有优势,Python完结如下:

3. 模型练习及测验

测验集验证成果如下:

扩展:生成模型和判别模型的差异

有监督机器学习办法能够分为生成模型和判别模型。

生成模型

无量样本 -张杨果而> 概率密度模型 = 发生式模型 -> 猜测

生成式模型求得联合概率P(Y,X),关于未见示例X,需求求出X与不同标签之间的联合概率散布,然后概率大的取胜。

  • 常见生成芳芳模型:朴素贝叶斯、KNN、高斯混合模型、隐马尔可夫模型、约束玻尔兹曼哪个vpn好用机、文档主题生成模型(LDA)
  • 生成模型举例:使用生成模型是依据哈士奇的特征首要学习洛凝出一个哈士奇的模型,然后依据边境牧羊犬的特征学习出一个边境牧羊犬的模型,然后从这只羊中提取特征,放到哈士奇羊模型中看概率是多少,在放到边境牧羊犬模型中看概率是多少,哪个概率大便是哪种种类的狗,求的是P(X,Y),即联合概率。

判别模型

有限样本 -> 判别函数 = 判别式模型 -> 猜测

关于判别式模型来说求孕妈妈能够用的护肤品得P(Y|X),对未见示例X,依据P(Y|X)能够求得符号Y,即能够直接判别出标签。

  • 常见判别模型:K-近邻、决策树、SVM、线性判别分析(LDA)、支撑向量机、线性回归、传统的神经网络、逻辑斯蒂回归。
  • 判别模型举例:要确认一个狗是哈士奇仍是边境牧羊犬,用判别模型的办法是黎婉华,朴素贝叶斯算法的Python完结-能瞬间提高气质的单品,时髦猎手的捕获教程从练习集中学习到模型,然后经过提取这只狗的特征来直接猜测出这只狗的种类(正例)概率,其依据X“判别”Y,求的是P(Y|X),即后验概率。

判别式模型是依据一只狗的特征能够直接给出这只狗种类(正例)的概率(比方 概率为0.8),而生成式模型是要都试一试((X,Y), (X,Y), (X,Y),…),概率最大的那个便是这只狗的种类成果。

后续会持续共享线性、决策树、SVM、随机森林、K均值聚类等算法介jbdxbl绍及Python完结,若对你有所协助,欢迎我们谈论、留言、重视,感谢支撑!

标签: 未定义标签
admin 14文章 0评论 主页

  用户登录