作者写过一系列文章《常用数据挖掘算法从入门到精通》,其中在第五章《常用数据挖掘算法从入门到精通第五章贝叶斯分类算法》中,详细介绍了朴素贝叶斯算法的理论和应用。需要的读者可以去作者的主页查看更详细的内容。
本文主要用详细的案例来描述贝叶斯分类算法,帮助你理解。
分类分析分类分析是一种有监督的机器学习方法。要解决的主要问题是利用训练样本集获得分类函数或分类模型。分类模型可以很好地拟合训练样本集中属性集和类别之间的关系,也可以预测新样本属于哪个类别。
第二章到第四章的聚类分析是你不不知道数据点的类别标签,需要自动分类。简单来说就是一堆东西混在一起,你得分清谁跟谁一样。
分类分析本身就知道每个数据点属于哪一类,它的任务就是寻找最佳的分类方法,也就是在这种分类方法下分类效果最好,比如分类错误的概率最小,或者在最小风险下做出分类决策。
分类
贝叶斯概率——主观概率贝叶斯方法是一种研究不确定性的推理方法。不确定性往往用贝叶斯概率来表示,贝叶斯概率是一种主观概率。通常的经典概率代表的是事件的物理特征,是不以人的意识为转移的客观存在,而贝叶斯是人的认知和个人的主观性。估计随着个人主观认识的变化而变化。例如,一个投资者认为"购买某种股票可以获得高回报是0.6,其中0.6是投资者的个人信念基于他多年的股票业务经验和当时的股票市场。
贝叶斯概率具有主观性,其估计依赖于先验知识的正确性和后验知识的丰富性和准确性。因此,贝叶斯概率可能经常随着个人持有的不同信息而变化。
概率基础知识关于概率更详细的知识,请参考作者■以前的文章《想要学人工智能,你必须得先懂点统计学(3)概率与概率分布》。
联合概率:设a和b是两个随机事件,a和b同时发生的概率称为联合概率,记为p(ab)。
条件概率:在b事件条件下,a事件的概率称为条件概率,记为:p(a|b),p(a|b),p(ab)/p(b)。
乘法定理:p(ab)p(b)p(a|b)p(a)p(b|a)
先验概率p(wi)
先验概率是从样本的先验知识中获得的,而样本的先验知识可以从训练集样本中估计出来。它叫做"先验的"因为它没有考虑任何其他因素。
例如,两种类型的10个训练样本,两个属于w1,八个属于w2,则先验概率p(w1)为0.2,p(w2)为0.8。
类别条件概率p(x|wi)
wi-class出现条件下样本x的概率。
后验概率p(wi|x)
对于某个样本x,属于wi类的概率,i1,...,c。
如果用先验概率p(wi)来确定待分类样本x的类别,依据显然非常不足,必须用条件概率密度p(x|wi)来修正。
根据样本x的先验概率和类别条件概率密度函数p(x|wi),用贝叶斯公式修正模式样本所属类别的概率,称为后验概率p(wi|x)。
贝叶斯决策理论要求:
各种总体的概率分布是已知的。
要决定的类别的数量c是固定的。
贝叶斯公式,也称为贝叶斯规则
贝叶斯规则
贝叶斯分类规则:具有后验概率的分类
贝叶斯分类规则
贝叶斯分类案例
购车客户培训套件
计算先验概率和类别条件概率
计算后验概率
因为p(yes|x)gtp(no|x),所以可以看出,对于样本x,朴素贝叶斯分类预测客户会买车。
如果你想了解更多的算法及其实战,可以去作者的主页来查看这一系列的文章,这些文章都已更新。
大数据是我的主要研究方向之一,我也在考相关领域的研究生,所以我来回答一下这个问题。
要想实践数据分析思维,首先要了解数据分析的目的和意义,以及在当前大数据时代,采用什么样的数据分析方法。数据分析思维的培养和编程思维的培养类似,都需要完成大量的实验,在实验中逐渐形成自己的认识。与此同时,具体的数据分析方法也可以在实验中培养。
数据分析思维的培养要从三个层面进行,一是分析数据背后的规律;第二是数据在不同场景下的价值;三是判断数据的真实性。从数据应用的整个价值链来看,数据分析处于中间(数据采集、数据分析、数据应用),数据分为两部分。分析通常不是最终目的,数据应用才是目的。
首先,了解数据背后的规律。所谓规律,既可以理解为因果关系,也可以理解为相关关系。在小数据时代,他们更关心因果关系,而在大数据时代,他们更关心相关性。如果说因果关系是线性的,那么相关性更像是一个网络结构。。发现数据背后的规律是数据价值的主要操作之一。目前常用的方法有统计学和机器学习。
接下来,让我们让我们看看场景数据分析。数据分析通常与场景密切相关。不同的场景往往需要不同的分析方法,比如结构化数据分析、半结构化数据分析、非结构化数据分析。此外,场景数据分析有一定的行业背景知识很重要。所以很多人说数据分析要从行业知识入手。
最后,看数据的真实性。与小数据不同,大数据往往充斥着大量真假难辨的数据。数据分析的一个重要意义就是分析目标数据的真实性,这在生产环境中,尤其是在安全生产领域具有非常重要的现实意义。因为错误的数据往往会导致自动化系统的误判,而数据分析可以在一定程度上避免系统的误判,从而保证系统的稳定性。
本人从事互联网行业多年,目前在读计算机专业研究生。我的主要研究方向是大数据和人工智能。我会陆续写一些互联网技术方面的文章,有兴趣的朋友可以关注我。我相信我一定会有所收获。
如果你有关于互联网,大数据,人工智能,或者考研的问题,可以在评论区留言!