数学之美:神奇的贝叶斯方法,本文是关于数学之美方面自考开题报告范文和贝叶斯和贝叶斯方法和神奇相关自考开题报告范文.
一、贝叶斯方法的提出
1.1 引言
贝叶斯方法最早是由英国数学家托马斯·贝叶斯(ThomasBayes)提出的.贝叶斯主要研究概率论,并且成功得将归纳推理法融入概率基础理论中,由此形成了贝叶斯统计理论.贝叶斯死后,他的朋友理查德·普莱斯(Richard Price)将他的著作《几率性问题得解决》(An essay towards solving aproblem in the doctrine of chances)寄给英国皇家学会,但由于当时贝叶斯方法在应用方面还有很多不完善的地方,因而很长一段时间内并没有被接受.近几年,随着人工智能的发展,尤其是机器学习(Machine Learning)以及数据挖掘(DataMining)的兴起,贝叶斯方法被逐渐完善,获得了一个更广泛的应用空间.
1.2 贝叶斯定理提出的目的
我们所说的贝叶斯公式源于他生前写的一篇论文,目的是解决关于逆向概率的问题.所谓的正向概率我们当时就已经能够计算了,如“假设桌子上有n 个红苹果,m 个黄苹果,闭上眼伸手摸一个,摸出红苹果的概率有多大”.反过来想:“如果我们事先不知道红苹果和黄苹果的比例,而通过摸出的苹果颜色来判断,我们再来推测桌子上红黄苹果的比例”,这个问题就是所谓的逆向概率问题.
二、贝叶斯定理
2.1 贝叶斯公式
贝叶斯公式如上所示,接下来简单介绍下几个概念:
1.先验概率
在没有任何前提条件下,事件A 发生的基本概率,称为A 的先验概率,我们用P(A) 表示.
2.后验概率/ 条件概率
在有另一事件B 发生后,对事件A 发生的概率重新进行评定,称为A 的后验概率,我们用P(A|B) 表示.通俗的说也就是A 在B 事件发生后再发生的概率(同样的,事件A发生之后,我们对事件B 的发生概率重新评估,称为B 的后验概率,用P(B|A) 表示)
3.联合概率
事件A 与事件B 同时发生的概率,记作P(A,B) 或是P(AB)
2.2 贝叶斯公式推导过程
(1)条件概率公式
设A,B 是两个事件,且P(B)>0, 则在事件B 发生的条件下,事件A 发生的条件概率为:
P(A|B)等于P(AB)/P(B)
(2)乘法公式
由条件概率公式得:
P(AB)等于P(A|B)P(B)等于P(B|A)P(A)
再经过移相即可得到贝叶斯公式.
2.3 贝叶斯公式的理解
我们将贝叶斯公式中的P(A|B)/P(A) 项看成是一个调节因子,因此式子可以进一步表示为:后验概率等于 先验概率调整因子.
(1)当调整因子>1,即P(A|B)>P(A),说明先验概率得到增强;
(2)调整因子等于1,即P(A|B)等于P(A),说明无论事件B 有没发生,事件A 的概率不变,即事件A 与事件B 无关;
(3)调整因子<1,即P(A|B)<P(A),说明先验概率被削弱;
下面我们举一个小例子来充分理解贝叶斯公式.这是一道关于做单选题的问题,已知现在一位同学要做4 道单选题而且知道这4 道题答案的组合为ABCD(次序未知),题目如下:
三、贝叶斯公式的应用
3.1 中文分词
中文分词在先如今的自然语言处理技术中应用很广泛,对搜索自动化、机器翻译、语音加工方面都有重要应用.而贝叶斯分词方法是其中一种常见的方法,例如我们将对以下这句话进行切词:“北京欢迎你”.这一句子我们通过简单的切词方式很容易切成“北京/ 欢迎你”而非“北京欢/ 迎你”,而计算机不知道那一种是正确的.
我们此时可以通过贝叶斯公式让计算机实现第一种更靠谱的分词方式.
假设用P(A) 来表示“北京欢迎你”这句话出现的概率,用P(B) 来表示分词方式( 即词串) 的概率.我们的目的是找到P(B|A)中最大的B 概率(即找到最靠谱的分词方式),因为P(A) 的概率我们可以在词库中找到,也就是说P(B|A)和P(B)*P(A|B)成正比,用数学式子可以表示为:
因为无论是哪一种分词方式都能产生“北京欢迎你”一句话, 所以P(A|B)可以看作是1.接下来我们只需要找到分词方式P(B) 的最大值.由于一个词串有很多词,我们假设:词串B等于“A1,A2,A3,A4,A5,…,An”
由上面的联合概率定义可以展开:
P(A1,A2,A3,...,An)等于P(A1)*P(A2|A1)*P(A3|A2,A1)*P(A4|A3,A2,A1)*...
我们通过实际生活中的例子并不难发现一篇文章中有的词出现概率极低甚至为0,由此考虑到数据稀疏的情况,我们可以假设下一个词的出现只和上一个单词的出现有关.因此可以改写为:P(A1,A2,A3,...,An)等于P(A1)*P(A2|A1)*P(A3|A2)*P(A4|A3)*...
这样我们就可以不被数据稀疏的情况所干扰了.而[“北京欢”,“迎你”] 在词库中的概率几乎为0, [“北京”,“欢迎你”] 的词串出现次数更多,所以使得“北京/ 欢迎你”这一分词方式胜出,计算机最终选择第一种分词方式作为结果输出.
3.2 垃圾邮件判别
在互联网的普及过程中,人们日常生活中多了电子邮件这一很重要的角色,它之所以成为英特网上最重要、最广泛的沟通工具原因是它以方便成本低的特性.但是随之产生的垃圾文件也越来越泛滥成灾,因此如何过滤垃圾邮件成为了世界性的难题.贝叶斯公式对于解决这一问题做出了巨大的贡献.下面我们主要来探究贝叶斯公式在垃圾邮件的鉴别方面简单的应用.
我们现在给定一封未知的邮件来判断它是否属于垃圾邮件.我们用E 来代表这封未知邮件(其中E 由N 个词组成),用来表示正常邮件,用表示垃圾邮件.
所以我们可以用数学语言和贝叶斯公式的简单推导得到,这封邮件为正常邮件概率:
同样的我们得到这封邮件是垃圾邮件的概率为:
其中P(h+) 和P(h-) 这两个先验概率,可以通过简单的计算一个电子邮件库里面正常邮件和垃圾邮件的比例来得到.而要计算P(E|h-) 就显得不那么容易,其中E 中含有N 个词d1, d2, d3, … ,dn,所以P(E|h-)等于P(d1, d2, … ,dn|h-).由于我们收集的数据库无论里面有多少封都很难找到和这封邮件一模一样的,所以在这里由于数据稀疏性影响了计算.之后我们大胆假设两个单词是完全互相独立的,而基于条件独立性假设的贝叶斯方法也称之为朴素贝叶斯方法[1].
根据朴素贝叶斯方法,上式展开可以得到:
P(E|h-)等于P(d1, d2, … ,dn|h-)等于P(d1|h-)*P(d2|h-)
因此垃圾邮件的判断就可以转化为求dn 在垃圾邮件中出现的概率.这就是依据朴素贝叶斯公式来简化的过程.这样讨论不仅方便计算而且准确性也有了大大提升.
四、结语
由此可见,贝叶斯定理的特点是通过数学概率来表达不确定的形式,用概率规则来达到学习或对其它形式的推理[2].贝叶斯方法通过其独特的不确定性知识表达方式、提高综合先验知识的学习特性成为现如今数据处理众多方法中的最重要方法之一.
近几年来随着人工智能的发展,贝叶斯的学习理论内容被广泛应用到各个领域,同时还出现了研究贝叶斯定理的机构ISBA(International Society of Bayesian Analysis).由此可知我们的生活可能因为贝叶斯定理而发生改变.因此我们要在今后的学习中多加善于思考,运用贝叶斯定理来解决实际的问题.
此文汇总:此文是关于数学之美方面的大学硕士和本科毕业论文以及贝叶斯和贝叶斯方法和神奇相关数学之美论文开题报告范文和职称论文写作参考文献资料.
参考文献:
1、 吴文俊:好奇之心,数学之美 作为中国近代史上最杰出的数学家之一,吴文俊开创了近代数学史上第一个由中国人原创的研究领域——数学机械化,他所做的一切都只有一个目标——让曾经领先世界两千.
2、 基于贝叶斯网分类器的互联网借贷风险评估 一、前言 “互联网”和大数据的时代背景下,信贷行业在数据挖掘和云计算的技术主题下呈现爆发式增长 它促进资金优化配置,缓解市场信息不对称……问题,满足中小微企业对融资服务的需求.
3、 贝叶斯公式的实际运用 【摘要】贝叶斯公式是基于先验信息的概率推理方法,在医学检验、风险管理、统计决策……领域均有广泛运用 本文以主观概率的修正和参数估计为切入点,利用实际案例阐述了贝叶斯方法的具体运用 揖关键词铱贝叶斯公式.
4、 超验之美:在信仰和自由和爱之间读阎国忠老师《攀援集》的一点体会 摘 要阎国忠老师的美学研究起步于美学界对于基督教文化乃至基督教美学的影响的漠视以及美学基本理论的研究领域的对于超越维度与终极关怀的漠视,由此出发,阎老师在长期的美学研究中重新界定、阐释了西方美学,也.
5、 以美换美:7756束头发的漂流和重生 上海松江区hana咖啡馆进门左手边,有几个大纸箱,里面用透明塑封袋包好的,是一束束黑色头发 它们的长度大多超过30厘米,拿一束掂在手里,大约是一个苹果的重量 它们来自中国的各个角落 过去三年多,有77.
6、 校长妈妈顾云美:给140个孩子一个家 2018年4月2日,本刊记者来到位于怀远县白莲坡镇茆塘村的“茆塘留守儿童之家” 伴随着不同的音乐声,时而教室传来朗朗书声,时而操场响起阵阵嬉笑,孩子们沐浴在春风里,活泼朝气,阳.