现代机器学习的终极问题都会转化为解目标函数的优化问题;在这个深度学习盛行的年代,不少同学却都只注重调参数,虽然说从现实出发,调优参数能解决项目上的实际需求问题,但是对于从业者自身的发展来说,只是停留在术业的表面层次,必须对机器学习的一些基础底层知识有进一步了解,才可以降自身的专业性再推进一步。
1、主要流派
有道是“罗马不是一天建成的”,机器学习的发展也是历经了很长时间,在这过程中形成了多个流派,而其中主要有五大流派:
- 符号主义(Symbolists):起源于逻辑学、哲学; 核心思想是认知即计算,通过对符号的演绎和逆演绎进行结果预测;代表算法是逆演绎算法(Inverse deduction),主要应用是知识图谱
- 频率学派/贝叶斯派(Bayesians):起源于统计学;核心思想是主观概率估计,发生概率修正,最优决策;代表算法是概率推理(Probabilistic inference);主要应用有反垃圾邮件、概率预测
- 联结主义(Connectionist): 起源于神经科学;核心思想是对大脑进行仿真;代表算法有反向传播算法(Backpropagation)、深度学习(Deep learning); 主要应用有机器视觉、语音识别
- 进化主义(Evolutionaries): 起源于进化生物学;核心思想是对进化进行模拟,使用遗传算法和遗传编程; 代表算是基因编程(Genetic programming);主要应用是机器人
- 行为类比主义(Analogizer): 起源于心理学;核心思想是新旧知识间的相似性;代表算法有核机器(Kernel machines)、近邻算法(Nearest Neightor);主要应用有推荐算法
今天我们对频率学派/贝叶斯派做一些简单的说明,其实频率学派(MLE)和贝叶斯学派(MAP)自身是一直有很大的争议的。
- 频率学派 – Frequentist – Maximum Likelihood Estimation (MLE,最大似然估计)
- 贝叶斯学派 – Bayesian – Maximum A Posteriori (MAP,最大后验估计)

2、二者区别
知乎上看到一个举例描述:你看打麻将的时候:只看下面有什么牌来决策的就是频率学派;除了看下面有什么牌,还考虑了这个牌是谁打出的,什么时候打出的,这个人打出所有牌友什么联系等一系列问题的就是贝叶斯学派。
另外一个例子:如果你抛硬币抛出10次正面,频率学派依据似然函数认为抛出正面的概率为1,贝叶斯派则会考虑先验信息,现实中这种情况出现的概率太低了。因此可以中和频率学派的极端假设。
往大里说,世界观就不同,频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值;贝叶斯派则认为参数是随机值,因为没有观察到,那么和是一个随机数也没有什么区别,因此参数也可以有分布,个人认为这个和量子力学某些观点不谋而合。
往小处说,频率派最常关心的是似然函数,而贝叶斯派最常关心的是后验分布。我们会发现,后验分布其实就是似然函数乘以先验分布再normalize一下使其积分到1。因此两者的很多方法都是相通的。贝叶斯派因为所有的参数都是随机变量,都有分布,因此可以使用一些基于采样的方法(如MCMC)使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布,因此更加客观,也更加无偏,在一些保守的领域(比如制药业、法律)比贝叶斯方法更受到信任。



参考地址: https://blog.csdn.net/rogerchen1983/article/details/79681463
参考地址: https://www.douban.com/group/topic/16719644/
参考地址:https://www.sohu.com/a/215176689_610300