极大似然估计MLE

如题所述

第1个回答  2022-07-26
极大似然估计(Maximum Likelihood Estimation,MLE),也称最大似然估计。统计学中,极大似然估计是重要的参数估计方法;机器学习领域,也经常看到直接使用极大似然估计以及使用极大似然思想的方法。

在这篇笔记里,主要涉及极大似然的思想和非参数极大似然估计NPMLE。

在参数估计[1]任务中,极大似然估计在 给定样本 且 已知概率分布(密度) 条件下,估计分布参数的重要方法。

(在机器学习中,会用到未知概率分布(密度)的极大似然估计,见下文)

极大似然估计的核心思想,就是估计出使样本出现概率最大的参数作为分布(密度)参数;从另一个角度,极大似然估计认为已经发生的(这些样本出现)就是是概率最大的,从而求出分布(密度)参数。

极大似然估计在绝大多数概率论或统计课程中都有详细的介绍,我这里就不赘述了,具体参见课本和网上资料。

这里贴几个还不错的网上资料:

维基百科 《极大似然估计》 [2]

《最大似然估计》 [3]

笔者在参考李航博士《统计学习方法》[4]学习最大熵模型,遇到条件概率P(Y|X)的对数似然函数(6.2.4节)时,真的是一头雾水。如下图

一直接触的极大似然估计都是已知模型,通过样本求参数。而这个似然函数,模型未知,参数未知,更不知道是怎么来的,懵圈了。。。

为了搞清楚这个问题,查阅了《统计学习方法》的参考文献《A Maximum Entropy Approach to Natural Language Processing》[5],也没有搞清楚这个问题。

后来各种关键字在google上搜,终于搜到了比较靠谱的信息,大概如下:

https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf [6]

http://www.ms.uky.edu/~mai/sta709/Owen2005.pdf [7]

http://statweb.stanford.edu/~owen/empirical/ [8]

这大概是一个经验似然(Empirical Likelihood)问题,但是有点艰深,笔者并不打算深入挖掘下去,只是从机器学习数学基础的角度搞清楚上述公式的由来。笔者看到了[4]的第一个公式,终于明白了李航博士书中公式的由来,如下。

非参数极大似然估计(Non-Parametric Maximum Likelihood Estimation,NPMLE),在大多数初级的概率论课本里是没有的。

这里根据常规MLE的假设和建模过程,来简略推导NPMLE的似然函数。下图[3]为常规MLE的假设和似然函数建模过程。

参考常规MLE,假设非参数的分布有相同的采样,但没有参数。

[1]、百度百科 《参数估计》

[2]、维基百科 《极大似然估计》

[3]、 《最大似然估计》

[4]、李航《统计学习方法》

[5]、Adam L. Berger, Stephen A. Della Pietra《A Maximum Entropy Approach to Natural Language Processing》

[6]、 https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf

[7]、 http://www.ms.uky.edu/~mai/sta709/Owen2005.pdf

[8]、 http://statweb.stanford.edu/~owen/empirical/

什么是极大似然估计(MLE)?
极大似然估计(MLE)在概率统计中用于估计未知参数。假设任务如调查数据学院学生身高分布。若身高服从正态分布,MLE前提需假设总体分布。未知参数是均值μ和方差σ²,通过200个身高样本统计估计。数学建模时,独立抽取200个身高样本,目的是估计总体正态分布的未知参数μ和σ²。概率密度函数服从高...

一文理解机器学习中的极大似然估计(MLE)
在机器学习中,比如logistic回归,我们用最大似然估计来调整模型参数,使得模型在给定数据上的预测概率最大化。实际应用中,由于数据有限,我们用训练集数据的分布来逼近真实分布,通过最小化KL散度(即交叉熵),让模型更好地拟合数据。理解极大似然估计有助于我们深入理解机器学习算法,它为我们提供了模型...

极大似然估计MLE
极大似然估计(Maximum Likelihood Estimation,MLE),也称最大似然估计。统计学中,极大似然估计是重要的参数估计方法;机器学习领域,也经常看到直接使用极大似然估计以及使用极大似然思想的方法。在这篇笔记里,主要涉及极大似然的思想和非参数极大似然估计NPMLE。在参数估计[1]任务中,极大似然估计在 给...

极大似然估计 (MLE) 及 Stata 实现
最大似然估计(MLE)在计量经济学中广泛应用。本文介绍MLE基本原理和Stata实现步骤,并通过线性回归和面板随机边界模型实证分析,展示MLE在Stata中的运用。相比于最小二乘估计和广义矩估计,MLE要求能够写出密度函数。基本思想是在已知随机向量概率分布情况下,估计参数使得从模型中抽样获得观测值概率最大。对于...

“MLE”指什么?
其拼音写作"zuì dà sì rán gū jì",在英语中的流行度相当高,达到了4718次。它主要应用于学术研究,特别是在统计学中,用于估计未知参数和数据建模。具体来说,"MLE"的扩展信息包括完全信息极大似然估计量,它简化了信息检索过程。在研究中,通过对截尾样本使用极大似然估计和模拟矩估计方法,可以...

最大似然估计(MLE)VS 最大后验概率估计(MAP)
极大似然估计(MLE)旨在寻找参数值,使数据出现的可能性最大化。以抛硬币为例,通过观察正反面次数,MLE估计正面向上的概率。取对数简化计算,有助于找到极大值。最大后验概率估计(MAP)在MLE基础上融合先验概率信息,优化目标函数。在硬币抛掷例子中,考虑先验知识,如正面向上概率偏向0.5,通过计算...

极大似然估计 —— Maximum Likelihood Estimation
极大似然估计 (MLE) 是机器学习中的重要概念,它帮助我们在概率未知的情况下,通过多次实验数据找到最能解释观测结果的概率模型。简单来说,就是寻找一个模型,使其在给定的实验数据下,预测结果出现的概率最大化。下面通过实例来直观理解。以投硬币为例,我们假设正反面概率未知,但通过大量实验发现正面...

什么是极大似然估计(MLE)?
极大似然估计的应用远不止于此。它在统计学中扮演着重要角色,如在回归分析中,最小二乘法和极大似然估计都追求模型与观测数据的紧密契合,只不过最小二乘法通过最小化误差平方和,而极大似然法则是最大化模型抽样数据的概率。同样,在分类问题中,如逻辑回归的损失函数——交叉熵,本质上也是极大似然...

极大似然估计的原理是什么?
1. 极大似然估计(Maximum Likelihood Estimation, MLE)是一种统计方法,它基于极大似然原理。2. 这个方法用于在给定观测数据的情况下评估模型参数。3. 极大似然估计的核心思想是通过观察到的数据来反推最有可能产生这些数据的模型参数。4. 具体来说,如果进行多次试验并观察结果,那么那些能够使得观察到...

【No3】极大似然估计(MLE)
最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择小概率样本,所以干脆就把这个参数作为估计的真实值。定义:设总体分布为f(x,θ),x1,x2,x3,x4...xn为该总体采用得到的样本。因为x1,x2...xn独立分布,于是,他们的联合密度函数为:一般步骤:...

相似回答
大家正在搜