最近学习NLP接触到很多的概率模型,在深究其原理的时候遇到了很多很多的公式。开始觉得几年前学习的概率论是真的有用。(可惜都忘光了)
在这里记录分享一下比较基础的概念以加深自己的理解。
似然函数:
先从概率讲起,如果问一个硬币丢出正反的概率各是是多少,很多人会说1/2对吧。这是建立在我们的经验以及认知之上,所以我们给出了1/2的答案。但是有时候面对一件未知的事情,我们并不能给出一个准确的答案。
比如问你一片沾有黄油的面包丢在地上,有黄油的那面接触地面的概率是多少。你肯定不能给出一个切确的数字(因为你没有实验)。但是如果告诉你,我丢了一块面包一百次,有90次是黄油那边朝下,再问你这个问题的时候,你是不是会告诉我90% ? 其实这时候你已经做出了最大似然估计了。这个90%其实并不见得就是正确的概率,但是,随着实验次数的增加,这个数值会逼近正确的答案。
再回到似然函数,对于一件事情A,我们不知道他发生的概率,但是我们知道这个事情他要么发生,概率为p,要么不发生,概率为1-p。这个时候假设我们观测了三次 结果分别是,发生 发生 不发生。这个序列发生的概率就是 p*p*(1-p)对吧,这个式子记为y。 我们并不知道P的取值是多少,但是我们可以假设P为 0.5 ,这时候y就有个取值为0.125,再继续假设 p为0.2 ,这时候y为0.032. 这不就是一个y关于p的函数吗,如果我们把p从0.01取值到0.99,我们可以画出y的曲线。这个y就是我们要求概率p的似然函数了。y的意义就是,在我们假设的概率情况下,已观测到序列会发生的可能性。
最大似然估计:
在上面的例子中我有了函数,那么我就可以计算出这个函数取值最大时候p的值。在这里我们只要求导数就可以知道在p = 2/3 时候这个y会最大。这时候p= 2/3就是这个例子中的最大似然估计了。当然随着观测数量的变多,这个估计会发生变化。如果经过多次试验,扩充样本空间,这个p的最大似然估计会接近真实值。
我个人理解最大似然估计是这样的,因为大多数情况下,概率事件表现出来的结果倾向于这个事情最有可能发生的结果(比如买彩票一般中不了奖),所以在观测到一组概率事件的值的时候,我们直接假设因为这个序列最有可能发生,所以它观测出来是这个值。我们求未知的概率要最有可能让这组序列发生。这就是最大似然估计。
博主在学习NLP接触概率模型时,回顾概率论知识,分享似然函数与最大似然估计基础概念。通过丢硬币、面包落地等例子解释,似然函数是关于概率的函数,最大似然估计是求函数取值最大时概率的值,且随观测数量增加,估计会接近真实值。
2万+

被折叠的 条评论
为什么被折叠?



