NLP学习笔记1

最新推荐文章于 2025-11-25 21:59:09 发布

原创最新推荐文章于 2025-11-25 21:59:09 发布 · 839 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#nlp #自然语言处理 #概率论 #信息论

learning 专栏收录该内容

0 篇文章

订阅专栏

15/10/16正式开始一名NLPer的攻城狮升级路，路漫漫，加把劲，变得更优秀，为了自由。要学的东西实在太多，一点一点来。开个blog留个爪印mark一下，很苦很孤独，但我相信你。

主要学习材料目前是《统计自然语言处理》（简称LB）、Michael Collins在Coursera的公开课以及一系列ACL的Best Paper用来长长见识。
最近在看LB的第二章预备知识的部分，主要讲的是概率论和信息论。概率论是基础知识，信息论以前接触的表少。
概率论部分个人认为LB侧重点是联合概率和条件概率，因为在信息论中各种熵的部分用到了很多。

概率论

联合概率P(A,B)就是 $P(A \cap B)$ , $P(AB)$ 。只是联合概率强调以离散型随机变量取值作为事件A、B

首先是条件概率，定义为给定B时A(也即已知B发生的情况下A发生)的概率

P (A | B) = P ( A \cap B ) P ( B )

$P(A|B) = \frac{P(A \cap B)}{P(B)}$ 那么

P (A \cap B) = P (A | B) P (B) = P (B | A) P (A)

$P(A \cap B) = P(A|B)P(B) = P(B|A)P(A)$ 进而可推广至

P (A 1 \cap A 2 \cap . . . A n) = P (A n | \cap n i = 1) . . . . P (A 3 | A 2 \cap A 1) P (A 2 | A 1) P (A 1)

$P(A_1 \cap A_2 \cap ... A_n) = P(A_n | \cap_{i=1}^n)....P(A_3|A_2 \cap A_1)P(A_2|A_1)P(A_1)$

有没有一点马尔科夫链的感觉？

顺道讲了下贝叶斯法则和决策的概念, 法则用来计算条件概率，决策处理模式分类。
由全概率公式

P (A) = \sum i P (A | B i) P (B i)

$P(A) = \sum_{i}P(A|B_i)P(B_i)$ 推得

P (B j | A) = P ( A | B j ) P ( B j ) \sum i P ( A | B i ) P ( B i )

$P(B_j|A) = \frac{P(A|B_j)P(B_j)}{\sum_{i}P(A|B_i)P(B_i)}$
决策就是：
如果

P (w i | x) = m a x P (w j | x)

$P(w_i|x)=maxP(w_j|x)$ 那么

wi∈x $w_i \in x$

随后就是先介绍随机变量，然后引入基于随机变量的条件和联合概率分布。

信息论

熵是信息论的基本概念，定义以概率为基础：

H (X) = - \sum x \in R p (x) l o g 2 p (x)

$H(X) = -\sum_{x \in R}p(x)log_2 p(x)$ 熵也称自信息，自己理解表示描述一个随机变量的不确定性所需的平均信息数量。越大，不确定性越大，越难描述。关于未知分布最合理的推断应该是是符合一直只是最不确定（熵最大）的推断。

博客等级

码龄13年

2
原创

0
点赞

1
收藏

0
粉丝

关注

私信

TA的精选

热 2001-2015ACL历年最佳论文（Best Paper Award）打包下载
2458 阅读

TA的历史创作历程

分类专栏

ACL 1篇
learning

上一篇：: 2001-2015ACL历年最佳论文（Best Paper Award）打包下载

· AI 阅读助手

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。