深度学习-Word Embedding的详细理解(包含one-hot编码和cos余弦相似度)

本文介绍了深度学习中的Word Embedding,包括one-hot编码和cos余弦相似度的理解。通过示例解释了one-hot编码的局限性,并探讨了词嵌入如何通过降低维度改善单词之间的相似度计算。还展示了Word Embedding如何将高维one-hot向量转换为低维连续向量,以便于捕捉词汇间的语义关系。

        这两天在费劲的研究单词嵌入Embedding,好不容易稍微懂了一点,赶紧记下来省的忘了。

ont-hot编码:

        一般在输入的时候,都会将所有的单词看作一个向量,只把当前的单词置为1,以下为几组单词表和单词向量的表示方式:

当前单词为apple

[apple,man,banana,cat......,orange,kite]

[1,0,0,0...0,0]

当前单词为cat

[apple,man,banana,cat......,orange,kite]

[0,0,0,1...0,0]

 

cos余弦相似度:

图中向量a和向量b夹角重合,余弦值等于1,表示完全相同

图中向量a和向量b夹角很小,余弦值接近1,表示很相似

图中向量a和向量b夹角很大,余弦为负,表示相似度很低

 

二维坐标系中的向量相似度计算:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值