这两天在费劲的研究单词嵌入Embedding,好不容易稍微懂了一点,赶紧记下来省的忘了。
ont-hot编码:
一般在输入的时候,都会将所有的单词看作一个向量,只把当前的单词置为1,以下为几组单词表和单词向量的表示方式:
当前单词为apple
[apple,man,banana,cat......,orange,kite]
[1,0,0,0...0,0]
当前单词为cat
[apple,man,banana,cat......,orange,kite]
[0,0,0,1...0,0]
cos余弦相似度:
图中向量a和向量b夹角重合,余弦值等于1,表示完全相同
图中向量a和向量b夹角很小,余弦值接近1,表示很相似
图中向量a和向量b夹角很大,余弦为负,表示相似度很低
二维坐标系中的向量相似度计算:

本文介绍了深度学习中的Word Embedding,包括one-hot编码和cos余弦相似度的理解。通过示例解释了one-hot编码的局限性,并探讨了词嵌入如何通过降低维度改善单词之间的相似度计算。还展示了Word Embedding如何将高维one-hot向量转换为低维连续向量,以便于捕捉词汇间的语义关系。
1万+

被折叠的 条评论
为什么被折叠?



