从One-Hot到Embedding：NLP中单词编码的进化之路

最新推荐文章于 2026-06-15 09:44:57 发布

原创

最新推荐文章于 2026-06-15 09:44:57 发布 · 886 阅读

标签

#NLP #单词编码 #Embedding #深度学习

1. 从“独一份”到“找邻居”：为什么One-Hot编码不够用了？

如果你刚开始接触自然语言处理（NLP），第一个遇到的“拦路虎”很可能就是怎么把文字变成计算机能懂的数字。这就像你要教一个外星人认识中文，你得先给它一本字典，然后告诉它每个字对应一个唯一的编号。最直接、最笨的办法，就是“独一份”编码，也就是我们常说的One-Hot编码。

我刚开始做项目那会儿，用的就是这种方法。比如我的词典里只有“猫”、“狗”、“鱼”三个词。那么“猫”的编码就是 [1, 0, 0]，“狗”是 [0, 1, 0]，“鱼”是 [0, 0, 1]。你看，每个词都独占一个位置，像皇帝一样，在自己的维度上是“1”，其他地方全是“0”。这种方法确实有它的好处：计算方便，因为向量里大部分是0，做某些运算很快；表达清晰，每个词的身份绝对唯一，不会混淆。

但是，等你真把项目跑起来，数据量一上去，坑就来了。我印象最深的是做一个新闻分类任务，词典大小有10万个词。这意味着每个词都要用一个10万维的向量来表示，其中只有1个位置是1，其他99999个位置都是0。这带来的问题太明显了：

第一，资源浪费到令人发指。你想想，存储和计算一个几乎全是0的向量，是不是感觉大部分的算力和内存都在“空转”？尤其是在深度学习模型里，第一层如果接一个10万维的One-Hot向量，那参数数量会爆炸，模型根本训练不动。

第二，也是更本质的问题，它认为所有词都是“孤岛”。在One-Hot的世界里，“猫”和“狗”的向量 ([1,0,0] 和 [0,1,0]) 之间的“距离”，和“猫”与“飞机”的向量 ([1,0,0] 和 [0,0,1]) 之间的距离，是完全一样的（计算余弦相似度都是0）。这显然不符合我们的常识。“猫”和“狗”都是宠物、都是动物，它俩的关系，理应比“猫”和“飞机”近得多。但One-Hot编码完全丢失了这种语义上的亲疏关系。

所以，One-Hot更像是一个“户籍管理系统”，它只负责给每个词一个唯一的身份证号，但不关心谁和谁是亲戚、谁和谁是朋友。对于需要理解语义的NLP任务来说，这就像蒙着眼睛猜东西，只能靠瞎碰。

2. Embedding登场：把单词映射到“语义空间”

正是为了解决One-Hot的这些痛点，Embedding（嵌入）技术成为了NLP的基石。你可以把它理解为一个“智能翻译官”，它的任务不是给单词发身份证，而是把每个单词都送到一个精心设计的“语义空间”里，变成一个稠密的低维向量。

这个“语义空间”很有意思。它不是我们熟悉的物理三维空间，而是一个可能几十维、几百维的数学空间。在这个空间里，向量的每一个维度不再代表“是不是某个词”，而是代表某种抽象的“语义特征”。比如，某个维度可能代表“词性”（名词、动词），另一个维度可能代表“情感倾向”（积极、消极），再一个维度可能代表“是否与动物相关”……这些特征是模型自己从海量数据中学出来的，我们人类可能无法直接解释每个维度的具体含义，但模型知道怎么用。

关键来了：在这个语义空间里，语义相近的词，它们的向量在空间中的位置也会很接近。比如，“国王”和“王后”的向量会很近，“男人”和“女人”的向量也会很近。更有趣的是，这个空间还能做“向量运算”。一个经典的例子是：vec(“国王”) - vec(“男人”) + vec(“女人”) ≈ vec(“王后”)。你看，模型通过向量捕捉到了“性别”和“王室”这些抽象关系。

那么，这个神奇的“翻译官”是怎么工作的呢？在技术上，Embedding通常就是一个可训练的查找表（Lookup Table），或者直接理解为一个全连接层。假设我们的词典还是10万个词，但我们不想用10万维的向量了。我们可以定义一个维度，比如300维。这个Embedding层本质上就是一个大小为 [100000, 300] 的矩阵。矩阵的每一行，就对应一个词的300维嵌入向量。

当模型遇到单词“猫”时（假设它在词典中的索引是42），它不再使用那个10万维的、只有第42位是1的One-Hot向量。而是直接去这个Embedding矩阵里，把第42行“拿出来”。这一行，就是一个300维的、稠密的、充满浮点数的向量。这个过程极其高效，就是一次简单的数组索引操作。

# 一个简单的PyTorch示例，展示Embedding层如何工作
import torch
import torch.nn as nn

# 假设词典大小为10000，我们想得到256维的嵌入向量
embedding_layer = nn.Embedding(num_embeddings=10000, embe

最低0.47元/天解锁文章