32、词嵌入推理与可视化-CSDN博客

词嵌入推理与可视化

1. 常见词嵌入方法对比

在处理新文档时，词汇表中现有的“分类”可以更新，但添加全新的词汇会改变词汇表的大小，进而需要重新训练模型以捕捉新词汇。常见的词嵌入方法有LSA、Word2Vec和GloVe ，它们各有特点：
| 方法 | 优点 |
| ---- | ---- |
| LSA | - 训练速度更快
- 对长文档的区分和聚类效果更好 |
| Word2Vec和GloVe | - 更有效地利用大型语料库
- 词推理更准确，例如回答类比问题 |

Word2Vec的“杀手级应用”是实现语义推理，例如可以确定“Harry Potter + University = Hogwarts”这样的问题答案。而LSA的词 - 主题向量也能进行语义推理，但通常不够准确。若要让LSA接近Word2Vec推理的准确性和动态性，需要将文档拆分成句子，仅使用短短语来训练LSA模型。

2. 静态与上下文嵌入

在实际应用中，词嵌入可分为静态和上下文嵌入两种类型：
- 静态词嵌入 ：可用于单个单词或n - 元组，训练完成后向量保持固定。像Word2Vec、GloVe和fastText都属于静态嵌入。例如，Word2Vec对“World Bank”和“riverbank”中的“bank”会返回相同的嵌入。
- 上下文词嵌入 ：可根据前后的嵌入和单词进行更新或细化，单词出现的顺序对其很重要。例如，对于“not happy”的自然语言理解，上下文嵌入会使其嵌入更接近“unhappy”的嵌入。双向变压器神经网络（如BE