词嵌入推理与可视化
1. 常见词嵌入方法对比
在处理新文档时,词汇表中现有的“分类”可以更新,但添加全新的词汇会改变词汇表的大小,进而需要重新训练模型以捕捉新词汇。常见的词嵌入方法有LSA、Word2Vec和GloVe ,它们各有特点:
| 方法 | 优点 |
| ---- | ---- |
| LSA | - 训练速度更快
- 对长文档的区分和聚类效果更好 |
| Word2Vec和GloVe | - 更有效地利用大型语料库
- 词推理更准确,例如回答类比问题 |
Word2Vec的“杀手级应用”是实现语义推理,例如可以确定“Harry Potter + University = Hogwarts”这样的问题答案。而LSA的词 - 主题向量也能进行语义推理,但通常不够准确。若要让LSA接近Word2Vec推理的准确性和动态性,需要将文档拆分成句子,仅使用短短语来训练LSA模型。
2. 静态与上下文嵌入
在实际应用中,词嵌入可分为静态和上下文嵌入两种类型:
- 静态词嵌入 :可用于单个单词或n - 元组,训练完成后向量保持固定。像Word2Vec、GloVe和fastText都属于静态嵌入。例如,Word2Vec对“World Bank”和“riverbank”中的“bank”会返回相同的嵌入。
- 上下文词嵌入 :可根据前后的嵌入和单词进行更新或细化,单词出现的顺序对其很重要。例如,对于“not happy”的自然语言理解,上下文嵌入会使其嵌入更接近“unhappy”的嵌入。双向变压器神经网络(如BE
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



