32、词嵌入推理与可视化

词嵌入推理与可视化

1. 常见词嵌入方法对比

在处理新文档时,词汇表中现有的“分类”可以更新,但添加全新的词汇会改变词汇表的大小,进而需要重新训练模型以捕捉新词汇。常见的词嵌入方法有LSA、Word2Vec和GloVe ,它们各有特点:
| 方法 | 优点 |
| ---- | ---- |
| LSA | - 训练速度更快
- 对长文档的区分和聚类效果更好 |
| Word2Vec和GloVe | - 更有效地利用大型语料库
- 词推理更准确,例如回答类比问题 |

Word2Vec的“杀手级应用”是实现语义推理,例如可以确定“Harry Potter + University = Hogwarts”这样的问题答案。而LSA的词 - 主题向量也能进行语义推理,但通常不够准确。若要让LSA接近Word2Vec推理的准确性和动态性,需要将文档拆分成句子,仅使用短短语来训练LSA模型。

2. 静态与上下文嵌入

在实际应用中,词嵌入可分为静态和上下文嵌入两种类型:
- 静态词嵌入 :可用于单个单词或n - 元组,训练完成后向量保持固定。像Word2Vec、GloVe和fastText都属于静态嵌入。例如,Word2Vec对“World Bank”和“riverbank”中的“bank”会返回相同的嵌入。
- 上下文词嵌入 :可根据前后的嵌入和单词进行更新或细化,单词出现的顺序对其很重要。例如,对于“not happy”的自然语言理解,上下文嵌入会使其嵌入更接近“unhappy”的嵌入。双向变压器神经网络(如BE

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值