大话Word2vec

本文深入探讨了词嵌入技术中的Skip-gram和CBOW模型的区别,解释了这两种模型如何通过上下文预测词或词预测上下文来实现词向量的生成。同时,文章提供了Word2Vec的训练代码示例,并展示了如何通过去除停止词来优化模型结果,最后介绍了TF-idf和TextRank算法在文本处理中的应用。

Skip-gram和CBOW简单区别

Skip-gram:词预测上下文
CBOW:上下文预测词

  1. 输入一个词,预测下一个词
    在这里插入图片描述
  2. 一个词预测多个词
    在这里插入图片描述

CBOW 多个词预测一个词
在这里插入图片描述
3. 欧氏距离在这里插入图片描述
5. 余弦相似度
在这里插入图片描述

TF-idf

在这里插入图片描述
在这里插入图片描述
其中nd等于文档总数,df(t)为包含该词条的文档数
例子:
在这里插入图片描述
#训练word2vector代码

!echo '数据集行数:'
!wc -l 'bioCorpus_5000.txt'
!echo '======'
!echo '数据集前10行'
!head -10 'bioCorpus_5000.txt'

### 2.2. Word2vec 训练

import nltk
from gensim.models import word2vec

# 用生成器的方式读取文件里的句子
# 适合读取大容量文件,而不用加载到内存
class MySentences(object):
    def __init__(self, fname):
        self.fname = fname
 
    def __iter__(self):
        for line in open(self.fname,'r'):
            yield line.split()

# 模型训练函数
def w2vTrain(f_input, model_output):         
    sentences = MySentences(DataDir+f_input)
    w2v_model = word2vec.Word2Vec(sentences, 
                                  min_count = MIN_COUNT, 
                                  workers = CPU_NUM, 
                                  size = VEC_SIZE,
                                  window = CONTEXT_WINDOW
                                 )
    w2v_model.save(ModelDir+model_output)


# 训练
DataDir = "./"
ModelDir = "./"
MIN_COUNT = 4
CPU_NUM = 2 # 需要预先安装 Cython 以支持并行
VEC_SIZE = 20
CONTEXT_WINDOW = 5 # 提取目标词上下文距离最长5个词

f_input = "bioCorpus_5000.txt"
model_output = "test_w2v_model"

w2vTrain(f_input, model_output)

### 2.3. 查看结果

# 加载模型
w2v_model = word2vec.Word2Vec.load(ModelDir+model_output)

w2v_model.most_similar('body') # 结果一般

w2v_model.most_similar('heart') # 结果太差

# 数据集不够大时,停止词太多,解决方法:去除停止词

# 停止词
from nltk.corpus import stopwords

StopWords = stopwords.words('english')

StopWords[:20]

# 重新训练
# 模型训练函数
def w2vTrain_removeStopWords(f_input, model_output):         
    sentences = list(MySentences(DataDir+f_input))
    for idx,sentence in enumerate(sentences):
        sentence = [w for w in sentence if w not in StopWords]
        sentences[idx]=sentence
    w2v_model = word2vec.Word2Vec(sentences, min_count = MIN_COUNT, 
                                  workers = CPU_NUM, size = VEC_SIZE)
    w2v_model.save(ModelDir+model_output)

w2vTrain_removeStopWords(f_input, model_output)
w2v_model = word2vec.Word2Vec.load(ModelDir+model_output)

w2v_model.most_similar('heart') # 结果一般

结果:

[('formation', 0.9698415994644165),
 ('blood', 0.965557336807251),
 ('metabolism', 0.9630600214004517),
 ('changes', 0.9596229195594788),
 ('study', 0.9578454494476318),
 ('brain', 0.9577423334121704),
 ('liver', 0.957546591758728),
 ('synthesis', 0.9570505619049072),
 ('method', 0.9542899131774902),
 ('renal', 0.9542509913444519)]
 

TextRank

https://www.cnblogs.com/motohq/p/11887420.html

于2024年4月-2025年9月期间,研究团队在贵州习水国家级自然保护区制定39条样线,涵盖灌木林、常绿阔叶林、针叶林、常绿落叶阔叶混交林、针阔混交林等不同植被类型,每条样线分春夏秋冬4个季节采集样品,用真菌采集软件记录经纬度、海拔、采集地点、时间、生境等信息,使用佳能相机(R6 mark Ⅱ)对大型真菌进行拍照,并采集标本,标本存放于贵州省生物研究所大型真菌标本馆(HGAMF)。 通过形态学初步鉴定,结合分子生物学最终鉴定,参考已]报道的中国毒蘑菇名录开展毒蘑菇的认定。 调查到保护区内有毒真菌7目25科64种,导致中毒的主要类型有急性肾衰竭型、神经精神型和胃肠炎型。最终形成贵州习水国家级自然保护区大型有毒真菌图片数据集,它由以下2个部分组成。 (1)附件1包含78张原始照片(.JPG),照片名字包括了大型有毒真菌的拉丁名和中文名,若无中文名的直接用拉丁名。 (2)附件2是一个压缩文件,包含了2张工作表,其中一张表是大型有毒真菌39条样线的信息,另一张表是大型有毒真菌的中毒类型。 照片采用佳能相机R6 mark Ⅱ拍摄,物种鉴定通过多种文献核实,并经两位以上专家鉴定确认。该数据集可为研究地及周边的普通人识别有毒大型真菌提供参考,通过及时的图片对比,能有效避免误采误食大型有毒真菌,同时为因误食大型真菌可能引发的身体损伤进行了总结,能为患者及时治疗提供参考。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值