NLP的文本预处理

本文介绍了NLP的基础,包括从获取文本语料库到文本预处理的步骤,如使用gensim和wikipedia_extractor解析维基百科,用厦门大学NLP实验室的工具进行繁体到简体的转换,使用jieba进行分词,以及通过word2vec进行预训练。还提供了预训练资源的链接。

NLP介绍

NLP(nature language processing)是计算机领域与人工智能领域的一个重要方向,研究实现人与计算机之间有效通信的方法,是一门融合语言学、计算机科学和人工智能于一体的学科。

文本获取

文本语料库的获取现在已经比较方便了,可以根据模型类型选择相应的总和语料库或者某个方向的语料库。例如中文维基语料(下载地址https://dumps.wikimedia.org/zhwiki/latest/)。下载下来的wiki是XML格式,需要提取其正文内容。不过维基百科的文档解析有不少的成熟工具(例如gensim,wikipedia extractor等),也可以直接使用开源工具wikipedia extractor完成正文的提取。Wikipedia extractor的网址为: http://medialab.di.unipi.it/wiki/Wikipedia_Extractor

繁转简:中文wiki大多是繁体字,提供一个厦门大学NLP实验室开发的繁转简工具

下载地址:http://jf.cloudtranslation.cc/

下载单机版即可,在windos命令行窗口下使用下面命令行运行:

  jf -fj file1.txt file2.txt -lm lm_s2t.txt

其中file1.txt为繁

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值