NLP介绍
NLP(nature language processing)是计算机领域与人工智能领域的一个重要方向,研究实现人与计算机之间有效通信的方法,是一门融合语言学、计算机科学和人工智能于一体的学科。
文本获取
文本语料库的获取现在已经比较方便了,可以根据模型类型选择相应的总和语料库或者某个方向的语料库。例如中文维基语料(下载地址https://dumps.wikimedia.org/zhwiki/latest/)。下载下来的wiki是XML格式,需要提取其正文内容。不过维基百科的文档解析有不少的成熟工具(例如gensim,wikipedia extractor等),也可以直接使用开源工具wikipedia extractor完成正文的提取。Wikipedia extractor的网址为: http://medialab.di.unipi.it/wiki/Wikipedia_Extractor。
繁转简:中文wiki大多是繁体字,提供一个厦门大学NLP实验室开发的繁转简工具
下载地址:http://jf.cloudtranslation.cc/
下载单机版即可,在windos命令行窗口下使用下面命令行运行:
jf -fj file1.txt file2.txt -lm lm_s2t.txt
其中file1.txt为繁

本文介绍了NLP的基础,包括从获取文本语料库到文本预处理的步骤,如使用gensim和wikipedia_extractor解析维基百科,用厦门大学NLP实验室的工具进行繁体到简体的转换,使用jieba进行分词,以及通过word2vec进行预训练。还提供了预训练资源的链接。
1万+

被折叠的 条评论
为什么被折叠?



