NLP的文本预处理

最新推荐文章于 2026-02-08 13:20:10 发布

原创

最新推荐文章于 2026-02-08 13:20:10 发布 · 1.6k 阅读

收录于

当前文章被以下社区和专栏收录：

本文介绍了NLP的基础，包括从获取文本语料库到文本预处理的步骤，如使用gensim和wikipedia_extractor解析维基百科，用厦门大学NLP实验室的工具进行繁体到简体的转换，使用jieba进行分词，以及通过word2vec进行预训练。还提供了预训练资源的链接。

NLP介绍

NLP（nature language processing）是计算机领域与人工智能领域的一个重要方向，研究实现人与计算机之间有效通信的方法，是一门融合语言学、计算机科学和人工智能于一体的学科。

文本获取

文本语料库的获取现在已经比较方便了，可以根据模型类型选择相应的总和语料库或者某个方向的语料库。例如中文维基语料（下载地址https://dumps.wikimedia.org/zhwiki/latest/)。下载下来的wiki是XML格式，需要提取其正文内容。不过维基百科的文档解析有不少的成熟工具（例如gensim，wikipedia extractor等），也可以直接使用开源工具wikipedia extractor完成正文的提取。Wikipedia extractor的网址为: http://medialab.di.unipi.it/wiki/Wikipedia_Extractor。

繁转简：中文wiki大多是繁体字，提供一个厦门大学NLP实验室开发的繁转简工具

下载地址：http://jf.cloudtranslation.cc/

下载单机版即可，在windos命令行窗口下使用下面命令行运行：

　　jf -fj file1.txt file2.txt -lm lm_s2t.txt

其中file1.txt为繁

标签

#w'