附注:本文使用的jar包是tm-extractors-0.4的jar包(麻烦自己自行搜索并下载),地址稍后再补上来/**
* 读取隐私协议文档内容
*
* @return
*/
private String showContent() {
String content = "";
try {
AssetManager manager = getAssets();
InputStream inputStream = manager.open("help.doc");
WordExtractor extractor = new WordExtractor();
content = extractor.extractText(inputStream);
} catch (IOException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
}
return content;
}
但是本地使用的是WPS,而非Microsoft Office,虽然都是doc格式,但是程序运行的时候,会报错:
org.textmining.text.extraction.FastSavedException: Fast-saved files are unsupported at this time
解决方法:使用office打开文档,然后保存下,关闭,即可
(这个问题有点坑)
**************************这里以2007版以前的word文档 作为分割线*********************************************
第二部;使用POI读取Word文档
(待补充)
本文介绍了一种使用特定jar包从Word文档中提取文本的方法,但遇到WPS格式文档不兼容的问题,并给出了通过Office重新保存文档来解决此问题的办法。
276

被折叠的 条评论
为什么被折叠?



