Java 读取 doc docx pdf rtf txt html 文件文本内容

Jimmy posted @ 2012年3月07日 00:25 in Java Programming , 5232 阅读

最近需要解析用户上传文档的文本内容，自己没有搜到很好的资料，在http://scturtle.is-programmer.com/的介绍下，找到了一些参考资料，于是很快的完成了基本文件格式的解析。下面把资料的链接跟代码地址附上

1.MS doc/docx/Excel/Powerpoint/...

解析微软的office文件有Apache的POI类库支持，只是doc/docx的工作还在完善之中，所以解析出来的格式不是很精确，比如图片部分不能完全去除掉会在解析得到的文本中留下部分乱码。

2.pdf

解析pdf文件有Apache pdfBox类库的支持，解析效果还不错。

3. html

解析html有很强大的工具htmlParser, 无需保存网页文件，只需给一个网页链接，就可以得到html文件中的文本内容，而且可以自动过滤很多无用标签，很是强大。

4 rtf

解析rtf有javax类库的支持，只需import javax.swing.text.rtf.RTFEditorKit;就能解决问题

5. txt

这个就无需解析了，直接读取文件的文本内容就行了。

其他的参考资料(未找到原文，所以文中提供的dll链接库无法下载，可以直接下载github上的代码)

[回复]

Are you a celebrity? If you are, you will find your name and information on idol net worth - the database which is open for everyone.

[回复]

civaget 说:
2023年12月31日 01:46

러시아마사지 is the ultimate pampering experience.

分类