2024 Clojure调查问卷中分享您的想法!

欢迎!请访问关于页面获取更多关于它是如何工作的信息。

+1
Libs

我需要读取Microsoft Word docx文档。
文档可能包含需要摄入的表格,并且我希望捕捉文本中的颜色(高亮)。

到目前为止,我只找到以下可能的方案
http://www.felix-johnson.com/docx4j.html

我希望从目前的技术开始。

感谢您的帮助!

2 个答案

+1
不,docx-utils仅解决了生成docx文档的问题。我需要读取docx文件。
+1

我直接通过Java互操作使用Apache POI库,这完全满足了我的需求。请访问https://poi.apache.org/了解详情。

我围绕使用的片段编写了一些封装,使其更符合我的需求。

谢谢!您能否分享您构建的封装代码?我想从Java互操作的示例中学习。
抱歉,我手头没有这方面的具体信息,那只是很久以前的一次剃羊毛。
无论如何,通过互操作,POI(至少对于Excel电子表格)还是相当容易管理的。

POI的功能非常强大,因此包装可能并不特别有价值。

另一个选项是将文件转换为RTF - 我想LibreOffice有命令行方式可以做到这一点 - 然后通过RTF文件进行读取。

第三种方案是使用Word宏创建EDN文件 :-)
...