请在2024 Clojure状态调查中分享您的想法!

欢迎!有关此网站的工作方式,请参阅关于页面了解更多信息。

+1

我需要读取Microsoft Word docx文档。
这些文档可能包含要提取的表格,并且我希望捕获文本中的颜色(突出显示)。

到目前为止,我只找到了以下可能的信息
http://www.felix-johnson.com/docx4j.html

我希望从当前的技术状态开始。

谢谢您的帮助!

2 个答案

+1
不,docx-utils只处理docx文档的生成。我需要读取docx文件。
+1
by

我直接通过Java互操作使用了Apache POI库,这对于我需要的所有事情都工作得很好。 https://poi.apache.org/

我为使用的那一小部分代码构建了一些包装,让它更适合我的需求。

by
谢谢!你能分享一下你构建的包装片段吗?我需要从Java互操作的例子中学习。
by
抱歉,我不记得具体在哪里了,这只是一段很早以前的事情。
by
POI(对于Excel电子表格来说)可以通过互操作轻松管理。

POI的应用非常广泛,包装可能并不具有太大价值。

另一个选择是将文档转换为RTF格式——我认为LibreOffice有命令行方式可以做到这一点——然后尝试阅读RTF。

第三种选择是编写Word宏来编写EDN文件 :-)
...