请在2024 Clojure状态调查中分享您的想法!

欢迎!请参阅关于页面以获取更多关于该页面如何工作的信息。

+1

我需要读取Microsoft Word docx文档。
文档可能包含需要采入的表格,我希望捕捉文本中的颜色(高亮)。

迄今为止,我只找到了以下可能的方法
http://www.felix-johnson.com/docx4j.html

我希望从最新技术开始。

谢谢您的帮助!

2 答案

+1
不是的,docx-utils仅解决生成docx文档的问题。我需要读取docx文件。
+1

我通过Java互操作直接使用了Apache POI库,这对我来说所有的需求都工作得很好。 https://poi.apache.org/

我在这部分库周围构建了一些封装器,以使其更符合我的需求。

谢谢!你介意分享你构建的封装器部分吗?我需要从Java互操作的例子中学习。
对不起,我不记得有什么东西了,那只是很久以前的一些细枝末节。
无论是对Excel工作表来说,POI都通过互操作相当容易管理。

POI的表面区域很大,封装器可能没什么价值。

另一个选项是将某些内容转换为RTF - 我想LibreOffice有命令行方式可以做这个 - 然后,您可以通过阅读RTF的方式来这样做。

第三种方法是使用Word宏来写入EDN文件 :-)
...