2024 年 Clojure 状态调查!分享您的看法。

欢迎!请访问关于页面了解更多此网站的工作方式。

+1

我需要阅读 Microsoft Word docx 文档。
文档可能包含要摄取的表格,并且我希望捕获文本中的颜色(高亮)。

到目前为止,我仅发现了以下可能的解决方案
http://www.felix-johnson.com/docx4j.html

我希望从最新技术开始。

感谢您的帮助!

2 个答案

+1
不,docx-utils 只解决 docx 文档的生成。我需要读取 docx 文件。
+1

我直接通过Java互操作使用Apache POI库,这对于我需要的所有内容都工作得很好。https://poi.apache.org/

我为该工具中使用的一些小程序构建了一些包装器,使其更符合我的需求。

谢谢!你介意分享你构建的包装器吗?我需要从Java互操作的示例中学习。
很抱歉,我不记得这些在哪里,这只是在很久以前节省了一些时间。
POI(对于Excel电子表格来说)通过与互操作相结合很容易管理。

POI的表面区域很大,因此包装器可能没有太多价值。

另一个选项是将其转换为RTF格式——我认为LibreOffice有一个命令行方法可以实现这一点——然后通过阅读RTF来摸索。

第三种选择,编写Word宏以生成EDN文件 :-)
...