2024 Clojure 状态调查! 中分享您的想法。

欢迎!请参见 关于 页面以获取更多关于该工作方式的信息。

+1

我需要读取 Microsoft Word docx 文档。
这些文档可能包含要导入的表格,并且我希望捕获文本中的颜色(高亮)。

到目前为止,我仅找到了以下可能的方法
http://www.felix-johnson.com/docx4j.html

我希望从当前技术水平开始。

谢谢您的帮助!

2 个回答

+1

https://github.com/tokenmill/docx-utils 看起来相关性很强。

不,docx-utils 只解决生成 docx 文档的问题。我需要读取 docx 文件。
+1

我直接通过Java互操作性使用Apache POI库,这对我需要的一切都工作得很好。https://poi.apache.org/

我在那些我使用的一些微小的部件周围构建了一些包装器,使之更适合我的需求。

谢谢!你介意分享你构建的包装器代码片段吗?我需要从Java互操作的例子中学习。
很抱歉,我手头不知道这些东西在哪里,这已经是很久以前的事情了。
通过互操作性(至少是针对Excel电子表格),POI非常容易管理。

POI有非常大的接触面,一个包装器可能不会有太大的价值。

另一个选项是通过某种方式将其转换为RTF - 我想LibreOffice有命令行方式可以这样做 - 然后通过读取RTF的方式笨拙地进行。

第三种选择,使用Word宏编写EDN文件 :-)
...