请问HN:我应该如何将Microsoft Word文档转换为Markdown格式?

4作者: lkrubner大约 7 小时前原帖
我接手了一个由海外团队开发的项目。他们建立了一个数据摄取流程。在这个流程中,他们使用 LibreOffice(无头模式)将 Microsoft Word 文档转换为 PDF。之后,我们将所有 PDF 转换为 Markdown。他们认为将所有内容先转换为 PDF,然后再将所有 PDF 转换为 Markdown 是最好的做法。 我注意到,当 Microsoft Word 文档包含以下内容时,LibreOffice 可以生成非常复杂的 PDF: 1. 表格 2. 多列 3. 删除线文本 我在考虑我们是否应该直接从 Microsoft Word 转换为 Markdown。 那么,适合这个转换的正确软件是什么呢?
查看原文
I took over a project that was built by an overseas team. They set up a data ingestion process. They have a step in the ingestion where they use Libre Office (in headless mode) to convert Microsoft Word documents to PDFs. Later we convert all PDFs to Markdown. They felt that it was best to convert everything to a PDF, and then convert all of the PDFs to Markdown.<p>What I notice is that LibreOffice can create very complex PDFs when the Microsoft Word document has:<p>1. tables<p>2. multiple columns<p>3. strikethrough text<p>I am thinking we should go straight from Microsoft Word to Markdown.<p>What is the right software for that?