<上一篇> 来源：河北青年报时间：2026-05-30 14:14:45 <下一篇>

格式即信息：AI 文档处理的 Markdown 陷阱

最近在技术社区看到一篇很有意思的分享。一位开发者讲了他用 AI 做论文格式审查的经历，过程大致是这样：他有一批学生的毕业论文需要审，想着这活儿规则明确、标准清晰，正好适合交给 AI 来做。

但结果反复翻车。AI 总是"看起来理解了内容，一到格式审查就不对劲"。他一开始以为是 AI 不够聪明，后来去看了实际的执行过程，才发现问题根本不在"够不够聪明"，而在最开始的那个环节——AI 在处理 DOCX 文件时，底层走的是"先转 Markdown，再分析"的路径。

字体、字号、段落间距、标题层级、缩进、批注、色块，这些格式信息在转换的第一步就被丢了个干净。后面的分析能力再强，审查对象已经不存在了。

这件事的巧妙之处在于，它不是个例。这位开发者遇到的问题，本质上揭示了当下 AI 处理文档时一个被广泛忽视的结构性缺陷。而这个缺陷的影响范围，远比"论文格式审查"要大得多。

他文章里有一句话概括得很到位："AI 看到的，还是不是那个真正要交付的文档？"

DOCX 转 Markdown：一条"隐形的信息折损链"

要理解这个问题的严重程度，得先看清楚 DOCX 和 Markdown 之间到底差了什么。

DOCX 本质上是一个基于 Open XML 标准的压缩包，里面装着文档的全部信息：文字内容、字体样式、段落属性、页面设置、批注、修订记录、嵌入对象、域代码，甚至自定义 XML 标签。而 Markdown 的设计哲学是"内容与样式分离"——它只关心文字的基础结构（标题层级、粗体、列表、链接），对于字号、行距、段间距、缩进方式、页边距、批注、修订等文档属性，几乎没有表达能力。

从 DOCX 到 Markdown 不是"无损压缩"，更像是"选择性过滤"。那些在论文答辩中被严格检查的格式要素——一级标题是不是黑体三号居中、段落行距是不是 1.5 倍、参考文献格式对不对——在转换过程中几乎全部被丢弃。AI 在分析之前，就已经把自己需要审查的东西弄丢了。

而且这个折损是双向的。不仅"读"文档会丢格式，"写"文档也一样。如果你要求 AI 生成一份格式规范的 Word 文档，但底层仍然是"先生成 Markdown 再转 DOCX"，输出结果在格式细节上大概率经不起推敲。因为生成端面临同样的问题：格式信息从哪来？Markdown 的语法体系里就没有这些信息。

所以，不管是输入端还是输出端，"绕经 Markdown"这条路径都存在一个根本性的信息断层。这不是 AI 模型能力的问题，而是技术路径选择的问题。

问题不在 AI，在路径

那为什么主流的 AI 工具几乎都走这条"转 Markdown"的路径？

原因很简单：通用大模型的接口是纯文本。不管是 GPT、Claude 还是 Gemini，它们的输入输出都是一串文字。文档对于这些模型来说，只是一个需要被"翻译"成文字的载体。在模型眼里，DOCX 和 PDF 没有本质区别——都是需要先"提取文字内容"再理解的东西。

这条路径在"总结文章""翻译段落""改写文本"这类纯语义任务中确实够用。但当任务本身就和格式强相关——论文格式审查、公文版面检查、合同批注修订、报表结构校验——纯文本接口的局限性就彻底暴露了。模型能判断"这段话的逻辑是否自洽"，但无法判断"这个标题的字号是不是三号"，因为字号信息从来就没到过它手里。

这意味着，要让 AI 真正胜任这类任务，仅靠"更强的模型"是不够的。你需要一个根本性的路径变化：AI 不应该通过一个纯文本接口去"翻译"文档，而应该直接"活在"文档里面——能直接读取文档的样式树、段落属性、版面结构，也能直接在文档上写批注、调格式、改样式。

换句话说，你需要一个不是"从外部观察文档"的 AI，而是一个"在文档内部工作"的 AI。

这个方向上的自然推论是：最适合做这件事的，恰恰是那些本身就长在文档编辑器里的 AI——它们不需要转换格式，因为文档原生环境就是它们的"母语"。

当 AI "活在"文档编辑器里

顺着上一章的逻辑，如果让 AI 直接工作在文档的原生格式上——不需要转 Markdown，不需要走中间层——很多问题会从根源上消失。

以 WPS AI 为例来解释这条路径的具体实现。WPS 本身就是文档的运行环境，AI 直接嵌入在 WPS 文字、WPS 表格、WPS PDF 这些组件内部。这意味着它处理的始终是文档的完整结构，而不是经过转换的纯文本。当用户打开一份论文，AI 看到的就是包含所有样式信息的那份 DOCX——字体是什么、行距是多少、标题是几级、批注在哪个段落——和用户在屏幕上看到的完全一致。

基于这个前提，"格式审查"这个任务就变得自然了：AI 直接解析文档的样式树和段落属性，对照模板要求逐项比对，生成标注了具体问题和位置的审查报告。不需要转格式，不需要"先把文档变成别的样子再处理"。

输出端也一样。当你要求"按学校论文模板调整排版"，操作的是文档的真实样式系统——修改标题样式、调整段落间距、设置页边距和页眉页脚。输出的就是一份格式齐全的 DOCX，不需要二次加工。这条路径直接消灭了前面提到的"格式交付问题"。

WPS AI 目前在办公场景中提供了四个助手：写作助手生成内容，阅读助手解析文档，设计助手处理排版，数据助手分析表格。它们的共同特点是都运行在文档的原生环境中，处理的都是用户正在编辑的那份文档。阅读助手在 PDF 里做全文总结时，可以直接标注引用页数并跳转到原文；写作助手生成的内容直接写入文档，格式随写随有。全程没有格式转换的环节。

这其实就是上一章提到的那个"活在文档里"的路径的具体实现。不是靠更强的模型参数，而是靠路径选择从根本上消除了格式信息丢失的可能性。

38 年的积淀，藏在 AI 看不见的地方

不过，"在文档原生环境中工作"这句话说起来轻巧，做起来需要的东西远比想象中复杂。

文档格式不是简单的"字体加字号"。一份 DOCX 涉及的格式维度包括：上百种字体与字号组合、段落间距（段前、段后、行距、行距规则）、缩进方式（首行缩进、悬挂缩进、左缩进、右缩进）、标题样式的多级嵌套、目录域代码与标题样式的联动、页眉页脚与页面设置的关系、批注和修订的元数据、嵌入对象的容器结构——更不用说 PDF 和扫描件中涉及的版面识别问题。

要让 AI 准确理解这些维度，前提是你自己对文档格式有足够深的认知。这是一个"理解文档世界"的问题，不是靠喂更多训练数据就能解决的。每一种文档格式的细节、每一种排版规则的边界条件、不同版本 Office 之间的兼容差异——这些知识需要长时间的积累。

金山办公在文档处理领域深耕 38 年，对上万种文档格式有解构级的拆解能力。2025 年联合华中科技大学发布的自研文档解析模型 MonkeyOCR，就是这种积淀的产物。它采用 SRR（Structure-Recognition-Relation，结构-识别-关系）三元解析范式：先用目标检测模型识别文档的版面结构——标题、段落、表格、图片、公式各自在哪里——再对每个区域做细粒度识别，最后推断各区域之间的逻辑关系。这条路径既避免了传统 OCR 多模型串联的误差累积，又大幅降低了端到端大模型的算力负担。在 OmniDocBench 全球权威文档解析评测中，MonkeyOCR 以 93.01 分位列综合性能全球第一，领先于当时国外主流大模型。

这个结果说明了一个事实：在文档理解这个垂直领域，对文档格式的深度认知，其价值不亚于模型参数本身。格式理解能力不是一朝一夕能"训"出来的，它更像是一种隐性知识——你得在文档世界里摸爬滚打足够久，才能真正理解"格式"这两个字背后有多少层含义。

AI 文档处理的下一个拐点

回到最初那个问题。一位开发者发现 AI 做不了论文格式审查，排查后发现是因为格式信息在第一步就丢了。这个发现看似是个体踩坑，实则指向了整个行业的结构性问题。

过去两年，AI 在文档处理领域的能力提升集中在"语义理解"维度——能不能读懂、能不能总结、能不能改写。这确实是重要的进步。但格式层面的理解一直是一个被低估的维度，而这个维度恰恰决定了 AI 能否从"好玩的工具"变成"真正好用的助手"。

论文需要格式审查，公文需要版面规范，合同需要批注修订，财务报表需要结构校验。这些真实场景的共同特征是：格式和内容从来不是割裂的。一个不能理解格式的 AI，在这些场景中就只能做到"说了对"，做不到"做得到"。

问题的答案不在更大的模型参数，而在更正确的技术路径。当 AI 从"外部观察者"变成"文档内部的协作者"，从"读懂文字"进化到"理解文档"，那些曾经困扰用户的问题——格式丢失、交付错位、二次加工——才会从根源上得到解决。

这个拐点刚刚开始。但它的影响，会比任何一次大模型的参数升级都更直接。