怎么自动化完成公文排版校验，规则引擎配合AI审校

公文排版校验想自动化完成，本质上不是让AI看一眼文档，而是把版式规范、模板约束、内容语义、跨文档比对、人工终审串成一条可追溯流程。对机关单位、集团总部和共享中心来说，真正可落地的路径通常是规则引擎+版面解析/OCR+大模型语义判断+数字员工执行的混合架构：先处理大部分确定性错误，再把少量争议项交给人工复核，效率和准确性才会同时上升。

图源：AI生成示意图

一、为什么公文排版校验不能只靠人工

常见问题并不止字号和行距

公文审校的难点，在于它同时包含几何版式校验和业务语义校验两类任务。前者看得见，后者最容易漏。

版式类：页边距、版心、行距、段前段后、页码位置、标题层级、发文字号、落款与印章留白、附件说明、版记等。
一致性类：正文提到的附件数量与附件页是否一致，标题与主旨是否匹配，简称与全称是否混用，日期格式是否统一。
模板类：不同单位、不同文种、不同密级、不同收文对象，往往对应不同模板，人工最容易混套。
风险类：引用旧制度、漏敏感词、漏签发项、错页码、错发文字号，这些问题通常不是肉眼抽检能稳定发现的。

人工模式为什么越忙越容易错

人工审核有三个天然瓶颈：疲劳、口径不一、不可追溯。尤其在月末、会前、集中发文时段，排版员和审校员往往只能抽检。McKinsey在2023年关于生成式AI生产力的研究中测算，相关技术每年可带来2.6万亿至4.4万亿美元经济增量；落到公文场景，最先应该被机器接管的，正是重复性高、规则清晰、但人工极耗时的校验动作。

二、自动化要做成，靠的是四层能力一起工作

不是单个模型，而是一条闭环流水线

能力层	负责内容	在公文场景里的作用
输入与解析层	Word、PDF、OFD、扫描件读取	识别页面结构、段落、图片、表格、印章区域
规则校验层	模板规则、排版规则、编号规则	判断标题层级、字号、对齐、页码、附件说明是否合规
语义判断层	大模型与知识库	判断简称全称、表述冲突、引用制度是否过期、正文和附件引用是否一致
执行与回写层	数字员工、系统连接、日志审计	自动抓文档、生成问题清单、回写OA或共享系统、留痕追溯

如果组织希望做到一句话发起校验、自动打开本地Word或OFD、跨系统取规则并生成修改意见，实在Agent更适合承担执行与闭环层的角色，把原本分散在编辑器、OA、共享盘、审核台账里的动作连起来。

为什么规则引擎必须放在前面

公文校验最怕两种极端：一种是纯人工，慢且不稳；另一种是把所有判断都交给大模型，结果口径漂移。更稳妥的做法是：

先用规则引擎处理确定性问题，如标题字号、页边距、附件编号、文号格式。
再用大模型处理模糊问题，如语义重复、简称歧义、表述不完整。
最后用人工复核确认少量争议项，形成可追溯闭环。

Gartner对Agentic AI的公开预测显示，到2028年，33%的企业软件应用将内置这类能力，约15%的日常工作决策可实现自主完成。对公文排版校验而言，这意味着工具价值不再只是提示错误，而是自动完成发现、归因、修正建议、回写和审计。

三、规则库怎么建，决定系统是能演示还是能长期运行

先把规则拆成六类

国家或行业通用规则：如参照《党政机关公文格式》时的版式框架、标题层级、页码等。
单位模板规则：某单位内部对通知、请示、纪要、函等不同文种的固定要求。
字段逻辑规则：发文字号、成文日期、主送机关、附件说明、抄送对象是否完整且位置正确。
语义一致性规则：正文提到的附件、表格、制度名称、部门名称、简称全称是否前后一致。
敏感项规则：涉密分级、对外口径、禁用词、历史版本术语是否误用。
豁免与特例规则：特殊通知、紧急文件、签报件、图片化公文等场景下允许的例外。

规则表达最好兼容三种来源

文本制度转规则：把纸面制度、模板说明和审校手册转换成机器可执行规则。
样例文档归纳规则：用历史正确样本抽取模板差异，减少人工写规则的成本。
人工复核反哺规则：把审核员改回的高频问题沉淀为新规则，让系统越跑越稳。

很多项目失败，不是识别不准，而是规则没有版本管理。公文规则库至少要有模板版本、适用范围、生效日期、例外说明、审核责任人五个字段，否则同一份文档今天判对、明天判错，组织很快就不会再信任系统。

四、从0到1上线，建议按这个顺序推进

四步比一次性大而全更容易成功

先选高频文种：从通知、请示、纪要、函等最常用文种入手，不要一开始覆盖全部文种。
先做可量化问题：优先上线字号、行距、页码、标题层级、附件引用、文号格式等可直接验收的项。
再接语义问题：等规则库稳定后，再叠加简称全称、条款引用、口径一致性等大模型能力。
最后接闭环动作：自动生成问题清单、修订建议、审核日志、回写记录，形成完整质检链路。

一个实操流程可以长这样

文档进入系统 → 版面解析 → 规则引擎逐项比对 → 大模型补充语义检查 → 输出校验报告 → 人工只看疑点项 → 结果回写OA或档案系统 → 复核意见沉淀为新规则。

项目验收时，不要只看识别准确率，更要看全量覆盖率、误报率、单份耗时、规则命中率、人工改回率、审计可追溯率。这些指标决定系统是在生产环境可用，还是只适合演示。

五、相邻真实实践说明，规则密集型文档审核可以怎样落地

某能源集团：从制度文本到可执行规则，再到审核辅助结论

公开披露中暂未见到单独命名为公文排版校验的项目，但在制度审核和单据智能审核等相邻场景里，自动化路径已经较成熟。某能源集团的做法是：

把制度文本上传后自动解析为可执行代码规则，实现制度到规则的自动转化。
业务端继续沿用原有共享报账系统，不强行改变一线使用习惯。
用OCR小模型+大模型提取关键信息并分类切割。
再由IDP引擎做深度校验，并执行跨系统穿透查询。
系统自动生成《审核辅助结论》，列出通过项与疑点项。
审核员只需重点复核疑点，完成人机协同闭环。

这套机制迁移到公文排版校验时，价值点非常直接：制度可转规则、规则可批量跑、疑点可自动归因、人工只看少数争议项。对于文档质量要求高、审计要求强的组织，这是比单点插件更可持续的路线。

某制造企业：高频规则检查与标准化比对，验证长期稳定运行能力

另一家制造企业在相邻场景中承担了100万次/年级别的高频订单识别与录入需求，并用机器人对材料部件变更进行标准化检查，替代人工繁琐的规则比对工作；同时还实现了年处理12万笔的单据自动打印和10万次路线卡批量打印。这类结果说明，只要规则表达清楚、系统连接打通，规则密集型文档与记录类工作完全可以从人盯人，升级为机器先全量校验、人只处理例外。

说明：目前未公开披露公文排版校验单一项目，以上为制度审核、标准化检查等相邻业务场景下的客户实践。数据及案例来源于实在智能内部客户案例库。

六、哪些组织最适合先做这件事

发文量大：集团总部、机关单位、共享中心、法务与综合办公室。
模板复杂：不同部门、不同文种、不同密级共存，人工口径很难统一。
审计要求强：需要知道是谁在什么时间改了什么、系统为何判错。
已有OA或档案系统：只差最后一段自动化校验与回写闭环。

如果组织当前还停留在人工抽检阶段，最现实的目标不是一步到位实现全自动改文，而是先把80%的确定性问题自动发现并形成标准报告。当规则库和日志体系稳定后，再逐步扩大到修订建议、自动回写与远程执行。

❓常见问题

Q1：只用大模型，能不能直接做公文排版校验？

A：能做演示，不适合直接上生产。公文场景里大量问题是确定性版式规则，最稳的方式仍然是规则引擎先判定，大模型补语义，人工兜底争议项。

Q2：扫描件和图片化文件也能校验吗？

A：可以，但前提是先做高质量版面解析和OCR。对扫描件来说，系统要先识别页结构、文字块、印章和表格，再进入规则校验阶段，准确率通常取决于原件清晰度和模板标准化程度。

Q3：上线后怎么避免规则越来越乱？

A：关键是做规则版本管理和人工复核反馈回流。每条规则都要写清适用文种、生效时间、例外条件和责任人，复核改回的高频问题则要定期沉淀成新规则。

参考资料：GB/T 9704—2012《党政机关公文格式》；McKinsey《The economic potential of generative AI: The next productivity frontier》(2023年6月)；Gartner关于Agentic AI与企业软件渗透率预测的公开研究观点(2024—2025年发布)。

金融服务商

通信运营商

零售电商

跨境电商

政府及公共服务

能源及制造业

医药行业

更多行业客户