翻页机器人 OCR 识别平台

围绕翻页机器人图像采集、OCR 识别、翻译处理与文件导出,搭建一套可实时展示、可持续扩展的识别平台。

项目背景

客户希望将翻页机器人采集到的纸质文档图像,快速转化为可查看、可处理、可导出的数字内容。原始需求并不复杂,但真正的难点在于链路要顺:设备上传图片后,前端要第一时间看到结果,OCR 返回的数据还要继续做翻译与文件输出,整个过程不能让操作人员反复切换系统。

因此,这个项目的重点并不是单一接口开发,而是把“采集、识别、处理、展示、下载”串成一个稳定的工作台。

方案设计

我们采用前后端分离架构,后端基于 .NET 9 构建 Web API,前端使用 Vue 3 负责实时界面与大屏展示,部署环境推荐 Ubuntu 22.04。整体设计优先保证两件事:一是链路响应及时,二是界面足够直观,适合在大屏场景下持续展示设备运行状态与识别结果。

在通信层,我们引入 SignalR 作为服务端与客户端的双向通道。翻页机器人上传图片后,系统可以立即推送到前端界面;OCR 处理完成后,识别文本也会同步回传到页面。这让原本分散的处理流程,变成一个可实时观察的连续过程。

项目亮点

1. 实时链路清晰,设备状态一眼可见

平台能够在接收到机器人图片后即时通知前端,并把图像直接呈现在界面上。对于现场操作人员来说,这种“边采集、边展示”的方式比传统轮询刷新更直接,也更容易排查异常。

2. OCR 与业务处理不是分开的两套系统

我们没有把 OCR 只当成一个识别接口来接入,而是继续向下完成结果处理。OCR 返回内容经过整理后,可以进入翻译流程,并支持文件下载,减少人工二次复制和整理的步骤。

3. 面向大屏场景设计,兼顾展示与操作

页面布局和 UI 组件围绕大屏使用场景设计,重点信息更聚焦,图片与文本结果分区明确,既方便演示,也适合实际值守使用。对客户来说,这不是一个“能用”的后台页面,而是一套能直接放进现场环境的操作界面。

技术实现

后端以 C# / .NET 9 提供 API 服务,并负责对接远程 OCR API、清洗识别结果以及串联后续翻译与文件导出流程。前端使用 HTML5CSS3JavaScript (Vue 3) 构建实时界面,通过 SignalR 接收图片与文本消息,减少等待感,也让流程状态更透明。

这种拆分方式的好处很实际:设备接入、OCR 服务替换、翻译能力扩展,都可以在现有架构上继续演进,不需要推翻重做。

交付结果

项目最终完成了一套面向翻页机器人 OCR 场景的业务平台,将图片采集、内容识别、文本翻译与文件下载整合到统一界面中。客户获得的不只是一个 OCR 调用页面,而是一条更完整、更易展示、也更方便落地使用的数字化处理流程。

对于后续迭代,这套架构也保留了足够空间,能够继续接入更多识别策略、文档处理规则和设备端能力。