智能制造

翻页机器人 OCR 识别平台

围绕翻页机器人图像采集、OCR 识别、翻译处理与文件导出，搭建一套可实时展示、可持续扩展的识别平台。

项目背景

客户希望将翻页机器人采集到的纸质文档图像，快速转化为可查看、可处理、可导出的数字内容。原始需求并不复杂，但真正的难点在于链路要顺：设备上传图片后，前端要第一时间看到结果，OCR 返回的数据还要继续做翻译与文件输出，整个过程不能让操作人员反复切换系统。

因此，这个项目的重点并不是单一接口开发，而是把“采集、识别、处理、展示、下载”串成一个稳定的工作台。

方案设计

我们采用前后端分离架构，后端基于 .NET 9 构建 Web API，前端使用 Vue 3 负责实时界面与大屏展示，部署环境推荐 Ubuntu 22.04。整体设计优先保证两件事：一是链路响应及时，二是界面足够直观，适合在大屏场景下持续展示设备运行状态与识别结果。

在通信层，我们引入 SignalR 作为服务端与客户端的双向通道。翻页机器人上传图片后，系统可以立即推送到前端界面；OCR 处理完成后，识别文本也会同步回传到页面。这让原本分散的处理流程，变成一个可实时观察的连续过程。

项目亮点

1. 实时链路清晰，设备状态一眼可见

平台能够在接收到机器人图片后即时通知前端，并把图像直接呈现在界面上。对于现场操作人员来说，这种“边采集、边展示”的方式比传统轮询刷新更直接，也更容易排查异常。

2. OCR 与业务处理不是分开的两套系统

我们没有把 OCR 只当成一个识别接口来接入，而是继续向下完成结果处理。OCR 返回内容经过整理后，可以进入翻译流程，并支持文件下载，减少人工二次复制和整理的步骤。

3. 面向大屏场景设计，兼顾展示与操作

页面布局和 UI 组件围绕大屏使用场景设计，重点信息更聚焦，图片与文本结果分区明确，既方便演示，也适合实际值守使用。对客户来说，这不是一个“能用”的后台页面，而是一套能直接放进现场环境的操作界面。

技术实现

后端以 C# / .NET 9 提供 API 服务，并负责对接远程 OCR API、清洗识别结果以及串联后续翻译与文件导出流程。前端使用 HTML5、CSS3 和 JavaScript (Vue 3) 构建实时界面，通过 SignalR 接收图片与文本消息，减少等待感，也让流程状态更透明。

这种拆分方式的好处很实际：设备接入、OCR 服务替换、翻译能力扩展，都可以在现有架构上继续演进，不需要推翻重做。

交付结果

项目最终完成了一套面向翻页机器人 OCR 场景的业务平台，将图片采集、内容识别、文本翻译与文件下载整合到统一界面中。客户获得的不只是一个 OCR 调用页面，而是一条更完整、更易展示、也更方便落地使用的数字化处理流程。