01
预处理
在调用模型之前,对上传文件进行验证、解析,并转换为结构化的可翻译单元。
- 通过文件类型和 MIME 检查,在进入队列前拒绝不支持的上传。
- 根据格式,将文档提取为文本节点、表格、幻灯片、片段或结构化 JSON。
- 将术语表词汇和忽略词映射为安全标识符,以确保品牌名称、占位符和受保护短语在翻译过程中保持不变。
系统架构
我们的翻译系统采用分阶段流水线:解析文档、映射受保护术语、通过智能模型路由进行翻译、验证输出,并将最终文件安全重建以供授权访问。
Redis
队列引擎
10 个任务
Worker 并发数
实时
进度更新
S3
存储层

翻译流水线
后端将接入、翻译、验证和重建分离,使每种文件格式保持其结构,同时翻译引擎专注于语义、术语和一致性。
在调用模型之前,对上传文件进行验证、解析,并转换为结构化的可翻译单元。
系统通过上下文感知的提示,将准备好的内容路由到选定的 LLM 和云翻译服务。
翻译完成后,将输出与预期结构进行比对,如不完整或不正确则进行修复。
将验证后的翻译内容重新插入原始文档结构,安全存储,并仅通过授权流程提供访问。
运行可靠性
队列 Worker 并行处理多个任务,并将长时间运行的任务移出请求生命周期。
基于 Socket 的进度事件在各阶段实时更新前端。
通过 Cron 监控跟踪失败和进行中的翻译,便于快速发现问题。
在翻译前后进行 token 估算和使用量更新,以保护套餐限制并在失败时提供估算。