GPT Translator Logo
登录

系统架构

GPT Translator 如何将复杂文件转换为可靠的多语言文档

我们的翻译系统采用分阶段流水线:解析文档、映射受保护术语、通过智能模型路由进行翻译、验证输出,并将最终文件安全重建以供授权访问。

Redis

队列引擎

10 个任务

Worker 并发数

实时

进度更新

S3

存储层

GPT Translator 文档翻译架构图

翻译流水线

用于质量、扩展性和控制的四阶段架构

后端将接入、翻译、验证和重建分离,使每种文件格式保持其结构,同时翻译引擎专注于语义、术语和一致性。

01

预处理

在调用模型之前,对上传文件进行验证、解析,并转换为结构化的可翻译单元。

  • 通过文件类型和 MIME 检查,在进入队列前拒绝不支持的上传。
  • 根据格式,将文档提取为文本节点、表格、幻灯片、片段或结构化 JSON。
  • 将术语表词汇和忽略词映射为安全标识符,以确保品牌名称、占位符和受保护短语在翻译过程中保持不变。
02

智能翻译引擎

系统通过上下文感知的提示,将准备好的内容路由到选定的 LLM 和云翻译服务。

  • 后端支持 OpenAI、Claude、Gemini、Grok、Mistral、Google Cloud 和 AWS 翻译服务。
  • 根据模型的 token 限制对内容进行分块,同时尽可能保留上下文。
  • 基于 Redis 的 Bull Worker 异步处理翻译任务,以避免大文件阻塞 API。
03

质量保证

翻译完成后,将输出与预期结构进行比对,如不完整或不正确则进行修复。

  • 在预处理、翻译和后处理阶段持续跟踪进度。
  • 无效的 JSON、XML 或文档结构可能触发修复和重试逻辑。
  • 翻译历史记录状态、字数、文件大小、使用模型以及处理进度。
04

安全与重建

将验证后的翻译内容重新插入原始文档结构,安全存储,并仅通过授权流程提供访问。

  • 在最终生成文件前恢复受保护术语和术语映射。
  • 将翻译后的文档重建为目标格式,并上传到安全的 S3 存储。
  • 通过访问控制、用户归属和组织上下文,确保结果仅对正确的账户可见。

运行可靠性

为真实翻译负载而构建

队列 Worker 并行处理多个任务,并将长时间运行的任务移出请求生命周期。

基于 Socket 的进度事件在各阶段实时更新前端。

通过 Cron 监控跟踪失败和进行中的翻译,便于快速发现问题。

在翻译前后进行 token 估算和使用量更新,以保护套餐限制并在失败时提供估算。