Kiến trúc hệ thống

Cách GPT Translator chuyển đổi các tệp phức tạp thành tài liệu đa ngôn ngữ đáng tin cậy

Hệ thống dịch của chúng tôi được xây dựng như một pipeline nhiều giai đoạn: tài liệu được phân tích, các thuật ngữ được bảo vệ được ánh xạ, nội dung được dịch thông qua định tuyến mô hình thông minh, kết quả được xác minh và tệp cuối cùng được tái cấu trúc an toàn để truy cập được ủy quyền.

Redis

Công cụ hàng đợi

10 công việc

Độ song song của worker

Trực tiếp

Cập nhật tiến trình

Lớp lưu trữ

Sơ đồ kiến trúc dịch tài liệu của GPT Translator

Pipeline dịch

Kiến trúc bốn giai đoạn cho chất lượng, khả năng mở rộng và kiểm soát

Backend tách biệt quá trình tiếp nhận, dịch, xác thực và tái cấu trúc để mỗi định dạng tệp giữ nguyên cấu trúc trong khi công cụ dịch tập trung vào ý nghĩa, thuật ngữ và tính nhất quán.

Tiền xử lý

Các tệp được tải lên được xác thực, phân tích và chuyển đổi thành các đơn vị có cấu trúc có thể dịch trước khi gọi mô hình.

Kiểm tra loại tệp và MIME từ chối các tệp không được hỗ trợ trước khi vào hàng đợi.
Tài liệu được trích xuất thành các nút văn bản, bảng tính, slide, phân đoạn hoặc JSON có cấu trúc tùy theo định dạng.
Các thuật ngữ trong từ điển và từ bị bỏ qua được ánh xạ sang các định danh an toàn để tên thương hiệu, placeholder và cụm từ được bảo vệ không bị thay đổi khi dịch.

Công cụ dịch thông minh

Hệ thống định tuyến nội dung đã chuẩn bị qua các LLM và dịch vụ dịch đám mây được chọn với prompt nhận biết ngữ cảnh.

Hỗ trợ các dịch vụ OpenAI, Claude, Gemini, Grok, Mistral, Google Cloud và AWS trong backend.
Nội dung được chia nhỏ theo giới hạn token của mô hình trong khi vẫn giữ ngữ cảnh khi có thể.
Các worker Bull dựa trên Redis xử lý tác vụ dịch bất đồng bộ để các tệp lớn không làm chậm API.

Đảm bảo chất lượng

Sau khi dịch, kết quả được kiểm tra so với cấu trúc mong đợi và được sửa nếu không đầy đủ hoặc không hợp lệ.

Tiến trình được theo dõi qua các giai đoạn tiền xử lý, dịch và hậu xử lý.
JSON, XML hoặc cấu trúc tài liệu không hợp lệ có thể kích hoạt logic sửa lỗi và thử lại.
Lịch sử dịch ghi lại trạng thái, số từ, kích thước tệp, mô hình sử dụng và phần trăm xử lý.

Bảo mật và tái cấu trúc

Các bản dịch đã xác thực được đưa trở lại cấu trúc tài liệu gốc, lưu trữ và chỉ truy cập qua các luồng được ủy quyền.

Các thuật ngữ được bảo vệ và ánh xạ từ điển được khôi phục trước khi hoàn tất tệp.
Tài liệu đã dịch được tái cấu trúc sang định dạng mục tiêu và tải lên lưu trữ S3 an toàn.
Kiểm tra quyền truy cập, quyền sở hữu người dùng và ngữ cảnh tổ chức đảm bảo kết quả chỉ thuộc về đúng tài khoản.

Độ tin cậy vận hành

Được xây dựng cho khối lượng công việc dịch thực tế

Worker hàng đợi xử lý nhiều tác vụ song song và giữ các tiến trình dài ngoài vòng đời yêu cầu.

Các sự kiện tiến trình dựa trên socket giúp frontend luôn được cập nhật ở mỗi giai đoạn.

Giám sát cron theo dõi các bản dịch thất bại và đang chạy để phát hiện vấn đề nhanh chóng.

Ước tính token và cập nhật mức sử dụng được thực hiện trước và sau khi dịch để bảo vệ giới hạn gói và cung cấp ước tính khi xảy ra lỗi.