Pipeline dịch
Backend tách biệt quá trình tiếp nhận, dịch, xác thực và tái cấu trúc để mỗi định dạng tệp giữ nguyên cấu trúc trong khi công cụ dịch tập trung vào ý nghĩa, thuật ngữ và tính nhất quán.
Các tệp được tải lên được xác thực, phân tích và chuyển đổi thành các đơn vị có cấu trúc có thể dịch trước khi gọi mô hình.
- Kiểm tra loại tệp và MIME từ chối các tệp không được hỗ trợ trước khi vào hàng đợi.
- Tài liệu được trích xuất thành các nút văn bản, bảng tính, slide, phân đoạn hoặc JSON có cấu trúc tùy theo định dạng.
- Các thuật ngữ trong từ điển và từ bị bỏ qua được ánh xạ sang các định danh an toàn để tên thương hiệu, placeholder và cụm từ được bảo vệ không bị thay đổi khi dịch.
Hệ thống định tuyến nội dung đã chuẩn bị qua các LLM và dịch vụ dịch đám mây được chọn với prompt nhận biết ngữ cảnh.
- Hỗ trợ các dịch vụ OpenAI, Claude, Gemini, Grok, Mistral, Google Cloud và AWS trong backend.
- Nội dung được chia nhỏ theo giới hạn token của mô hình trong khi vẫn giữ ngữ cảnh khi có thể.
- Các worker Bull dựa trên Redis xử lý tác vụ dịch bất đồng bộ để các tệp lớn không làm chậm API.
Sau khi dịch, kết quả được kiểm tra so với cấu trúc mong đợi và được sửa nếu không đầy đủ hoặc không hợp lệ.
- Tiến trình được theo dõi qua các giai đoạn tiền xử lý, dịch và hậu xử lý.
- JSON, XML hoặc cấu trúc tài liệu không hợp lệ có thể kích hoạt logic sửa lỗi và thử lại.
- Lịch sử dịch ghi lại trạng thái, số từ, kích thước tệp, mô hình sử dụng và phần trăm xử lý.
Các bản dịch đã xác thực được đưa trở lại cấu trúc tài liệu gốc, lưu trữ và chỉ truy cập qua các luồng được ủy quyền.
- Các thuật ngữ được bảo vệ và ánh xạ từ điển được khôi phục trước khi hoàn tất tệp.
- Tài liệu đã dịch được tái cấu trúc sang định dạng mục tiêu và tải lên lưu trữ S3 an toàn.
- Kiểm tra quyền truy cập, quyền sở hữu người dùng và ngữ cảnh tổ chức đảm bảo kết quả chỉ thuộc về đúng tài khoản.