Pipeline terjemahan
Backend memisahkan ingestion, terjemahan, validasi, dan rekonstruksi agar setiap format file mempertahankan strukturnya sementara mesin terjemahan fokus pada makna, terminologi, dan konsistensi.
File yang diunggah divalidasi, diparsing, dan diubah menjadi unit terstruktur yang dapat diterjemahkan sebelum pemanggilan model dimulai.
- Pemeriksaan tipe file dan MIME menolak unggahan yang tidak didukung sebelum masuk ke antrean.
- Dokumen diekstrak menjadi node teks, lembar, slide, segmen, atau JSON terstruktur sesuai format.
- Istilah glosarium dan kata yang diabaikan dipetakan ke identifikator aman agar nama merek, placeholder, dan frasa terlindungi tetap terjaga saat diterjemahkan.
Sistem merutekan konten yang telah disiapkan melalui LLM dan layanan terjemahan cloud dengan prompt yang memahami konteks.
- Layanan OpenAI, Claude, Gemini, Grok, Mistral, Google Cloud, dan AWS didukung di backend.
- Konten dipecah sesuai batas token model sambil mempertahankan konteks jika memungkinkan.
- Worker Bull berbasis Redis memproses tugas terjemahan secara asinkron agar file besar tidak memblokir API.
Setelah terjemahan, output diperiksa terhadap struktur yang diharapkan dan diperbaiki jika tidak lengkap atau tidak valid.
- Progres dilacak melalui tahap pra-pemrosesan, terjemahan, dan pasca-pemrosesan.
- JSON, XML, atau struktur dokumen yang tidak valid dapat memicu logika perbaikan dan percobaan ulang.
- Riwayat terjemahan mencatat status, jumlah kata, ukuran file, model yang digunakan, dan persentase pemrosesan.
Terjemahan yang telah divalidasi dikembalikan ke struktur dokumen asli, disimpan, dan hanya tersedia melalui alur yang diotorisasi.
- Istilah terlindungi dan pemetaan glosarium dipulihkan sebelum finalisasi file.
- Dokumen yang diterjemahkan direkonstruksi ke format target dan diunggah ke penyimpanan S3 yang aman.
- Pemeriksaan akses, kepemilikan pengguna, dan konteks organisasi memastikan hasil hanya tersedia untuk akun yang tepat.