ट्रांसलेशन पाइपलाइन
बैकएंड इनजेशन, ट्रांसलेशन, वैलिडेशन और पुनर्निर्माण को अलग करता है ताकि हर फ़ाइल फॉर्मेट अपनी संरचना बनाए रखे जबकि ट्रांसलेशन इंजन अर्थ, शब्दावली और निरंतरता पर ध्यान केंद्रित करता है।
अपलोड की गई फ़ाइलों को वैलिडेट, पार्स और स्ट्रक्चर्ड ट्रांसलेटेबल यूनिट्स में बदला जाता है, इससे पहले कि मॉडल कॉल शुरू हों।
- फ़ाइल टाइप और MIME चेक असमर्थित अपलोड को क्यू में जाने से पहले ही अस्वीकार कर देते हैं।
- फ़ाइल फॉर्मेट के अनुसार दस्तावेज़ों को टेक्स्ट नोड्स, शीट्स, स्लाइड्स, सेगमेंट्स या स्ट्रक्चर्ड JSON में एक्सट्रैक्ट किया जाता है।
- ग्लॉसरी टर्म्स और इग्नोर किए गए शब्दों को सुरक्षित पहचानकर्ताओं में मैप किया जाता है ताकि ब्रांड नाम, प्लेसहोल्डर और संरक्षित वाक्यांश अनुवाद के दौरान सुरक्षित रहें।
सिस्टम तैयार कंटेंट को चयनित LLMs और क्लाउड ट्रांसलेशन सेवाओं के माध्यम से कॉन्टेक्स्ट-अवेयर प्रॉम्प्ट्स के साथ रूट करता है।
- OpenAI, Claude, Gemini, Grok, Mistral, Google Cloud और AWS ट्रांसलेशन सेवाएं बैकएंड में समर्थित हैं।
- कंटेंट को मॉडल टोकन लिमिट के अनुसार विभाजित किया जाता है और जहां संभव हो वहां संदर्भ बनाए रखा जाता है।
- Redis आधारित Bull वर्कर्स अनुवाद कार्यों को असिंक्रोनस रूप से प्रोसेस करते हैं ताकि बड़े फ़ाइल API को ब्लॉक न करें।
अनुवाद के बाद आउटपुट को अपेक्षित संरचना के अनुसार जांचा जाता है और यदि यह अधूरा या गलत है तो सुधारा जाता है।
- प्रगति को प्री-प्रोसेसिंग, ट्रांसलेशन और पोस्ट-प्रोसेसिंग चरणों में ट्रैक किया जाता है।
- अमान्य JSON, XML या दस्तावेज़ संरचना होने पर रिपेयर और रिट्राई लॉजिक ट्रिगर हो सकता है।
- ट्रांसलेशन हिस्ट्री में स्टेटस, शब्दों की संख्या, फ़ाइल साइज, उपयोग किए गए मॉडल और प्रोसेसिंग प्रतिशत रिकॉर्ड किए जाते हैं।
सत्यापित अनुवादों को मूल दस्तावेज़ संरचना में वापस रखा जाता है, संग्रहीत किया जाता है और केवल अधिकृत एक्सेस के माध्यम से उपलब्ध कराया जाता है।
- संरक्षित शब्द और ग्लॉसरी मैपिंग को अंतिम रूप देने से पहले पुनर्स्थापित किया जाता है।
- अनुवादित दस्तावेज़ों को उनके लक्ष्य फॉर्मेट में पुनर्निर्मित किया जाता है और सुरक्षित S3 स्टोरेज में अपलोड किया जाता है।
- एक्सेस चेक, उपयोगकर्ता स्वामित्व और संगठन संदर्भ सुनिश्चित करते हैं कि परिणाम सही खाते तक सीमित रहें।