सिस्टम आर्किटेक्चर

GPT Translator जटिल फ़ाइलों को विश्वसनीय बहुभाषी दस्तावेज़ों में कैसे बदलता है

हमारा ट्रांसलेशन सिस्टम एक स्टेज्ड पाइपलाइन के रूप में बना है: दस्तावेज़ों को पार्स किया जाता है, सुरक्षित शब्दों को मैप किया जाता है, कंटेंट को इंटेलिजेंट मॉडल रूटिंग के माध्यम से अनुवाद किया जाता है, आउटपुट को सत्यापित किया जाता है और अंतिम फ़ाइल को सुरक्षित रूप से पुनर्निर्मित किया जाता है।

Redis

क्यू इंजन

10 जॉब्स

वर्कर कंकरेन्सी

लाइव

प्रगति अपडेट

स्टोरेज लेयर

GPT Translator दस्तावेज़ ट्रांसलेशन आर्किटेक्चर डायग्राम

ट्रांसलेशन पाइपलाइन

गुणवत्ता, स्केलेबिलिटी और नियंत्रण के लिए चार-चरणीय आर्किटेक्चर

बैकएंड इनजेशन, ट्रांसलेशन, वैलिडेशन और पुनर्निर्माण को अलग करता है ताकि हर फ़ाइल फॉर्मेट अपनी संरचना बनाए रखे जबकि ट्रांसलेशन इंजन अर्थ, शब्दावली और निरंतरता पर ध्यान केंद्रित करता है।

प्री-प्रोसेसिंग

अपलोड की गई फ़ाइलों को वैलिडेट, पार्स और स्ट्रक्चर्ड ट्रांसलेटेबल यूनिट्स में बदला जाता है, इससे पहले कि मॉडल कॉल शुरू हों।

फ़ाइल टाइप और MIME चेक असमर्थित अपलोड को क्यू में जाने से पहले ही अस्वीकार कर देते हैं।
फ़ाइल फॉर्मेट के अनुसार दस्तावेज़ों को टेक्स्ट नोड्स, शीट्स, स्लाइड्स, सेगमेंट्स या स्ट्रक्चर्ड JSON में एक्सट्रैक्ट किया जाता है।
ग्लॉसरी टर्म्स और इग्नोर किए गए शब्दों को सुरक्षित पहचानकर्ताओं में मैप किया जाता है ताकि ब्रांड नाम, प्लेसहोल्डर और संरक्षित वाक्यांश अनुवाद के दौरान सुरक्षित रहें।

इंटेलिजेंट ट्रांसलेशन इंजन

सिस्टम तैयार कंटेंट को चयनित LLMs और क्लाउड ट्रांसलेशन सेवाओं के माध्यम से कॉन्टेक्स्ट-अवेयर प्रॉम्प्ट्स के साथ रूट करता है।

OpenAI, Claude, Gemini, Grok, Mistral, Google Cloud और AWS ट्रांसलेशन सेवाएं बैकएंड में समर्थित हैं।
कंटेंट को मॉडल टोकन लिमिट के अनुसार विभाजित किया जाता है और जहां संभव हो वहां संदर्भ बनाए रखा जाता है।
Redis आधारित Bull वर्कर्स अनुवाद कार्यों को असिंक्रोनस रूप से प्रोसेस करते हैं ताकि बड़े फ़ाइल API को ब्लॉक न करें।

क्वालिटी एश्योरेंस

अनुवाद के बाद आउटपुट को अपेक्षित संरचना के अनुसार जांचा जाता है और यदि यह अधूरा या गलत है तो सुधारा जाता है।

प्रगति को प्री-प्रोसेसिंग, ट्रांसलेशन और पोस्ट-प्रोसेसिंग चरणों में ट्रैक किया जाता है।
अमान्य JSON, XML या दस्तावेज़ संरचना होने पर रिपेयर और रिट्राई लॉजिक ट्रिगर हो सकता है।
ट्रांसलेशन हिस्ट्री में स्टेटस, शब्दों की संख्या, फ़ाइल साइज, उपयोग किए गए मॉडल और प्रोसेसिंग प्रतिशत रिकॉर्ड किए जाते हैं।

सुरक्षा और पुनर्निर्माण

सत्यापित अनुवादों को मूल दस्तावेज़ संरचना में वापस रखा जाता है, संग्रहीत किया जाता है और केवल अधिकृत एक्सेस के माध्यम से उपलब्ध कराया जाता है।

संरक्षित शब्द और ग्लॉसरी मैपिंग को अंतिम रूप देने से पहले पुनर्स्थापित किया जाता है।
अनुवादित दस्तावेज़ों को उनके लक्ष्य फॉर्मेट में पुनर्निर्मित किया जाता है और सुरक्षित S3 स्टोरेज में अपलोड किया जाता है।
एक्सेस चेक, उपयोगकर्ता स्वामित्व और संगठन संदर्भ सुनिश्चित करते हैं कि परिणाम सही खाते तक सीमित रहें।

ऑपरेशनल विश्वसनीयता

वास्तविक ट्रांसलेशन वर्कलोड के लिए बनाया गया

क्यू वर्कर कई जॉब्स को समानांतर में प्रोसेस करता है और लंबे कार्यों को रिक्वेस्ट लाइफसाइकल से बाहर रखता है।

सॉकेट आधारित प्रगति इवेंट्स फ्रंटएंड को हर चरण में अपडेट रखते हैं।

Cron मॉनिटरिंग विफल और चल रहे अनुवादों को ट्रैक करती है ताकि समस्याएं जल्दी पहचानी जा सकें।

टोकन अनुमान और उपयोग अपडेट अनुवाद से पहले और बाद में किए जाते हैं ताकि प्लान लिमिट सुरक्षित रहे और विफलता की स्थिति में अनुमान प्रदान किया जा सके।