অনুবাদ পাইপলাইন
ব্যাকএন্ড ইনজেশন, অনুবাদ, যাচাই এবং পুনর্গঠন আলাদা করে যাতে প্রতিটি ফাইল ফরম্যাট তার কাঠামো বজায় রাখতে পারে এবং অনুবাদ ইঞ্জিন অর্থ, টার্মিনোলজি এবং সামঞ্জস্যের উপর ফোকাস করতে পারে।
আপলোড করা ফাইলগুলো যাচাই, পার্স এবং গঠনমূলক অনুবাদযোগ্য ইউনিটে রূপান্তর করা হয় মডেল কল শুরু হওয়ার আগে।
- ফাইল টাইপ এবং MIME চেকের মাধ্যমে অসমর্থিত আপলোডগুলো কিউতে যাওয়ার আগেই বাতিল করা হয়।
- ফরম্যাট অনুযায়ী ডকুমেন্টগুলো টেক্সট নোড, শীট, স্লাইড, সেগমেন্ট বা স্ট্রাকচার্ড JSON-এ এক্সট্রাক্ট করা হয়।
- গ্লসারি টার্ম এবং উপেক্ষিত শব্দগুলো নিরাপদ আইডেন্টিফায়ারে ম্যাপ করা হয় যাতে ব্র্যান্ড নাম, প্লেসহোল্ডার এবং সুরক্ষিত বাক্যাংশ অনুবাদের সময় অপরিবর্তিত থাকে।
সিস্টেমটি প্রস্তুত কনটেন্ট নির্বাচিত LLM এবং ক্লাউড ট্রান্সলেশন সার্ভিসের মাধ্যমে কনটেক্সট-অওয়্যার প্রম্পট ব্যবহার করে রাউট করে।
- ব্যাকএন্ডে OpenAI, Claude, Gemini, Grok, Mistral, Google Cloud এবং AWS অনুবাদ সেবা সমর্থিত।
- মডেলের টোকেন সীমা অনুযায়ী কনটেন্ট ভাগ করা হয় এবং যেখানে সম্ভব আশেপাশের কনটেক্সট সংরক্ষণ করা হয়।
- Redis-সমর্থিত Bull ওয়ার্কাররা অ্যাসিঙ্ক্রোনাসভাবে ডকুমেন্ট অনুবাদ প্রসেস করে যাতে বড় ফাইল API-কে ব্লক না করে।
অনুবাদের পরে আউটপুট প্রত্যাশিত কাঠামোর সাথে যাচাই করা হয় এবং অসম্পূর্ণ বা ভুল হলে সংশোধন করা হয়।
- প্রি-প্রসেসিং, অনুবাদ এবং পোস্ট-প্রসেসিং ধাপ জুড়ে অগ্রগতি ট্র্যাক করা হয়।
- অবৈধ JSON, XML, ডকুমেন্ট নোড বা কাঠামোগত ত্রুটি হলে রিপেয়ার এবং রিট্রাই লজিক চালু হয়।
- অনুবাদ ইতিহাসে স্ট্যাটাস, শব্দ সংখ্যা, ফাইল সাইজ, ব্যবহৃত মডেল এবং প্রসেসিং শতাংশ রেকর্ড করা হয়।
যাচাইকৃত অনুবাদগুলো মূল ডকুমেন্ট কাঠামোতে পুনরায় স্থাপন করা হয়, সংরক্ষণ করা হয় এবং শুধুমাত্র অনুমোদিত প্রক্রিয়ার মাধ্যমে অ্যাক্সেসযোগ্য করা হয়।
- ফাইনাল করার আগে সুরক্ষিত টার্ম এবং গ্লসারি ম্যাপিং পুনরুদ্ধার করা হয়।
- অনুবাদিত ডকুমেন্টগুলো টার্গেট ফরম্যাটে পুনর্গঠন করে নিরাপদ S3 স্টোরেজে আপলোড করা হয়।
- অ্যাক্সেস চেক, ব্যবহারকারীর মালিকানা এবং অর্গানাইজেশন কনটেক্সট নিশ্চিত করে যে ফলাফল সঠিক অ্যাকাউন্টে সীমাবদ্ধ থাকে।