Prekladový pipeline
Backend oddeľuje ingestiu, preklad, validáciu a rekonštrukciu, aby si každý formát súboru zachoval svoju štruktúru, zatiaľ čo prekladový engine sa zameriava na význam, terminológiu a konzistentnosť.
Nahrané súbory sa validujú, analyzujú a konvertujú na štruktúrované jednotky vhodné na preklad ešte pred spustením modelov.
- Kontroly typu súboru a MIME odmietnu nepodporované súbory ešte pred zaradením do fronty.
- Dokumenty sa extrahujú do textových uzlov, tabuliek, snímok, segmentov alebo štruktúrovaného JSON podľa formátu.
- Pojmy zo slovníka a ignorované slová sa mapujú na bezpečné identifikátory, aby názvy značiek, zástupné symboly a chránené frázy zostali zachované.
Systém smeruje pripravený obsah cez vybrané LLM a cloudové prekladové služby pomocou kontextových promptov.
- Backend podporuje služby OpenAI, Claude, Gemini, Grok, Mistral, Google Cloud a AWS.
- Obsah sa rozdeľuje podľa limitov tokenov modelov pri zachovaní kontextu, ak je to možné.
- Redis-backed Bull workeri spracúvajú prekladové úlohy asynchrónne, aby veľké súbory neblokovali API.
Po preklade sa výstup kontroluje podľa očakávanej štruktúry a opravuje sa, ak je neúplný alebo nesprávny.
- Priebeh sa sleduje počas predspracovania, prekladu a postprocesingu.
- Neplatný JSON, XML alebo štruktúra dokumentu môže spustiť opravy a opakované pokusy.
- História prekladu zaznamenáva stav, počet slov, veľkosť súboru, použitý model a percento spracovania.
Overené preklady sa vracajú do pôvodnej štruktúry dokumentu, ukladajú sa a sprístupňujú iba cez autorizované procesy.
- Chránené termíny a mapovania slovníka sa obnovujú pred dokončením súboru.
- Preložené dokumenty sa rekonštruujú do cieľového formátu a ukladajú do bezpečného S3 úložiska.
- Kontroly prístupu, vlastníctvo používateľa a organizačný kontext zabezpečujú, že výsledky sú dostupné len správnemu účtu.