Pipeline de traduction
Le backend sépare l’ingestion, la traduction, la validation et la reconstruction afin que chaque format de fichier conserve sa structure, tandis que le moteur de traduction se concentre sur le sens, la terminologie et la cohérence.
Les fichiers téléchargés sont validés, analysés et convertis en unités structurées traduisibles avant les appels aux modèles.
- Les vérifications de type de fichier et de MIME rejettent les téléchargements non pris en charge avant leur entrée dans la file.
- Les documents sont extraits en nœuds de texte, feuilles, diapositives, segments ou JSON structuré selon le format.
- Les termes du glossaire et les mots ignorés sont mappés à des identifiants sécurisés afin que les noms de marque, les placeholders et les phrases protégées soient préservés lors de la traduction.
Le système achemine le contenu préparé via des LLM sélectionnés et des services de traduction cloud avec des invites adaptées au contexte.
- Les services de traduction OpenAI, Claude, Gemini, Grok, Mistral, Google Cloud et AWS sont pris en charge.
- Le contenu est segmenté selon les limites de tokens des modèles tout en préservant le contexte lorsque le format le permet.
- Les workers Bull basés sur Redis traitent les tâches de traduction de manière asynchrone afin que les fichiers volumineux ne bloquent pas l’API.
Après la traduction, la sortie est vérifiée par rapport à la structure attendue et corrigée si elle est incomplète ou invalide.
- La progression est suivie à travers les phases de prétraitement, de traduction et de post-traitement.
- Des JSON, XML ou structures de documents invalides peuvent déclencher une logique de réparation et de nouvelle tentative.
- L’historique de traduction enregistre le statut, le nombre de mots, la taille du fichier, le modèle utilisé et le pourcentage de traitement.
Les traductions validées sont réintégrées dans la structure originale du document, stockées et accessibles uniquement via des flux autorisés.
- Les termes protégés et les correspondances du glossaire sont restaurés avant la finalisation.
- Les documents traduits sont reconstruits dans leur format cible et téléchargés vers un stockage sécurisé S3.
- Les contrôles d’accès, la propriété utilisateur et le contexte organisationnel garantissent que les résultats sont limités au bon compte.