Architecture du système

Comment GPT Translator transforme des fichiers complexes en documents multilingues fiables

Notre système de traduction est conçu comme un pipeline en plusieurs étapes : les documents sont analysés, les termes protégés sont mappés, le contenu est traduit via un routage intelligent des modèles, le résultat est vérifié, puis le fichier final est reconstruit de manière sécurisée pour un accès autorisé.

Redis

Moteur de file

10 tâches

Concurrence des workers

En temps réel

Mises à jour de progression

Couche de stockage

Schéma de l’architecture de traduction de documents GPT Translator

Pipeline de traduction

Une architecture en quatre phases pour la qualité, la scalabilité et le contrôle

Le backend sépare l’ingestion, la traduction, la validation et la reconstruction afin que chaque format de fichier conserve sa structure, tandis que le moteur de traduction se concentre sur le sens, la terminologie et la cohérence.

Prétraitement

Les fichiers téléchargés sont validés, analysés et convertis en unités structurées traduisibles avant les appels aux modèles.

Les vérifications de type de fichier et de MIME rejettent les téléchargements non pris en charge avant leur entrée dans la file.
Les documents sont extraits en nœuds de texte, feuilles, diapositives, segments ou JSON structuré selon le format.
Les termes du glossaire et les mots ignorés sont mappés à des identifiants sécurisés afin que les noms de marque, les placeholders et les phrases protégées soient préservés lors de la traduction.

Moteur de traduction intelligent

Le système achemine le contenu préparé via des LLM sélectionnés et des services de traduction cloud avec des invites adaptées au contexte.

Les services de traduction OpenAI, Claude, Gemini, Grok, Mistral, Google Cloud et AWS sont pris en charge.
Le contenu est segmenté selon les limites de tokens des modèles tout en préservant le contexte lorsque le format le permet.
Les workers Bull basés sur Redis traitent les tâches de traduction de manière asynchrone afin que les fichiers volumineux ne bloquent pas l’API.

Assurance qualité

Après la traduction, la sortie est vérifiée par rapport à la structure attendue et corrigée si elle est incomplète ou invalide.

La progression est suivie à travers les phases de prétraitement, de traduction et de post-traitement.
Des JSON, XML ou structures de documents invalides peuvent déclencher une logique de réparation et de nouvelle tentative.
L’historique de traduction enregistre le statut, le nombre de mots, la taille du fichier, le modèle utilisé et le pourcentage de traitement.

Sécurité et reconstruction

Les traductions validées sont réintégrées dans la structure originale du document, stockées et accessibles uniquement via des flux autorisés.

Les termes protégés et les correspondances du glossaire sont restaurés avant la finalisation.
Les documents traduits sont reconstruits dans leur format cible et téléchargés vers un stockage sécurisé S3.
Les contrôles d’accès, la propriété utilisateur et le contexte organisationnel garantissent que les résultats sont limités au bon compte.

Fiabilité opérationnelle

Conçu pour des charges de traduction réelles

Le worker de file traite plusieurs tâches en parallèle tout en gardant les processus longs hors du cycle de requête.

Les événements de progression basés sur des sockets maintiennent le frontend à jour à chaque étape.

La surveillance via cron suit les traductions échouées et en cours pour détecter rapidement les problèmes.

L’estimation des tokens et le suivi de l’utilisation sont effectués avant et après la traduction afin de protéger les limites du plan et fournir des estimations en cas d’échec.