Systemarchitektur

Wie GPT Translator komplexe Dateien in zuverlässige mehrsprachige Dokumente umwandelt

Unser Übersetzungssystem ist als mehrstufige Pipeline aufgebaut: Dokumente werden analysiert, geschützte Begriffe zugeordnet, Inhalte über intelligentes Modell-Routing übersetzt, Ergebnisse überprüft und die finale Datei sicher für autorisierten Zugriff rekonstruiert.

Redis

Queue-Engine

10 Jobs

Worker-Konkurrenz

Live

Fortschritts-Updates

Speicherschicht

Diagramm der Dokumentübersetzungsarchitektur von GPT Translator

Übersetzungspipeline

Eine vierphasige Architektur für Qualität, Skalierbarkeit und Kontrolle

Das Backend trennt Ingestion, Übersetzung, Validierung und Rekonstruktion, sodass jedes Dateiformat seine Struktur behält, während sich die Übersetzungsengine auf Bedeutung, Terminologie und Konsistenz konzentriert.

Vorverarbeitung

Hochgeladene Dateien werden validiert, analysiert und in strukturierte, übersetzbare Einheiten umgewandelt, bevor Modellaufrufe beginnen.

Dateityp- und MIME-Prüfungen lehnen nicht unterstützte Uploads ab, bevor sie in die Warteschlange gelangen.
Dokumente werden je nach Format in Textknoten, Tabellen, Folien, Segmente oder strukturiertes JSON extrahiert.
Glossarbegriffe und ignorierte Wörter werden auf sichere Identifikatoren abgebildet, damit Markennamen, Platzhalter und geschützte Phrasen die Übersetzung unverändert überstehen.

Intelligente Übersetzungsengine

Das System leitet vorbereitete Inhalte über ausgewählte LLMs und Cloud-Übersetzungsdienste mit kontextsensitiven Prompts.

OpenAI, Claude, Gemini, Grok, Mistral, Google Cloud und AWS Übersetzungsdienste werden im Backend unterstützt.
Inhalte werden entsprechend der Token-Limits der Modelle segmentiert, wobei der Kontext soweit möglich erhalten bleibt.
Redis-gestützte Bull-Worker verarbeiten Übersetzungsjobs asynchron, sodass große Dateien die API nicht blockieren.

Qualitätssicherung

Nach der Übersetzung wird die Ausgabe mit der erwarteten Struktur abgeglichen und korrigiert, wenn sie unvollständig oder fehlerhaft ist.

Der Fortschritt wird über Vorverarbeitung, Übersetzung und Nachverarbeitung hinweg verfolgt.
Ungültiges JSON, XML, Dokumentknoten oder fehlende Struktur können Reparatur- und Wiederholungslogik auslösen.
Die Übersetzungshistorie speichert Status, Wortanzahl, Dateigröße, Modellwahl und Verarbeitungsfortschritt.

Sicherheit und Rekonstruktion

Validierte Übersetzungen werden in die ursprüngliche Dokumentstruktur zurückgeführt, gespeichert und nur über autorisierte Zugriffe bereitgestellt.

Geschützte Begriffe und Glossarzuordnungen werden vor der Finalisierung wiederhergestellt.
Übersetzte Dokumente werden in das Zielformat rekonstruiert und in sicherem S3-Speicher abgelegt.
Zugriffsprüfungen, Benutzerzugehörigkeit und Organisationskontext stellen sicher, dass Ergebnisse dem richtigen Konto zugeordnet sind.

Betriebliche Zuverlässigkeit

Für reale Übersetzungs-Workloads entwickelt

Der Queue-Worker verarbeitet mehrere Jobs parallel und hält langlaufende Prozesse außerhalb des Anfragezyklus.

Socket-basierte Fortschrittsereignisse halten das Frontend über alle Phasen hinweg aktuell.

Cron-Monitoring verfolgt fehlgeschlagene und laufende Übersetzungen, um Probleme schneller sichtbar zu machen.

Token-Schätzungen und Nutzungsupdates erfolgen vor und nach der Übersetzung, um Planlimits zu schützen und bei Fehlern Schätzwerte bereitzustellen.