Wie funktioniert die Dokumentenverarbeitungs-Pipeline?
Dokumente durchlaufen bei amaise eine definierte Pipeline mit mehreren Stufen:
ERSTELLT → OCR → SEGMENTIERUNG → SPLITTING → INDEXIERUNG → EXTRAKTION → ANALYSE → BEANTWORTUNG → BEREIT
Wesentliche Merkmale:
Idempotente Worker: Jede Stufe wird von einem eigenständigen, zustandslosen Worker verarbeitet. Bei Fehlern kann die Verarbeitung sicher wiederholt werden.
Asynchrone Kommunikation: Die Worker kommunizieren über Message Queues (SQS). Jeder Worker bearbeitet eine Aufgabe nach der anderen.
Mandantentrennung: Jede Aufgabe ist einem bestimmten Mandanten zugeordnet. Die gleichen Mandantenisolations-Kontrollen gelten wie im Rest der Anwendung.
Verschlüsselte Speicherung: Dokumente werden in S3 mit mandantenspezifischen Verschlüsselungsschlüsseln gespeichert.
