2.3 KiB
AZA Transcription Policy
Ziel
Diese Richtlinie stellt sicher, dass lange medizinische Diktate mit maximaler Transkriptionsqualität verarbeitet werden.
Die wichtigste Regel: Audio darf vor der Transkription nicht verlustbehaftet re-komprimiert werden.
Eingangsformat
Der Server akzeptiert aktuell ausschließlich:
audio/mp4 (M4A / AAC)
Gründe:
- konsistente Audioqualität
- stabiler Decoderpfad
- kleinere Dateien als WAV
- bessere Sprachcodierung als stark komprimiertes MP3
Maximale Uploadgröße
500 MB
Begründung:
Lange medizinische Diktate können bis zu einer Stunde oder länger dauern.
Verarbeitungsregel (kritisch)
Audio darf nicht erneut verlustbehaftet komprimiert werden.
NICHT erlaubt:
M4A → MP3 → Transkription
M4A → AAC → Transkription
Erlaubt:
M4A → direkte Transkription
oder falls erforderlich:
M4A → einmalige verlustfreie Dekodierung → WAV / PCM → Transkription
Upload-Verarbeitung
Empfohlener Ablauf:
Upload
→ temporäre Datei speichern
→ Transkription aus Datei
→ Ergebnis erzeugen
→ temporäre Datei löschen
Audio soll nicht dauerhaft gespeichert werden.
Gründe für diese Architektur
- maximale Sprachqualität
- weniger Fehler bei Medikamentennamen
- bessere Erkennung von Zahlen und Dosierungen
- stabilere Verarbeitung langer Diktate
Verboten
- verlustbehaftete Re-Kompression
- Audioveränderungen vor der Transkription
- unnötige Formatkonvertierungen
Empfohlene Aufnahmequalität
Für medizinische Diktate sollten Aufnahmegeräte oder Apps folgende Einstellungen verwenden:
Format: M4A (AAC)
Kanäle: Mono
Bitrate: 64–96 kbps
Samplingrate: 44.1 kHz oder 48 kHz
Begründung:
- sehr gute Sprachverständlichkeit
- kleine Dateigrößen für lange Aufnahmen
- stabile Erkennung medizinischer Begriffe
- schnelle Uploads
Aufnahmeempfehlungen
Für möglichst wenige Transkriptionsfehler:
- Mikrofon möglichst nah am Sprecher
- gleichmäßige Lautstärke
- wenig Raumhall
- keine extrem niedrigen Bitraten
Diese Faktoren haben oft einen größeren Einfluss auf die Transkriptionsqualität als das Dateiformat selbst.
Zusammenfassung
Input: M4A (AAC)
Processing: direkt oder verlustfrei dekodiert
Never: M4A → MP3 Re-Encode