Files
aza/AzA march 2026 - Kopie (4)/deploy/TRANSCRIBE_POLICY.md
2026-03-30 07:59:11 +02:00

2.3 KiB
Raw Blame History

AZA Transcription Policy

Ziel

Diese Richtlinie stellt sicher, dass lange medizinische Diktate mit maximaler Transkriptionsqualität verarbeitet werden.

Die wichtigste Regel: Audio darf vor der Transkription nicht verlustbehaftet re-komprimiert werden.


Eingangsformat

Der Server akzeptiert aktuell ausschließlich:

audio/mp4   (M4A / AAC)

Gründe:

  • konsistente Audioqualität
  • stabiler Decoderpfad
  • kleinere Dateien als WAV
  • bessere Sprachcodierung als stark komprimiertes MP3

Maximale Uploadgröße

500 MB

Begründung:

Lange medizinische Diktate können bis zu einer Stunde oder länger dauern.


Verarbeitungsregel (kritisch)

Audio darf nicht erneut verlustbehaftet komprimiert werden.

NICHT erlaubt:

M4A → MP3 → Transkription
M4A → AAC → Transkription

Erlaubt:

M4A → direkte Transkription

oder falls erforderlich:

M4A → einmalige verlustfreie Dekodierung → WAV / PCM → Transkription

Upload-Verarbeitung

Empfohlener Ablauf:

Upload
→ temporäre Datei speichern
→ Transkription aus Datei
→ Ergebnis erzeugen
→ temporäre Datei löschen

Audio soll nicht dauerhaft gespeichert werden.


Gründe für diese Architektur

  • maximale Sprachqualität
  • weniger Fehler bei Medikamentennamen
  • bessere Erkennung von Zahlen und Dosierungen
  • stabilere Verarbeitung langer Diktate

Verboten

  • verlustbehaftete Re-Kompression
  • Audioveränderungen vor der Transkription
  • unnötige Formatkonvertierungen

Empfohlene Aufnahmequalität

Für medizinische Diktate sollten Aufnahmegeräte oder Apps folgende Einstellungen verwenden:

Format: M4A (AAC)
Kanäle: Mono
Bitrate: 6496 kbps
Samplingrate: 44.1 kHz oder 48 kHz

Begründung:

  • sehr gute Sprachverständlichkeit
  • kleine Dateigrößen für lange Aufnahmen
  • stabile Erkennung medizinischer Begriffe
  • schnelle Uploads

Aufnahmeempfehlungen

Für möglichst wenige Transkriptionsfehler:

  • Mikrofon möglichst nah am Sprecher
  • gleichmäßige Lautstärke
  • wenig Raumhall
  • keine extrem niedrigen Bitraten

Diese Faktoren haben oft einen größeren Einfluss auf die Transkriptionsqualität als das Dateiformat selbst.


Zusammenfassung

Input: M4A (AAC)
Processing: direkt oder verlustfrei dekodiert
Never: M4A → MP3 Re-Encode