Files
aza/AzA march 2026/deploy/TRANSCRIBE_POLICY.md

142 lines
2.3 KiB
Markdown
Raw Permalink Normal View History

2026-03-25 22:03:39 +01:00
# AZA Transcription Policy
## Ziel
Diese Richtlinie stellt sicher, dass lange medizinische Diktate mit maximaler
Transkriptionsqualität verarbeitet werden.
Die wichtigste Regel: Audio darf vor der Transkription **nicht verlustbehaftet
re-komprimiert werden**.
---
## Eingangsformat
Der Server akzeptiert aktuell ausschließlich:
```
audio/mp4 (M4A / AAC)
```
Gründe:
- konsistente Audioqualität
- stabiler Decoderpfad
- kleinere Dateien als WAV
- bessere Sprachcodierung als stark komprimiertes MP3
---
## Maximale Uploadgröße
```
500 MB
```
Begründung:
Lange medizinische Diktate können bis zu einer Stunde oder länger dauern.
---
## Verarbeitungsregel (kritisch)
Audio darf **nicht erneut verlustbehaftet komprimiert werden**.
NICHT erlaubt:
```
M4A → MP3 → Transkription
M4A → AAC → Transkription
```
Erlaubt:
```
M4A → direkte Transkription
```
oder falls erforderlich:
```
M4A → einmalige verlustfreie Dekodierung → WAV / PCM → Transkription
```
---
## Upload-Verarbeitung
Empfohlener Ablauf:
```
Upload
→ temporäre Datei speichern
→ Transkription aus Datei
→ Ergebnis erzeugen
→ temporäre Datei löschen
```
Audio soll nicht dauerhaft gespeichert werden.
---
## Gründe für diese Architektur
- maximale Sprachqualität
- weniger Fehler bei Medikamentennamen
- bessere Erkennung von Zahlen und Dosierungen
- stabilere Verarbeitung langer Diktate
---
## Verboten
- verlustbehaftete Re-Kompression
- Audioveränderungen vor der Transkription
- unnötige Formatkonvertierungen
---
## Empfohlene Aufnahmequalität
Für medizinische Diktate sollten Aufnahmegeräte oder Apps folgende
Einstellungen verwenden:
```
Format: M4A (AAC)
Kanäle: Mono
Bitrate: 6496 kbps
Samplingrate: 44.1 kHz oder 48 kHz
```
Begründung:
- sehr gute Sprachverständlichkeit
- kleine Dateigrößen für lange Aufnahmen
- stabile Erkennung medizinischer Begriffe
- schnelle Uploads
---
## Aufnahmeempfehlungen
Für möglichst wenige Transkriptionsfehler:
- Mikrofon möglichst nah am Sprecher
- gleichmäßige Lautstärke
- wenig Raumhall
- keine extrem niedrigen Bitraten
Diese Faktoren haben oft einen größeren Einfluss auf die
Transkriptionsqualität als das Dateiformat selbst.
---
## Zusammenfassung
```
Input: M4A (AAC)
Processing: direkt oder verlustfrei dekodiert
Never: M4A → MP3 Re-Encode
```