Files
aza/AzA march 2026 - Kopie/deploy/TRANSCRIBE_POLICY.md
2026-03-30 07:59:11 +02:00

142 lines
2.3 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# AZA Transcription Policy
## Ziel
Diese Richtlinie stellt sicher, dass lange medizinische Diktate mit maximaler
Transkriptionsqualität verarbeitet werden.
Die wichtigste Regel: Audio darf vor der Transkription **nicht verlustbehaftet
re-komprimiert werden**.
---
## Eingangsformat
Der Server akzeptiert aktuell ausschließlich:
```
audio/mp4 (M4A / AAC)
```
Gründe:
- konsistente Audioqualität
- stabiler Decoderpfad
- kleinere Dateien als WAV
- bessere Sprachcodierung als stark komprimiertes MP3
---
## Maximale Uploadgröße
```
500 MB
```
Begründung:
Lange medizinische Diktate können bis zu einer Stunde oder länger dauern.
---
## Verarbeitungsregel (kritisch)
Audio darf **nicht erneut verlustbehaftet komprimiert werden**.
NICHT erlaubt:
```
M4A → MP3 → Transkription
M4A → AAC → Transkription
```
Erlaubt:
```
M4A → direkte Transkription
```
oder falls erforderlich:
```
M4A → einmalige verlustfreie Dekodierung → WAV / PCM → Transkription
```
---
## Upload-Verarbeitung
Empfohlener Ablauf:
```
Upload
→ temporäre Datei speichern
→ Transkription aus Datei
→ Ergebnis erzeugen
→ temporäre Datei löschen
```
Audio soll nicht dauerhaft gespeichert werden.
---
## Gründe für diese Architektur
- maximale Sprachqualität
- weniger Fehler bei Medikamentennamen
- bessere Erkennung von Zahlen und Dosierungen
- stabilere Verarbeitung langer Diktate
---
## Verboten
- verlustbehaftete Re-Kompression
- Audioveränderungen vor der Transkription
- unnötige Formatkonvertierungen
---
## Empfohlene Aufnahmequalität
Für medizinische Diktate sollten Aufnahmegeräte oder Apps folgende
Einstellungen verwenden:
```
Format: M4A (AAC)
Kanäle: Mono
Bitrate: 6496 kbps
Samplingrate: 44.1 kHz oder 48 kHz
```
Begründung:
- sehr gute Sprachverständlichkeit
- kleine Dateigrößen für lange Aufnahmen
- stabile Erkennung medizinischer Begriffe
- schnelle Uploads
---
## Aufnahmeempfehlungen
Für möglichst wenige Transkriptionsfehler:
- Mikrofon möglichst nah am Sprecher
- gleichmäßige Lautstärke
- wenig Raumhall
- keine extrem niedrigen Bitraten
Diese Faktoren haben oft einen größeren Einfluss auf die
Transkriptionsqualität als das Dateiformat selbst.
---
## Zusammenfassung
```
Input: M4A (AAC)
Processing: direkt oder verlustfrei dekodiert
Never: M4A → MP3 Re-Encode
```