142 lines
2.3 KiB
Markdown
142 lines
2.3 KiB
Markdown
# AZA Transcription Policy
|
||
|
||
## Ziel
|
||
|
||
Diese Richtlinie stellt sicher, dass lange medizinische Diktate mit maximaler
|
||
Transkriptionsqualität verarbeitet werden.
|
||
|
||
Die wichtigste Regel: Audio darf vor der Transkription **nicht verlustbehaftet
|
||
re-komprimiert werden**.
|
||
|
||
---
|
||
|
||
## Eingangsformat
|
||
|
||
Der Server akzeptiert aktuell ausschließlich:
|
||
|
||
```
|
||
audio/mp4 (M4A / AAC)
|
||
```
|
||
|
||
Gründe:
|
||
|
||
- konsistente Audioqualität
|
||
- stabiler Decoderpfad
|
||
- kleinere Dateien als WAV
|
||
- bessere Sprachcodierung als stark komprimiertes MP3
|
||
|
||
---
|
||
|
||
## Maximale Uploadgröße
|
||
|
||
```
|
||
500 MB
|
||
```
|
||
|
||
Begründung:
|
||
|
||
Lange medizinische Diktate können bis zu einer Stunde oder länger dauern.
|
||
|
||
---
|
||
|
||
## Verarbeitungsregel (kritisch)
|
||
|
||
Audio darf **nicht erneut verlustbehaftet komprimiert werden**.
|
||
|
||
NICHT erlaubt:
|
||
|
||
```
|
||
M4A → MP3 → Transkription
|
||
M4A → AAC → Transkription
|
||
```
|
||
|
||
Erlaubt:
|
||
|
||
```
|
||
M4A → direkte Transkription
|
||
```
|
||
|
||
oder falls erforderlich:
|
||
|
||
```
|
||
M4A → einmalige verlustfreie Dekodierung → WAV / PCM → Transkription
|
||
```
|
||
|
||
---
|
||
|
||
## Upload-Verarbeitung
|
||
|
||
Empfohlener Ablauf:
|
||
|
||
```
|
||
Upload
|
||
→ temporäre Datei speichern
|
||
→ Transkription aus Datei
|
||
→ Ergebnis erzeugen
|
||
→ temporäre Datei löschen
|
||
```
|
||
|
||
Audio soll nicht dauerhaft gespeichert werden.
|
||
|
||
---
|
||
|
||
## Gründe für diese Architektur
|
||
|
||
- maximale Sprachqualität
|
||
- weniger Fehler bei Medikamentennamen
|
||
- bessere Erkennung von Zahlen und Dosierungen
|
||
- stabilere Verarbeitung langer Diktate
|
||
|
||
---
|
||
|
||
## Verboten
|
||
|
||
- verlustbehaftete Re-Kompression
|
||
- Audioveränderungen vor der Transkription
|
||
- unnötige Formatkonvertierungen
|
||
|
||
---
|
||
|
||
## Empfohlene Aufnahmequalität
|
||
|
||
Für medizinische Diktate sollten Aufnahmegeräte oder Apps folgende
|
||
Einstellungen verwenden:
|
||
|
||
```
|
||
Format: M4A (AAC)
|
||
Kanäle: Mono
|
||
Bitrate: 64–96 kbps
|
||
Samplingrate: 44.1 kHz oder 48 kHz
|
||
```
|
||
|
||
Begründung:
|
||
|
||
- sehr gute Sprachverständlichkeit
|
||
- kleine Dateigrößen für lange Aufnahmen
|
||
- stabile Erkennung medizinischer Begriffe
|
||
- schnelle Uploads
|
||
|
||
---
|
||
|
||
## Aufnahmeempfehlungen
|
||
|
||
Für möglichst wenige Transkriptionsfehler:
|
||
|
||
- Mikrofon möglichst nah am Sprecher
|
||
- gleichmäßige Lautstärke
|
||
- wenig Raumhall
|
||
- keine extrem niedrigen Bitraten
|
||
|
||
Diese Faktoren haben oft einen größeren Einfluss auf die
|
||
Transkriptionsqualität als das Dateiformat selbst.
|
||
|
||
---
|
||
|
||
## Zusammenfassung
|
||
|
||
```
|
||
Input: M4A (AAC)
|
||
Processing: direkt oder verlustfrei dekodiert
|
||
Never: M4A → MP3 Re-Encode
|
||
```
|