aza/AzA march 2026 - Kopie (7)/deploy/TRANSCRIBE_POLICY.md

# AZA Transcription Policy

## Ziel

Diese Richtlinie stellt sicher, dass lange medizinische Diktate mit maximaler
Transkriptionsqualität verarbeitet werden.

Die wichtigste Regel: Audio darf vor der Transkription **nicht verlustbehaftet
re-komprimiert werden**.

---

## Eingangsformat

Der Server akzeptiert aktuell ausschließlich:

```
audio/mp4   (M4A / AAC)
```

Gründe:

- konsistente Audioqualität
- stabiler Decoderpfad
- kleinere Dateien als WAV
- bessere Sprachcodierung als stark komprimiertes MP3

---

## Maximale Uploadgröße

```
500 MB
```

Begründung:

Lange medizinische Diktate können bis zu einer Stunde oder länger dauern.

---

## Verarbeitungsregel (kritisch)

Audio darf **nicht erneut verlustbehaftet komprimiert werden**.

NICHT erlaubt:

```
M4A → MP3 → Transkription
M4A → AAC → Transkription
```

Erlaubt:

```
M4A → direkte Transkription
```

oder falls erforderlich:

```
M4A → einmalige verlustfreie Dekodierung → WAV / PCM → Transkription
```

---

## Upload-Verarbeitung

Empfohlener Ablauf:

```
Upload
→ temporäre Datei speichern
→ Transkription aus Datei
→ Ergebnis erzeugen
→ temporäre Datei löschen
```

Audio soll nicht dauerhaft gespeichert werden.

---

## Gründe für diese Architektur

- maximale Sprachqualität
- weniger Fehler bei Medikamentennamen
- bessere Erkennung von Zahlen und Dosierungen
- stabilere Verarbeitung langer Diktate

---

## Verboten

- verlustbehaftete Re-Kompression
- Audioveränderungen vor der Transkription
- unnötige Formatkonvertierungen

---

## Empfohlene Aufnahmequalität

Für medizinische Diktate sollten Aufnahmegeräte oder Apps folgende
Einstellungen verwenden:

```
Format: M4A (AAC)
Kanäle: Mono
Bitrate: 64–96 kbps
Samplingrate: 44.1 kHz oder 48 kHz
```

Begründung:

- sehr gute Sprachverständlichkeit
- kleine Dateigrößen für lange Aufnahmen
- stabile Erkennung medizinischer Begriffe
- schnelle Uploads

---

## Aufnahmeempfehlungen

Für möglichst wenige Transkriptionsfehler:

- Mikrofon möglichst nah am Sprecher
- gleichmäßige Lautstärke
- wenig Raumhall
- keine extrem niedrigen Bitraten

Diese Faktoren haben oft einen größeren Einfluss auf die
Transkriptionsqualität als das Dateiformat selbst.

---

## Zusammenfassung

```
Input: M4A (AAC)
Processing: direkt oder verlustfrei dekodiert
Never: M4A → MP3 Re-Encode
```