Přeskočit obsah

Modely a strategie zpracování

Při každém přepisu si volíte strategii (kde se zpracování provede) a model (jaký AI engine přepis vytvoří). Správná volba zásadně ovlivní přesnost, rychlost a soukromí vašich dat.

Dostupné modely závisí na konfiguraci administrátora

Tato stránka popisuje všechny modely, které Inkscriptio podporuje. Na vašem serveru jsou aktivní pouze ty, které povolil administrátor — ostatní se v nabídce nezobrazí.

Aktuálně aktivní modely: lokálně WhisperX a Qwen3-ASR. Pro sumarizaci lokálně Qwen3:8B, cloudově Claude Haiku (cloud sumarizace momentálně vypnuta).

Strategie: Local vs. Cloud

Local Cloud
Kde se zpracovává Na vašem serveru U externího poskytovatele (OpenAI, Google, …)
Soukromí dat Data neopustí server Data odcházejí třetí straně
Rychlost Závisí na hardware Obvykle rychlé
Náklady Bez poplatků za zpracování Platba za minutu/token
Dostupnost Vždy, i offline Vyžaduje připojení a API klíč

Doporučení

Pro citlivé nahrávky (interní schůzky, osobní data) vždy volte Local. Cloud použijte pro nárazové velké objemy nebo pokud lokální hardware nestačí.

Secure mode

Secure mode lze nastavit samostatně pro přepis a pro sumarizaci. Pokud je zapnutý Secure mode pro přepis (administrátorem nebo ve vašem profilu), Cloud strategie přepisu je skryta. Secure mode pro sumarizaci nezávisle omezuje cloudové poskytovatele shrnutí.

Lokální modely

Whisper (faster-whisper)

Nejuniverzálnější volba. Podporuje přes 90 jazyků.

Model Rychlost Přesnost Vhodné pro
Tiny / Base ⚡⚡⚡ Velmi rychlý ★★☆ Rychlý náhled, kvalitní nahrávky
Small / Medium ⚡⚡ Rychlý ★★★ Standardní použití
Large-v3 ⚡ Pomalejší ★★★★ Nejlepší přesnost, složité podmínky
Turbo ⚡⚡ Rychlý ★★★★ Dobrý kompromis rychlost/přesnost

WhisperX

WhisperX je vylepšená verze Whisper s přesným zarovnáním na úrovni slov a automatickou identifikací mluvčích (diarizace).

  • Ideální pro: nahrávky s více mluvčími (schůzky, rozhovory, panely)
  • Výstup: každý segment je označen, kdo mluví (SPEAKER_00, SPEAKER_01, …)
  • Rychlost: přibližně 1/10 délky nahrávky
  • Podporuje live přepis: Ano

Qwen3-ASR

Model od Alibaba, výborný pro češtinu a 52 dalších jazyků.

  • Rychlý, srovnatelný s WhisperX (přibližně 1/10 délky nahrávky)
  • Časy segmentů jsou odhadované (ne z analýzy zvuku)
  • Podporuje live přepis: Ne

NVIDIA Parakeet TDT 0.6B

Specializovaný model pro 25 evropských jazyků včetně češtiny s přesnými časovými razítky na úrovni slov.

  • Vynikající volba pro české nahrávky
  • Zvládá soubory až 3 hodiny v jednom průchodu
  • Podporuje live přepis: Ne

Cloudové modely

Cloudové modely jsou dostupné pouze pokud má administrátor nastaveny API klíče příslušných služeb.

Podmínky použití dat

Při použití cloudových modelů jsou vaše nahrávky odesílány externímu poskytovateli. Před použitím zkontrolujte jejich podmínky — zejména zda data využívají pro trénování modelů. Viz Bezpečnost a soukromí.

Model Poskytovatel Silné stránky
OpenAI Whisper v3 OpenAI Univerzální, vysoká přesnost
Google Chirp 3 Google Cloud Nahrávky až 8 hodin bez rozdělení
ElevenLabs Scribe v2 ElevenLabs Vestavěná diarizace až 32 mluvčích
Deepgram Nova-3 Deepgram Dávkové soubory i živé nahrávání, vestavěná diarizace

Identifikace mluvčích (Diarizace)

Automatické rozlišení, kdo mluví, podporují tyto modely:

  • WhisperX — lokální, velmi přesné
  • ElevenLabs Scribe v2 — cloudový, až 32 mluvčích
  • Deepgram Nova-3 — cloudový, dávkové i live nahrávání

Ostatní modely přepis vytvoří bez označení mluvčích.

Zpracování dlouhých nahrávek

Pro soubory delší než 15 minut aplikace automaticky nahrávku rozdělí na překrývající se části, každou zpracuje zvlášť a výsledky inteligentně sloučí. Tento proces probíhá zcela automaticky — nemusíte nic nastavovat. U velmi dlouhých nahrávek (2+ hodiny) může zpracování trvat desítky minut.

Live přepis

Pouze modely označené jako Live capable jsou dostupné při živém nahrávání. Jde o modely na bázi faster-whisper (Tiny až Large-v3, Turbo, WhisperX) a Deepgram Nova-3. Modely Qwen3-ASR a Parakeet live přepis nepodporují.