Klient povie: „Chceme nahrať našu firemnú dokumentáciu do GPT-5 / Claude / Llama, aby odpovedal na otázky našich zamestnancov / klientov / partnerov." Polovica si predstavuje fine-tuning, druhá polovica RAG, a tretia polovica neistú miešaninu oboch. Tento článok je rozhodovací rámec pre prvý workshop: kedy RAG, kedy fine-tuning, kedy kombinácia, a kedy by ste mali počkať pol roka a nasadiť nič.
Dva svety, dva ciele
RAG (Retrieval-Augmented Generation): - Dáta sú externe, model ich neuvidí pri tréningu - Pri inference model dostane otázku + relevantné kúsky dát ako kontext - „Daj mi 5 najrelevantnejších odsekov z dokumentácie, ktoré odpovedajú na otázku X" → posielame modelu - Model odpovedá s ohľadom na presnú dokumentáciu, môže citovať zdroj
Fine-tuning: - Dáta sú zapečené do váh modelu počas tréningu - Pri inference model „pamätá" dáta (alebo aspoň ich štatistický odraz) - Model odpovedá so štýlom / formátom / doménovou znalosťou, ktorú sme ho učili - Pôvodný zdroj dát NIE JE prístupný pri inference, len jeho parametrická reprezentácia
Tieto dva svety neriešia ten istý problém. Najčastejšia chyba klientov: rozhodnú sa pre fine-tuning, keď ich reálny problém vyžaduje RAG.
Test: ktorá je vaša úloha?
Odpovedzte na tieto štyri otázky:
1. Hľadáte v dátach FAKTY, alebo učíte ŠTÝL?
- Fakty („Aká je naša cena za hodinu pre zákazníka X?", „Aké sú parametre stroja Y?") → RAG. Fakt sa musí presne načítať z autoritatívneho zdroja. Fine-tunovaný model si fakt vymýšľa (hallucination je nepredvídateľná funkcia tréningových dát).
- Štýl („Píš formálnym právnickým jazykom", „Odpovedaj v štruktúrovanom formáte našich technických správ") → fine-tuning môže pomôcť. RAG so správnym system prompts často dosiahne 80–90 % rovnakého výsledku.
2. Ako často sa dáta menia?
- Denne / týždenne → RAG. Re-trénovať model pri každej zmene dát stojí $50–500 a 2–8 hodín. Re-indexovať RAG knowledge base = 5 minút, 0,5 EUR.
- Mesačne / štvrťročne → buď. RAG je rovnako pohodlný.
- Raz za 2+ rokov → fine-tuning sa dá zvážiť, ak je stable doménová znalosť (medicínske protokoly, právne kódexy, technické normy).
3. Musí byť odpoveď audit-ovateľná?
- Áno (regulované odvetvia) → RAG je takmer povinný. Klient sa musí dať preukázať: „Model povedal X, lebo videl Y v dokumente Z." Fine-tuned model „povedal X" bez možnosti dokázať, odkiaľ to vie.
- Nie → fine-tuning prichádza do hry.
4. Aký objem dát máte?
- < 100 k tokenov → ani RAG ani fine-tuning. Vložte ich priamo do system promptu modelu s 200k context window (Claude Sonnet 4.6, Gemini 2.5 Pro). Najjednoduchšie, najrýchlejšie.
- 100 k – 10 M tokenov → RAG je optimálne. Vektorový index nad 1–10 M tokenmi je 200 MB pamäte, sub-100ms latencia.
- 10 M – 1 B tokenov → RAG funguje, ale potrebuje sofistikovanejšiu architektúru (multi-stage retrieval, hybrid search, reranking). Fine-tuning ako pomoc, nie ako náhrada.
- > 1 B tokenov → fine-tuning ako pre-training step + RAG na vrcholeku.
Kedy fine-tuning jednoznačne vyhrá
1. Doménový jazyk / terminológia
Slovenská judikatúra, medicínska latinčina, technické skratky vo vašej firme („PVRZ" = názov výrobného protokolu, ktorý ani Google neuhádne). Bázový model nepozná. Fine-tuning ho naučí.
Príklad: Mistral 7B fine-tunovaný na 5 000 príkladoch slovenskej právnickej dokumentácie → odpovedá v správnom právnickom jazyku, pozná terminológiu „odporca", „navrhovateľ", „dohodárenstvo", „zmiernenie sankcie" v správnom kontexte. Bázový model píše štýlom Wikipédie.
Náklad: SFT na 5 000 príkladoch, RTX 4090, ~6 hodín, ~10 EUR elektrina. Reálne v praxi.
2. Štruktúrované výstupy s prísnym formátom
„Vždy odpovedaj JSON s tymto schema." System prompt to dosiahne 95 % presnosti. Fine-tuning to dosiahne 99,5+ % presnosti. V production systémoch je rozdiel 95 % vs. 99,5 % životne dôležitý — pri 95 % máte 5 % parse errors, ktoré preteká celá downstream pipeline.
3. Rýchlosť (latencia + cost) v high-throughput
RAG = embedding (50 ms) + retrieval (100 ms) + LLM s rozšíreným promptom (8 000 tokenov × 100 RPS = expensive). Fine-tuned model = LLM s krátkym promptom (500 tokenov × 100 RPS).
Pri >100 RPS workloads je fine-tuning 5–10× lacnejší. Pri <10 RPS nezáleží.
4. Off-line / on-device nasadenie
Mobilný klient nemôže volať RAG knowledge base. Fine-tuned 1B–4B model bežiaci na zariadení (CoreML, ExecuTorch, llama.cpp) — má všetky doménové znalosti zapečené, žiadny internet potrebný.
Kedy RAG jednoznačne vyhrá
1. Dáta sa menia rýchlo
Customer support knowledge base, FAQ, product documentation, internal wikis. Pridanie nového dokumentu = re-index (sekundy). Fine-tuning by znamenal nový tréning každý deň.
2. Citácie sú povinné
Compliance, právo, medicína, finančné poradenstvo. Klient musí vidieť: „Model si myslí X, lebo článok 12 paragraf 3 zákona Y to tak hovorí." Fine-tuning nevyrobí citácie — vyrobí parafrázovanú odpoveď bez audit trail.
3. Personalizácia per-user
User A vidí svoje dáta, user B vidí svoje. Model je rovnaký, ale knowledge base sa filtruje per-user. Fine-tuned model nemôže meniť čo vie podľa user-a.
4. Multi-language / multi-domain
Klient má dokumentáciu v SK, EN, DE a chce odpovedať v jazyku otázky. RAG: jeden model, 3 knowledge bases (alebo 1 base s metadátami jazyka). Fine-tuning: 3 modely, alebo zložitejšie multi-task training.
Hybridný prístup — najčastejšia produkčná realita
V skutočných nasadeniach v 2026 sa typicky kombinuje:
- 1.Bázový model: Claude Sonnet 4.6 alebo Llama 3.3 70B (open-weight)
- 2.Light fine-tuning (LoRA): na 1–5 k príkladoch domain-specific Q&A, naučí model „ako odpovedať" v štýle a formáte vašej firmy
- 3.RAG: nad živými dátami (dokumenty, databáza, ticket system)
- 4.System prompt: zhrnie kontext, identity, guardrails
- 5.Reranker: BGE-Reranker, Cohere Rerank — po retrieval-i preusporiada kúsky, aby najrelevantnejšie boli najvyššie
Tento stack rieši: model pozná „ako odpovedať" (fine-tune), pozná „aktuálne dáta" (RAG), pozná „kto sme a aké sú pravidlá" (system prompt). Plus citácie zdrojov, plus auditovateľnosť.
Konkrétne tooling 2026
RAG stack — naša default voľba
- Vektorová DB: Qdrant (self-hosted) alebo Weaviate. PostgreSQL + pgvector pre malé use-cases (< 1 M vektorov).
- Embedding model: BGE-M3 (open, SK/EN/DE multilingual) alebo OpenAI text-embedding-3-large pre cloud-only setups.
- Reranker: BGE-Reranker-Large alebo Cohere Rerank 3.
- Orchestration: LangChain alebo LlamaIndex pre quick PoC, vlastný Python kód pre production (LangChain layer of abstraction sa stáva tax pri väčších systémoch).
- Document parsing: Docling (IBM, open) alebo Unstructured.io pre PDF/DOCX/HTML.
- Chunking strategy: semantic chunking (250–500 tokens per chunk), 10–20 % overlap, metadata-rich.
Fine-tuning stack — kedy ho používame
- Framework: Unsloth (2–5× rýchlejší ako vanilla TRL), HuggingFace TRL pre štandardné workflows.
- Method: LoRA (rank 16–32) alebo QLoRA pre VRAM-constrained setupy. Full fine-tuning len pri >100 k príkladoch.
- Base model: Llama 3.3 70B, Mistral Small 3 (22B), Qwen 2.5 32B podľa licencie + jazyka.
- Eval: Custom eval set s 200+ otázkami + standard benchmarks (MMLU, HellaSwag) na detekciu regression.
- Serving: vLLM alebo SGLang pre throughput, llama.cpp pre lokálne / on-device.
Náklady — reálne čísla 2026
RAG nasadenie (typický B2B knowledge base)
- 50 k dokumentov, 10 M tokenov, 500 RPS peak
- Vektorová DB: Qdrant na 32GB VPS, $80/mesiac
- Embedding (BGE-M3 self-hosted): RTX 4090 server, $200/mesiac amortizácia
- LLM (Claude Sonnet 4.6): ~$3/M input tokens, ~$15/M output tokens. Pri 500 RPS s priemerne 8 k input + 500 output → $4 500–6 000 mesačne
- Total: ~$5 500–6 500/mesiac plus jednorázová inicializácia $5–15 k
Alebo plne lokálny stack s Llama 3.3 70B na 2× H100: hardware $80–120 k jednorázovo, prevádzka $300/mesiac elektrina + údržba. Návratnosť oproti cloud-only: 12–18 mesiacov.
Fine-tuning nasadenie
- Jednorázový tréning (LoRA, 5 000 príkladov, Llama 3.3 70B): $30–80 cloud GPU, alebo $5 elektriny na RTX 4090 ak máte vlastný
- Eval + iteration cycle: 3–6 iterations × $50 = $150–300
- Hosting fine-tuned modelu: rovnaký ako bázový (LoRA prirážka je nula pri merged weights)
- Údržba: re-trénovať každé 3–6 mesiacov keď sa zmení doména
Reálny náklad fine-tuningu pri produkčnom systéme: < $1 000 ročne, ak máte tím schopný ho udržiavať. Hidden cost je „človeka kto vie urobiť eval a interpret-uje výsledky" — nie GPU.
Kedy nenasadiť ani jedno
- Dáta sú malé (< 50 dokumentov) → použite cloud LLM (Claude Project, GPT Custom GPT, Gemini Workspace) priamo, žiadny custom infra.
- Tím nemá MLOps kapacitu a nie ste ochotní investovať do data engineera na 6+ mesiacov.
- Doména sa rapídne mení (start-up MVP, experimentovanie s produktom) → počkajte, kým sa dáta stabilizujú.
- Klientske dáta sú vysoko regulované a nemáte hotové DPIA (GDPR impact assessment) — najprv vyriešte compliance, potom nasadzujte.
---
*Robíme RAG aj fine-tuning ako súčasť AI integrácií. Ak rozmýšľate o nasadení LLM nad firemnou bázou, prvá konzultácia (90 minút) prejde tieto štyri rozhodovacie otázky na vašom skutočnom use-case a dá vám orientačnú architektúru a rozpočet skôr, ako sa zaviažete k jednej alebo druhej ceste.*
