RAG vs. fine-tuning — kedy ktorý prístup pre vašu znalostnú bázu

Klient povie: „Chceme nahrať našu firemnú dokumentáciu do GPT-5 / Claude / Llama, aby odpovedal na otázky našich zamestnancov / klientov / partnerov." Polovica si predstavuje fine-tuning, druhá polovica RAG, a tretia polovica neistú miešaninu oboch. Tento článok je rozhodovací rámec pre prvý workshop: kedy RAG, kedy fine-tuning, kedy kombinácia, a kedy by ste mali počkať pol roka a nasadiť nič.

Dva svety, dva ciele

RAG (Retrieval-Augmented Generation): - Dáta sú externe, model ich neuvidí pri tréningu - Pri inference model dostane otázku + relevantné kúsky dát ako kontext - „Daj mi 5 najrelevantnejších odsekov z dokumentácie, ktoré odpovedajú na otázku X" → posielame modelu - Model odpovedá s ohľadom na presnú dokumentáciu, môže citovať zdroj

Fine-tuning: - Dáta sú zapečené do váh modelu počas tréningu - Pri inference model „pamätá" dáta (alebo aspoň ich štatistický odraz) - Model odpovedá so štýlom / formátom / doménovou znalosťou, ktorú sme ho učili - Pôvodný zdroj dát NIE JE prístupný pri inference, len jeho parametrická reprezentácia

Tieto dva svety neriešia ten istý problém. Najčastejšia chyba klientov: rozhodnú sa pre fine-tuning, keď ich reálny problém vyžaduje RAG.

Test: ktorá je vaša úloha?

Odpovedzte na tieto štyri otázky:

1. Hľadáte v dátach FAKTY, alebo učíte ŠTÝL?

Fakty („Aká je naša cena za hodinu pre zákazníka X?", „Aké sú parametre stroja Y?") → RAG. Fakt sa musí presne načítať z autoritatívneho zdroja. Fine-tunovaný model si fakt vymýšľa (hallucination je nepredvídateľná funkcia tréningových dát).
Štýl („Píš formálnym právnickým jazykom", „Odpovedaj v štruktúrovanom formáte našich technických správ") → fine-tuning môže pomôcť. RAG so správnym system prompts často dosiahne 80–90 % rovnakého výsledku.

2. Ako často sa dáta menia?

Denne / týždenne → RAG. Re-trénovať model pri každej zmene dát stojí $50–500 a 2–8 hodín. Re-indexovať RAG knowledge base = 5 minút, 0,5 EUR.
Mesačne / štvrťročne → buď. RAG je rovnako pohodlný.
Raz za 2+ rokov → fine-tuning sa dá zvážiť, ak je stable doménová znalosť (medicínske protokoly, právne kódexy, technické normy).

3. Musí byť odpoveď audit-ovateľná?

Áno (regulované odvetvia) → RAG je takmer povinný. Klient sa musí dať preukázať: „Model povedal X, lebo videl Y v dokumente Z." Fine-tuned model „povedal X" bez možnosti dokázať, odkiaľ to vie.
Nie → fine-tuning prichádza do hry.

4. Aký objem dát máte?

< 100 k tokenov → ani RAG ani fine-tuning. Vložte ich priamo do system promptu modelu s 200k context window (Claude Sonnet 4.6, Gemini 2.5 Pro). Najjednoduchšie, najrýchlejšie.
100 k – 10 M tokenov → RAG je optimálne. Vektorový index nad 1–10 M tokenmi je 200 MB pamäte, sub-100ms latencia.
10 M – 1 B tokenov → RAG funguje, ale potrebuje sofistikovanejšiu architektúru (multi-stage retrieval, hybrid search, reranking). Fine-tuning ako pomoc, nie ako náhrada.
> 1 B tokenov → fine-tuning ako pre-training step + RAG na vrcholeku.

Kedy fine-tuning jednoznačne vyhrá

1. Doménový jazyk / terminológia

Slovenská judikatúra, medicínska latinčina, technické skratky vo vašej firme („PVRZ" = názov výrobného protokolu, ktorý ani Google neuhádne). Bázový model nepozná. Fine-tuning ho naučí.

Príklad: Mistral 7B fine-tunovaný na 5 000 príkladoch slovenskej právnickej dokumentácie → odpovedá v správnom právnickom jazyku, pozná terminológiu „odporca", „navrhovateľ", „dohodárenstvo", „zmiernenie sankcie" v správnom kontexte. Bázový model píše štýlom Wikipédie.

Náklad: SFT na 5 000 príkladoch, RTX 4090, ~6 hodín, ~10 EUR elektrina. Reálne v praxi.

2. Štruktúrované výstupy s prísnym formátom

„Vždy odpovedaj JSON s tymto schema." System prompt to dosiahne 95 % presnosti. Fine-tuning to dosiahne 99,5+ % presnosti. V production systémoch je rozdiel 95 % vs. 99,5 % životne dôležitý — pri 95 % máte 5 % parse errors, ktoré preteká celá downstream pipeline.

3. Rýchlosť (latencia + cost) v high-throughput

RAG = embedding (50 ms) + retrieval (100 ms) + LLM s rozšíreným promptom (8 000 tokenov × 100 RPS = expensive). Fine-tuned model = LLM s krátkym promptom (500 tokenov × 100 RPS).

Pri >100 RPS workloads je fine-tuning 5–10× lacnejší. Pri <10 RPS nezáleží.

4. Off-line / on-device nasadenie

Mobilný klient nemôže volať RAG knowledge base. Fine-tuned 1B–4B model bežiaci na zariadení (CoreML, ExecuTorch, llama.cpp) — má všetky doménové znalosti zapečené, žiadny internet potrebný.

Kedy RAG jednoznačne vyhrá

1. Dáta sa menia rýchlo

Customer support knowledge base, FAQ, product documentation, internal wikis. Pridanie nového dokumentu = re-index (sekundy). Fine-tuning by znamenal nový tréning každý deň.

2. Citácie sú povinné

Compliance, právo, medicína, finančné poradenstvo. Klient musí vidieť: „Model si myslí X, lebo článok 12 paragraf 3 zákona Y to tak hovorí." Fine-tuning nevyrobí citácie — vyrobí parafrázovanú odpoveď bez audit trail.

3. Personalizácia per-user

User A vidí svoje dáta, user B vidí svoje. Model je rovnaký, ale knowledge base sa filtruje per-user. Fine-tuned model nemôže meniť čo vie podľa user-a.

4. Multi-language / multi-domain

Klient má dokumentáciu v SK, EN, DE a chce odpovedať v jazyku otázky. RAG: jeden model, 3 knowledge bases (alebo 1 base s metadátami jazyka). Fine-tuning: 3 modely, alebo zložitejšie multi-task training.

Hybridný prístup — najčastejšia produkčná realita

V skutočných nasadeniach v 2026 sa typicky kombinuje:

1.Bázový model: Claude Sonnet 4.6 alebo Llama 3.3 70B (open-weight)
2.Light fine-tuning (LoRA): na 1–5 k príkladoch domain-specific Q&A, naučí model „ako odpovedať" v štýle a formáte vašej firmy
3.RAG: nad živými dátami (dokumenty, databáza, ticket system)
4.System prompt: zhrnie kontext, identity, guardrails
5.Reranker: BGE-Reranker, Cohere Rerank — po retrieval-i preusporiada kúsky, aby najrelevantnejšie boli najvyššie

Tento stack rieši: model pozná „ako odpovedať" (fine-tune), pozná „aktuálne dáta" (RAG), pozná „kto sme a aké sú pravidlá" (system prompt). Plus citácie zdrojov, plus auditovateľnosť.

Konkrétne tooling 2026

RAG stack — naša default voľba

Vektorová DB: Qdrant (self-hosted) alebo Weaviate. PostgreSQL + pgvector pre malé use-cases (< 1 M vektorov).
Embedding model: BGE-M3 (open, SK/EN/DE multilingual) alebo OpenAI text-embedding-3-large pre cloud-only setups.
Reranker: BGE-Reranker-Large alebo Cohere Rerank 3.
Orchestration: LangChain alebo LlamaIndex pre quick PoC, vlastný Python kód pre production (LangChain layer of abstraction sa stáva tax pri väčších systémoch).
Document parsing: Docling (IBM, open) alebo Unstructured.io pre PDF/DOCX/HTML.
Chunking strategy: semantic chunking (250–500 tokens per chunk), 10–20 % overlap, metadata-rich.

Fine-tuning stack — kedy ho používame

Framework: Unsloth (2–5× rýchlejší ako vanilla TRL), HuggingFace TRL pre štandardné workflows.
Method: LoRA (rank 16–32) alebo QLoRA pre VRAM-constrained setupy. Full fine-tuning len pri >100 k príkladoch.
Base model: Llama 3.3 70B, Mistral Small 3 (22B), Qwen 2.5 32B podľa licencie + jazyka.
Eval: Custom eval set s 200+ otázkami + standard benchmarks (MMLU, HellaSwag) na detekciu regression.
Serving: vLLM alebo SGLang pre throughput, llama.cpp pre lokálne / on-device.

Náklady — reálne čísla 2026

RAG nasadenie (typický B2B knowledge base)

50 k dokumentov, 10 M tokenov, 500 RPS peak
Vektorová DB: Qdrant na 32GB VPS, $80/mesiac
Embedding (BGE-M3 self-hosted): RTX 4090 server, $200/mesiac amortizácia
LLM (Claude Sonnet 4.6): ~$3/M input tokens, ~$15/M output tokens. Pri 500 RPS s priemerne 8 k input + 500 output → $4 500–6 000 mesačne
Total: ~$5 500–6 500/mesiac plus jednorázová inicializácia $5–15 k

Alebo plne lokálny stack s Llama 3.3 70B na 2× H100: hardware $80–120 k jednorázovo, prevádzka $300/mesiac elektrina + údržba. Návratnosť oproti cloud-only: 12–18 mesiacov.

Fine-tuning nasadenie

Jednorázový tréning (LoRA, 5 000 príkladov, Llama 3.3 70B): $30–80 cloud GPU, alebo $5 elektriny na RTX 4090 ak máte vlastný
Eval + iteration cycle: 3–6 iterations × $50 = $150–300
Hosting fine-tuned modelu: rovnaký ako bázový (LoRA prirážka je nula pri merged weights)
Údržba: re-trénovať každé 3–6 mesiacov keď sa zmení doména

Reálny náklad fine-tuningu pri produkčnom systéme: < $1 000 ročne, ak máte tím schopný ho udržiavať. Hidden cost je „človeka kto vie urobiť eval a interpret-uje výsledky" — nie GPU.

Kedy nenasadiť ani jedno

Dáta sú malé (< 50 dokumentov) → použite cloud LLM (Claude Project, GPT Custom GPT, Gemini Workspace) priamo, žiadny custom infra.
Tím nemá MLOps kapacitu a nie ste ochotní investovať do data engineera na 6+ mesiacov.
Doména sa rapídne mení (start-up MVP, experimentovanie s produktom) → počkajte, kým sa dáta stabilizujú.
Klientske dáta sú vysoko regulované a nemáte hotové DPIA (GDPR impact assessment) — najprv vyriešte compliance, potom nasadzujte.

---

*Robíme RAG aj fine-tuning ako súčasť AI integrácií. Ak rozmýšľate o nasadení LLM nad firemnou bázou, prvá konzultácia (90 minút) prejde tieto štyri rozhodovacie otázky na vašom skutočnom use-case a dá vám orientačnú architektúru a rozpočet skôr, ako sa zaviažete k jednej alebo druhej ceste.*