RAG vs. fine-tuning — kiedy które podejście dla Państwa bazy wiedzy

Klient mówi: „Chcemy wgrać naszą dokumentację firmową do GPT-5 / Claude / Llama, żeby odpowiadał na pytania naszych pracowników / klientów / partnerów." Połowa wyobraża sobie fine-tuning, druga połowa RAG, a trzecia połowa niepewną mieszaninę obu. Ten artykuł to ramy decyzyjne dla pierwszego warsztatu: kiedy RAG, kiedy fine-tuning, kiedy kombinacja, a kiedy powinni Państwo poczekać pół roku i nie wdrażać nic.

Dwa światy, dwa cele

RAG (Retrieval-Augmented Generation): - Dane są zewnętrzne, model ich nie zobaczy przy treningu - Przy inference model dostaje pytanie + odpowiednie kawałki danych jako kontekst - „Daj mi 5 najbardziej odpowiednich ustępów z dokumentacji, które odpowiadają na pytanie X" → wysyłamy modelowi - Model odpowiada uwzględniając dokładną dokumentację, może cytować źródło

Fine-tuning: - Dane są zapieczone w wagach modelu podczas treningu - Przy inference model „pamięta" dane (albo przynajmniej ich statystyczne odbicie) - Model odpowiada ze stylem / formatem / wiedzą domenową, której go uczyliśmy - Pierwotne źródło danych NIE JEST dostępne przy inference, tylko jego parametryczna reprezentacja

Te dwa światy nie rozwiązują tego samego problemu. Najczęstszy błąd klientów: decydują się na fine-tuning, gdy ich realny problem wymaga RAG.

Test: które jest Państwa zadanie?

Odpowiedzcie na te cztery pytania:

1. Szukacie w danych FAKTÓW czy uczycie STYLU?

Fakty („Jaka jest nasza cena za godzinę dla klienta X?", „Jakie są parametry maszyny Y?") → RAG. Fakt musi być precyzyjnie wczytany z autorytatywnego źródła. Fine-tunowany model sobie fakt wymyśla (halucynacja jest nieprzewidywalną funkcją danych treningowych).
Styl („Pisz formalnym językiem prawniczym", „Odpowiadaj w ustrukturyzowanym formacie naszych raportów technicznych") → fine-tuning może pomóc. RAG z właściwym system prompts często osiąga 80–90 % tego samego wyniku.

2. Jak często zmieniają się dane?

Dziennie / tygodniowo → RAG. Re-trenować model przy każdej zmianie danych kosztuje $50–500 i 2–8 godzin. Re-indeksować RAG knowledge base = 5 minut, 0,5 EUR.
Miesięcznie / kwartalnie → którekolwiek. RAG jest równie wygodny.
Raz na 2+ lat → fine-tuning można rozważyć, jeśli to stabilna wiedza domenowa (protokoły medyczne, kodeksy prawne, normy techniczne).

3. Musi odpowiedź być audytowalna?

Tak (branże regulowane) → RAG jest niemal obowiązkowy. Klient musi móc udowodnić: „Model powiedział X, bo widział Y w dokumencie Z." Fine-tuned model „powiedział X" bez możliwości udowodnienia, skąd to wie.
Nie → fine-tuning wchodzi w grę.

4. Jaką ilość danych macie?

< 100 k tokenów → ani RAG ani fine-tuning. Wstawcie je wprost w system prompt modelu z 200k context window (Claude Sonnet 4.6, Gemini 2.5 Pro). Najprościej, najszybciej.
100 k – 10 M tokenów → RAG jest optymalne. Wektorowy index nad 1–10 M tokenami to 200 MB pamięci, sub-100ms latencja.
10 M – 1 B tokenów → RAG działa, ale potrzebuje bardziej wyrafinowanej architektury (multi-stage retrieval, hybrid search, reranking). Fine-tuning jako pomoc, nie jako zastąpienie.
> 1 B tokenów → fine-tuning jako pre-training step + RAG na szczycie.

Kiedy fine-tuning jednoznacznie wygrywa

1. Język domenowy / terminologia

Słowacka judykatura, łacina medyczna, skróty techniczne w Państwa firmie („PVRZ" = nazwa protokołu produkcyjnego, którego nawet Google nie odgadnie). Bazowy model nie zna. Fine-tuning go nauczy.

Przykład: Mistral 7B fine-tunowany na 5 000 przykładach słowackiej dokumentacji prawnej → odpowiada we właściwym języku prawniczym, zna terminologię „odporca", „navrhovateľ", „dohodárenstvo", „zmiernenie sankcie" we właściwym kontekście. Bazowy model pisze stylem Wikipedii.

Koszt: SFT na 5 000 przykładach, RTX 4090, ~6 godzin, ~10 EUR energia. Realnie w praktyce.

2. Ustrukturyzowane wyjścia z surowym formatem

„Zawsze odpowiadaj JSON z tym schema." System prompt osiąga 95 % precyzji. Fine-tuning osiąga 99,5+ % precyzji. W systemach produkcyjnych różnica 95 % vs. 99,5 % jest życiowo ważna — przy 95 % macie 5 % parse errors, które przelewa całą downstream pipeline.

3. Prędkość (latencja + cost) w high-throughput

RAG = embedding (50 ms) + retrieval (100 ms) + LLM z rozszerzonym promptem (8 000 tokenów × 100 RPS = expensive). Fine-tuned model = LLM z krótkim promptem (500 tokenów × 100 RPS).

Przy >100 RPS workloads fine-tuning jest 5–10× tańszy. Przy <10 RPS nie ma znaczenia.

4. Off-line / on-device wdrożenie

Klient mobilny nie może wywołać RAG knowledge base. Fine-tuned model 1B–4B działający na urządzeniu (CoreML, ExecuTorch, llama.cpp) — ma wszystkie wiedze domenowe zapieczone, żaden internet potrzebny.

Kiedy RAG jednoznacznie wygrywa

1. Dane zmieniają się szybko

Customer support knowledge base, FAQ, product documentation, internal wikis. Dodanie nowego dokumentu = re-index (sekundy). Fine-tuning oznaczałby nowy trening każdego dnia.

2. Cytacje są obowiązkowe

Compliance, prawo, medycyna, doradztwo finansowe. Klient musi widzieć: „Model myśli X, ponieważ artykuł 12 paragraf 3 ustawy Y tak mówi." Fine-tuning nie wyprodukuje cytatów — wyprodukuje sparafrazowaną odpowiedź bez audit trail.

3. Personalizacja per-user

User A widzi swoje dane, user B widzi swoje. Model jest taki sam, ale knowledge base filtruje per-user. Fine-tuned model nie może zmieniać tego, co wie, według usera.

4. Multi-language / multi-domain

Klient ma dokumentację w SK, EN, DE i chce odpowiadać w języku pytania. RAG: jeden model, 3 knowledge bases (lub 1 base z metadanymi języka). Fine-tuning: 3 modele lub bardziej złożony multi-task training.

Podejście hybrydowe — najczęstsza produkcyjna rzeczywistość

W rzeczywistych wdrożeniach w 2026 typowo łączy się:

1.Model bazowy: Claude Sonnet 4.6 lub Llama 3.3 70B (open-weight)
2.Light fine-tuning (LoRA): na 1–5 k przykładach domain-specific Q&A, uczy model „jak odpowiadać" w stylu i formacie Państwa firmy
3.RAG: nad żywymi danymi (dokumenty, baza danych, ticket system)
4.System prompt: podsumowuje kontekst, identity, guardrails
5.Reranker: BGE-Reranker, Cohere Rerank — po retrieval przestawia kawałki, by najbardziej odpowiednie były najwyżej

Ten stack rozwiązuje: model zna „jak odpowiadać" (fine-tune), zna „aktualne dane" (RAG), zna „kim jesteśmy i jakie są zasady" (system prompt). Plus cytacje źródeł, plus audytowalność.

Konkretne tooling 2026

RAG stack — nasz domyślny wybór

Wektorowa DB: Qdrant (self-hosted) lub Weaviate. PostgreSQL + pgvector dla małych use-cases (< 1 M wektorów).
Embedding model: BGE-M3 (open, SK/EN/DE multilingual) lub OpenAI text-embedding-3-large dla setupów cloud-only.
Reranker: BGE-Reranker-Large lub Cohere Rerank 3.
Orchestration: LangChain lub LlamaIndex dla quick PoC, własny kod Python dla produkcji (warstwa abstrakcji LangChain staje się tax przy większych systemach).
Document parsing: Docling (IBM, open) lub Unstructured.io dla PDF/DOCX/HTML.
Chunking strategy: semantic chunking (250–500 tokens per chunk), 10–20 % overlap, metadata-rich.

Fine-tuning stack — kiedy go używamy

Framework: Unsloth (2–5× szybszy niż vanilla TRL), HuggingFace TRL dla standardowych workflows.
Method: LoRA (rank 16–32) lub QLoRA dla VRAM-constrained setupów. Full fine-tuning tylko przy >100 k przykładach.
Base model: Llama 3.3 70B, Mistral Small 3 (22B), Qwen 2.5 32B według licencji + języka.
Eval: Custom eval set z 200+ pytaniami + standard benchmarks (MMLU, HellaSwag) na wykrywanie regression.
Serving: vLLM lub SGLang dla throughput, llama.cpp dla lokalnego / on-device.

Koszty — realne liczby 2026

RAG wdrożenie (typowa B2B knowledge base)

50 k dokumentów, 10 M tokenów, 500 RPS peak
Wektorowa DB: Qdrant na 32GB VPS, $80/miesiąc
Embedding (BGE-M3 self-hosted): RTX 4090 server, $200/miesiąc amortyzacja
LLM (Claude Sonnet 4.6): ~$3/M input tokens, ~$15/M output tokens. Przy 500 RPS ze średnio 8 k input + 500 output → $4 500–6 000 miesięcznie
Total: ~$5 500–6 500/miesiąc plus jednorazowa inicjalizacja $5–15 k

Albo w pełni lokalny stack z Llama 3.3 70B na 2× H100: hardware $80–120 k jednorazowo, eksploatacja $300/miesiąc energia + utrzymanie. Zwrot w porównaniu do cloud-only: 12–18 miesięcy.

Fine-tuning wdrożenie

Jednorazowy trening (LoRA, 5 000 przykładów, Llama 3.3 70B): $30–80 cloud GPU, lub $5 energii na RTX 4090, jeśli macie własny
Eval + iteration cycle: 3–6 iterations × $50 = $150–300
Hosting fine-tuned modelu: taki sam jak bazowy (przewaga LoRA jest zero przy merged weights)
Utrzymanie: re-trenować co 3–6 miesięcy, gdy zmienia się domena

Realny koszt fine-tuningu przy produkcyjnym systemie: < $1 000 rocznie, jeśli macie zespół zdolny go utrzymywać. Hidden cost to „człowiek, który umie zrobić eval i interpretuje wyniki" — nie GPU.

Kiedy nie wdrażać ani jednego

Dane są małe (< 50 dokumentów) → użyjcie cloud LLM (Claude Project, GPT Custom GPT, Gemini Workspace) bezpośrednio, żadnej custom infra.
Zespół nie ma kapacity MLOps i nie są Państwo skłonni zainwestować w data engineera na 6+ miesięcy.
Domena zmienia się rapidnie (start-up MVP, eksperymentowanie z produktem) → poczekajcie, aż dane się stabilizują.
Dane klientów są wysoko regulowane i nie macie gotowego DPIA (GDPR impact assessment) — najpierw rozwiążcie compliance, potem wdrażajcie.

---

*Robimy RAG i fine-tuning jako część integracji AI. Jeśli rozważają Państwo wdrożenie LLM nad firemną bazą, pierwsza konsultacja (90 minut) przejdzie te cztery decyzyjne pytania na Państwa rzeczywistym use-case i da Państwu orientacyjną architekturę i budżet zanim zobowiążą się do jednej lub drugiej drogi.*