← Szakmai modulok
📚 Fejlesztő modulSzakértő~45 perc

RAG és tudásbázis-építés

Ez a modul azoknak szól, akik saját dokumentumaikból akarnak AI-t „oktatni". A RAG (Retrieval-Augmented Generation) ma az egyik leggyakoribb vállalati AI architektúra — mélyebb kontextus, kevesebb hallucináció, pontosabb válaszok.

Előfeltétel: érdemes előbb a RAG curriculum lecke oldalát megnézni az alapfogalmakhoz.

RAG alapok

A RAG (Retrieval-Augmented Generation) egy architektúra, amely kombinálja a keresést és a szöveggenerálást. Ahelyett, hogy az AI csak a training adatából válaszolna, először megkeresi a releváns dokumentumokat a te adatbázisodból, majd azok alapján generálja a választ.

A RAG 4 lépése

📥

Indexelés

Dokumentumaid chunk-okra (500–1000 token) darabolódnak és embedding vektorokká alakulnak

🔍

Keresés

Kérdésedre a rendszer megkeresi a leginkább releváns chunk-okat a vektortárból

💉

Kontextus-injektálás

A talált chunk-ok bekerülnek az LLM promptjába mint kontextus

✍️

Generálás

Az LLM a kontextus alapján generálja a választ — forrásmegjelöléssel

Eszközök és frameworkök

Kezdőknek és nem technikai felhasználóknak az alábbi megoldások egyszerű belépési pontot adnak a RAG-alapú tudásbázis-építéshez.

EszközMire jó
NotebookLMDokumentum feltöltés, kérdezés, podcast — teljesen ingyenes
Claude ProjectsDokumentumok + instrukciók = perszonalizált asszisztens
ChatGPT GPTsCustom GPT saját tudásbázissal, megosztható
DifyAI app platform — RAG + agentek + workflow, ingyenes tier

Praktikus tippek

A chunk mérete kritikus döntés: 500–1000 token az optimális. Túl kicsi → kontextus elvész. Túl nagy → irreleváns infó kerül be.

Praktikus irányelvek

  • 20–30% overlap a chunk-ok között — így nem vágod ketté a mondatokat
  • Adj hozzá metaadatokat (forrás, dátum, kategória) — így szűrhetsz kereséskor
  • Teszteld különböző méretekkel — nem minden dokumentumtípusra ugyanaz az optimális