ChatGPT-n és Claude-on túl: hogyan épül fel a nyílt forráskódú AI ökoszisztéma — modellek, hub, futtatókörnyezet, kvantálás és összekötési rétegek. Nem termékkatalógus, hanem stack-szemlélet.
A helyes mentális modell
A nyílt LLM világ nem egyetlen termék, hanem egymásra épülő rétegek rendszere: modellek, hub, adatkészletek, futtatókörnyezetek, kvantálási formátumok, API/kiszolgáló rétegek, összekötési keretrendszerek és felhasználói appok. A leggyakoribb tanulói hiba: összekeverni, hogy melyik rétegről van szó.
Stack-összefoglaló
Modell rétegLlama, Gemma, Mistral, DeepSeek — maga a súly
Hub rétegHugging Face — elosztás, verzió, modelladatlap
Adatkészlet rétegtanítás, finomhangolás, RAG alap
Futtatási rétegllama.cpp, vLLM, Ollama — végrehajtja a következtetést
Csomagolási rétegGGUF, safetensors, 4-bit kvant — a futtatható formátum
Kiszolgáló / API rétegOpenAI-kompatibilis végpont — appok csatlakoznak ide
Érzékeny dokumentumok, belső adatok, kutatási anyagok házon belül maradnak — helyi vagy saját üzemeltetésű futtatással.
Testreszabhatóság
Saját modellválasztás, saját végpont, saját útválasztás, saját felület, saját naplózás. Nincs szállítói kötöttség.
Integráció
OpenAI-kompatibilis végpontokkal sok meglévő app minimális változtatással ráköthető nyílt modellekre.
Költség- és infrastruktúra-stratégia
Nagy volumenű következtetés, belső felhasználási eset, vagy speciális terhelés esetén saját stack jobb skálázhatóságot adhat.
Fontos: a nyílt stack nem mindig olcsóbb vagy egyszerűbb — hardver, üzemeltetés, kompatibilitás és minőségbiztosítás a fejlesztő felelőssége. A zárt asszisztensek ezt elrejtik; a nyílt stack ott jó, ahol a kontroll és integrálhatóság fontosabb.
Hogyan érdemes modellt választani?
A nyílt világban a modellválasztás nem csak minőségi kérdés. Ugyanannyira szól a licencről, a futtathatóságról, a kvantált változat minőségéről és arról, hogy a kiválasztott runtime mennyire kezeli jól.
Mit nézz meg először egy nyílt modellnél?
A név önmagában kevés. Először azt nézd meg, hogy a modell milyen méretű, mire erős, milyen licenc alatt jön, milyen kontextust kezel, és van-e normális modelladatlapja. A gyakorlatban ez dönti el, hogy helyben futtatható kísérletről, üzemi használatról vagy csak laborjellegű próbáról van szó.
→Model card: mire jó, mire nem, milyen adatokon tanult, milyen korlátot ír le a készítő.
→Licenc: belső használat, kereskedelmi használat és továbbterjesztés szempontjából mi engedett.
→Futtathatóság: van-e belőle GGUF vagy más, a kiválasztott runtime-mal kompatibilis csomag.
→Valós use case: szöveg, kód, RAG, eszközhasználat vagy többmodalitás a fő cél.
Miért nem elég a benchmark?
A benchmark legfeljebb szűrő. A valódi kérdés az, hogy a modell a te promptjaiddal, a te dokumentumaiddal és a te hardvereden hogyan viselkedik. Egy ranglistán erős modell lehet rossz választás, ha gyenge a kvantált változata, instabil az eszközhasználata, vagy túl nagy a memóriaigénye a célkörnyezethez.
→A saját munkafolyamat fontosabb, mint az általános toplista.
→A kvantált és a teljes súlyú változat között lehet érezhető különbség.
→A dokumentumos és a kódos use case gyakran más modellt kíván.
→A kiszolgáló réteg és a chat sablon ugyanúgy beleszól a minőségbe, mint maga a modell.
Hugging Face és GitHub — két különböző szerep
A nyílt LLM ökoszisztémában a két legfontosabb platform nem csereszabatos — egészen más problémát old meg mindkettő.
Hugging Face
Felfedezés + tárolás + modell/adat ökoszisztéma. Modellek, adatkészletek, bemutatók, fájlformátum-támogatás, finomhangolási és kiszolgálási dokumentáció, felhős következtetési lehetőségek. Ez a felfedezés és elosztás központja.
GitHub
Implementáció + kísérletezés + üzemeltetési tudás. Itt élnek a futtatókörnyezetek, kiszolgáló motorok, átjárók, felületek, kvantáló eszközök, hibajegyek, teljesítménymérő viták és a „hogyan kötöd össze valójában" tudás.
Emiatt: modellt keresni Hugging Face-en, implementációt GitHub-on érdemes nézni.
Hub vs futtatókörnyezet vs app — a legfontosabb különbség
Modell hub
Nem futtat, csak elérhetővé és kezelhetővé teszi a modelleket, fájlokat, adatlapokat, adatkészleteket és demókat. Pl.: Hugging Face
Futtatómótor
Ténylegesen betölti és futtatja a modellt. A hangsúly a memóriaelrendezésen, kötegkezelésen, áteresztőképességen és hardverkihasználáson van. Pl.: llama.cpp, vLLM, TGI
App / felület
Használható felületet és munkafolyamatot ad. Elrejti a nyers infrastruktúra egy részét, de alul ugyanúgy modellekre és kiszolgáló rétegre támaszkodik. Pl.: LM Studio, Open WebUI
Ugyanaz a modell teljesen más élményt adhat LM Studio asztali appban, Ollamában, llama.cpp-szerveren vagy vLLM-es szerveren.
Ökoszisztéma rétegek
Itt látszik, hogy a nyílt világban a modell csak az egyik réteg. A tényleges rendszerhez hub, runtime, app és üzemeltetési logika is kell.
A modell réteg a tényleges alapmodell: súlyok, architektúra, képességek, kontextusablak. A modellek önmagukban nem „termékek" — csak súlyok, amiket valaminek be kell töltenie.
Llama 3.x (Meta)
Legelterjedtebb nyílt-súlyú, 8B–70B–405B, jó minőség
Gemma 3 (Google)
Hatékony kisebb modellek, jó helyi futtatáshoz
Mistral / Mixtral
Erős európai modellek, MoE architektúra
Qwen 2.5 (Alibaba)
Erős kód és matematika, széles kontextus
DeepSeek R1/V3
Következtetés-fókusz, versenyképes csúcsminőség
Phi-4 (Microsoft)
Kis mérethez erős teljesítmény, kutatási modell
Nem minden „open" egyforma: nyílt súlyú (open-weight) ≠ nyílt forrású (open-source). A licencet és a felhasználási feltételeket mindig ellenőrizd.
Az Ollama pontosan a futtatási + kiszolgáló réteget valósítja meg: letölti a modellt (Hugging Face GGUF formátumból), helyben futtatja, és OpenAI-kompatibilis REST végpontot nyit rá. Maga az Ollama nem az AI — az az infrastruktúra, amelyen a modell fut.
Modell
Llama 3, Qwen, Gemma — a súly, amit Ollama betölt
Futtatómótor
Ollama maga — végrehajtja a következtetést, kezeli a memóriát
App / felület
Open WebUI, VS Code Cline, n8n — ezek csatlakoznak az Ollama végponthoz
A helyes stack-kép: modell (pl. Qwen, Gemma, Llama) + futtatómótor (Ollama) + felület (Open WebUI, VS Code, Cline) + munkafolyamat-réteg (n8n, Python, RAG). Az Ollama a középső elem, nem a teljes rendszer.
Gyakorlati stack minták
Kezdő stack
Hugging Face modell + LM Studio vagy Ollama helyben. Gyorsan elindul, kevés kód kell, helyileg kipróbálható. Az absztrakció miatt a stack működése kevésbé átlátható — de jó kiindulópont.
Haladó helyi stack
Hugging Face GGUF + llama.cpp / Ollama + Open WebUI. Valódi helyi adatkontroll, több modell, saját végpont és felület. Korlát: hardver, modellek mérete és válaszidő.
Fejlesztői / saját üzemeltetésű API stack
Hugging Face modell + vLLM vagy TGI + OpenAI-kompatibilis végpont + LiteLLM átjáró + saját app. Csapatoknak, belső alkalmazásoknak, automatizációhoz. Itt válik a nyílt világ valódi üzemeltetési feladattá.
Felhős nyílt-súlyú stack
Hugging Face Hub + felhős következtetési szolgáltató + egységes kliensréteg. Köztes út: nem te üzemelteted a GPU-t, de nyílt modellekkel dolgozol. Gyors prototípushoz jó.
Három tipikus nyílt stack-minta
A legtöbb csapat nem ugyanoda akar eljutni. Más kell ahhoz, ha csak helyben akarsz kipróbálni modelleket, és más ahhoz, ha saját API-t vagy belső AI-réteget akarsz adni egy szervezetnek.
Személyes, helyi kísérletezés
A cél egy gyors, olcsó és jól érthető belépőpont. Itt az a fontos, hogy lásd a stack rétegeit, ne az, hogy vállalati szinten skálázz.
Mit?
Helyben kipróbálni 2–3 nyílt modellt dokumentumösszegzésre, jegyzetelésre vagy prompttesztre.
Mivel?
Hugging Face modell + Ollama vagy LM Studio + egyszerű felület, például Open WebUI.
Hogyan?
Válassz egy kisebb modellt, nézd meg a modelladatlapot, töltsd le kompatibilis formátumban, majd ugyanarra a feladatra hasonlítsd össze a válaszidőt, minőséget és memóriaigényt.
Belső, adatérzékeny csapatworkflow
Itt már nem csak a modell a kérdés, hanem az is, hogy ki fér hozzá, hogyan naplózol, és milyen végpontot adsz a belső eszközöknek.
Mit?
Saját dokumentumokhoz, belső jegyzetekhez vagy kutatási anyagokhoz kötött AI-réteget építeni.
Mivel?
Ollama vagy vLLM + Open WebUI + RAG-réteg + belső hozzáféréskezelés.
Hogyan?
A modellt ne önmagában vezesd be: előbb döntsd el, hol fut, ki használja, mi kerül bele, milyen logolás kell, és hogyan illeszkedik a már meglévő tudásbázisba.
API-first fejlesztői stack
A nyílt világ itt válik valódi rendszerépítéssé. Nem chatfelületet akarsz, hanem cserélhető, saját végpontot adó AI-szolgáltatást.
Mit?
Saját alkalmazások, automatizációk vagy agentek mögé OpenAI-kompatibilis végpontot adni.
Mivel?
vLLM vagy TGI + LiteLLM proxy + saját app vagy workflow-réteg.
Hogyan?
A modellcserét, a költségkontrollt, a rate limitet és a megfigyelhetőséget már az elején tervezz be, különben a nyílt stack gyorsan technikai adóssággá válik.
Ugyanaz a feladat — különböző stackekkel
Példa: bizalmas PDF-ek összefoglalása és munkafolyamatba illesztése
Zárt asszisztenssel
Leggyorsabb indulás, legkevesebb beállítás, de adatkezelési kérdéseket fel kell tenni. Az integráció egyszerűbb, ha már van stabil API vagy munkakörnyezet. A zárt szolgáltató oldja meg az infrastruktúrát — ára a korlátozott kontroll.
Asztali nyílt modell stackkel
LM Studio vagy Ollama + helyi dokumentumfeldolgozás. Nagyobb adatvédelem, egyszerűbb személyes használat. Gyengébb skálázhatóság, nem feltétlenül éles üzemi RAG.
Saját üzemeltetésű szerveres stackkel
vLLM/TGI + saját dokumentumfeldolgozás + OpenAI-kompatibilis végpont + felület/átjáró. Csapatmunkára és belső eszközök integrációjára is alkalmas — cserébe: naplózás, hitelesítés, párhuzamosság és monitorozás.
Felhős nyílt-súlyú szolgáltatóval
Gyorsabb indulás, kisebb üzemeltetési teher, de az adatvédelem és útválasztás a szolgáltatóval kötött megállapodás függvénye. Jó köztes megoldás, ha saját GPU-üzemeltetés még nem éri meg.
Konkrét use case-ek
A nyílt stack akkor válik érthetővé, amikor nem rétegekről, hanem konkrét munkáról beszélünk. Ezek nem absztrakt példák, hanem olyan minták, amelyeknél tényleg számít, hogy hol fut a modell és milyen API-t adsz rá.
Belső dokumentumok összefoglalása helyi stackkel
Mit?
Érzékeny PDF-eket, meeting-jegyzeteket és belső anyagokat nem külső chatbe, hanem saját környezetben feldolgozni.
Mivel?
Ollama + Open WebUI + egy kisebb, jól kvantált nyílt modell.
Hogyan?
1.Először a dokumentumtípus alapján válassz modellt: általános szöveghez más kell, mint hosszú technikai anyaghoz.
2.Egy valós mintahalmazon hasonlítsd össze a válaszminőséget és a válaszidőt.
3.Csak azután kösd rá több kollégára vagy dokumentumforrásra, ha a helyi pilot stabil.
Saját alkalmazás bekötése nyílt modellre
Mit?
Olyan belső eszközt építeni, amely nem egy SaaS chatablakot, hanem saját API-végpontot használ.
Mivel?
vLLM vagy TGI + LiteLLM + belső app vagy workflow.
Hogyan?
1.Az alkalmazás felől OpenAI-kompatibilis végpontban gondolkodj, így a modell később cserélhető marad.
2.A prompt, a chat sablon és a kimeneti formátum legyen verziózott, ne csak a modell.
3.A minőséget saját regressziós kérdéskészleten mérd, ne csak szemre.
Felhős, de nyílt-súlyú prototípus
Mit?
Gyorsan kipróbálni nyílt modelleket anélkül, hogy saját GPU-üzemeltetésbe mennél.
Mivel?
Groq vagy más felhős következtetési szolgáltató + Hugging Face-ről választott modellcsalád.
Hogyan?
1.A prototípusnál még nem a teljes kontroll a lényeg, hanem hogy lásd, hoz-e valódi előnyt a nyílt modell a konkrét feladaton.
2.Kezeld külön a prototípus és az üzemi döntést: ami tesztre jó, nem biztos, hogy megfelelőségi vagy költségoldalon is jó.
3.Ha a use case igazolódik, csak utána dönts a helyi, saját üzemeltetésű vagy felhős végleges irányról.
Mikor érdemes nyílt stack felé menni?
Szituáció
Nyílt stack
Zárt platform
Adatlokális, érzékeny dokumentumok
✅ Saját üzemeltetésű Ollama/vLLM
❌ Adatok elhagyják a szervezetet
Gyors, súrlódásmentes indulás
⚠️ Több beállítás kell
✅ ChatGPT, Claude azonnal indul
Saját végpont, integráció meglévő appba
✅ OpenAI-kompatibilis API
Korlátozott testreszabás
Csúcsminőség (összetett következtetés)
⚠️ DeepSeek R1 közel, de rés van
✅ GPT-5.4, Claude Opus 4.6
Nagy volumenű köteg, olcsón
✅ Groq, saját GPU szerver
Drágább lehet nagy volumnél
Finomhangolás, saját szakterületi adaptáció
✅ Teljes kontroll a súlyokon
Korlátozott / drága
5 kérdés mielőtt belépnél a nyílt stackbe
1
Kell-e valódi adatkontroll?
Ha igen, helyi vagy saját üzemeltetésű út indokolt lehet. Az adatok helyben maradnak.
2
Kell-e saját API és integráció?
Ha igen, OpenAI-kompatibilis kiszolgálás és átjáró lesz a kulcs.
3
Van-e hardver és üzemeltetési kapacitás?
Ha nincs, felhős nyílt-súlyú vagy zárt szolgáltatás jobb lehet.
4
Egyéni használat vagy többfelhasználós rendszer?
Egyéni használatra asztali/helyi stack, csapatra szerveres kiszolgálás.
5
Kísérletezni akarsz vagy üzembiztos szolgáltatást?
Kísérletezésre kiváló a nyílt világ; éles üzemre csak akkor, ha a megbízhatósági és monitorozási réteget is megépíted.
Miben nem jó — korlátok
Üzemeltetési komplexitás
Saját üzemeltetésű stack esetén te felelsz a hardverért, frissítésekért, kompatibilitásért és minőségbiztosításért. Nincs helpdesk, nincs felügyelt szolgáltatás.
Csúcsminőség-rés
A nyílt modellek jók és fejlődnek, de a legjobb zárt modellek (GPT-5.4, Claude Opus 4.6) összetett következtetési feladatokon még előnnyel járnak.
Licenc-variáció
Nem minden nyílt modell szabad kereskedelmi felhasználásra. A Llama, Gemma, Mistral mind eltérő licencfeltételekkel rendelkezik — ellenőrizd üzleti felhasználás előtt.
Gyorsan változó ökoszisztéma
A nyílt LLM világ nagyon gyors tempón fejlődik. Ami ma csúcsszintű nyílt forrású modell, 3 hónap múlva lehet, hogy meghaladottá válik.
Technikai kompromisszumok
VRAM és RAM
A kvantálás és a futtatókörnyezet sokat segít, de a modellméret, kontextus, kötegméret és párhuzamos kérések memóriaigénye gyorsan elszállhat. A „futtatható" nem egyenlő a „kényelmesen használhatóval".
Válaszidő és áteresztőképesség
Egy helyi asztali beállítás kényelmes egyéni használatra, de gyenge többfelhasználós API-ként. Ha csapat vagy alkalmazás egyszerre sok kérést lő, a futtatókörnyezet-választás üzleti döntéssé válik.
Kvantálási minőségvesztés
A 4-bit/8-bit kvantálás a memóriát csökkenti, de kompromisszum lehet minőségben és kompatibilitásban. Nem igaz, hogy „ugyanaz csak kisebb" — mindig konkrét modellen és feladaton kell ellenőrizni.
Karbantartási teher
Verziódrift, függőségi ütközés, illesztőprogram-probléma, modelformátum-eltérés. Az éles üzemi stabilitás ennél több: naplózás, monitorozás, frissítési stratégia, visszaállás, hitelesítés.
Chat sablon és prompt formázás
Nyílt modelleknél eltérő chat sablonformátumot várhatnak. Rossz sablonnal a válaszminőség romolhat, az eszközhasználat félremehet. Zárt rendszereknél ezt elrejti a szolgáltató.
Ami elsőre kimarad
A nyílt forrású LLM világ tele van olyan réteggel, amelyet az alapszintű leírások nem mutatnak meg.
1
Beágyazás + visszakeresés + újrarangsorolás
A RAG-rendszerek minősége sokszor inkább a visszakeresési stacken múlik, mint a fő LLM-en. Külön beágyazási modellek, visszakeresési folyamat és újrarangsoroló is szükséges lehet.
2
Chat sablonok
A modellek eltérő chat sablonformátumot várnak. A tokenizáló határozza meg, hogyan alakul az üzenetlista feldolgozható bemenettéé.
3
Többmodalitás és eszközhasználat
A mai nyílt ökoszisztéma már képfelismerő modelleket, eszközhasználatot és strukturált kimenetet is tartalmaz. A verseny nem csak szöveges minőségről szól.
4
Megfigyelhetőség és értékelés
Éles üzemi szinten kell nyomkövetés, napló, válaszidő-mérés, minőségértékelés és regresszió-detektálás. Ha nincs megfigyelhetőség, nem tudod, mikor romlott el a rendszer.
5
Biztonsági és forráslánc dimenzió
Fájlformátum, modell eredete, függőségi lánc, folyamatokba épített kód, prompt injection elleni védelem. Nyílt stacknél nem csak modelleket választasz, hanem bizalmi láncot is.
6
Szolgáltató-független átjáró
A LiteLLM-szerű átjáró réteg a cserélhetőséget adja. Hosszú távon nem az a legnagyobb érték, melyik modell a legjobb ma, hanem hogy a rendszered mennyire bírja a modelcserét újraírás nélkül.
7
Modelladatlap és dokumentációs transzparencia
Nyílt modelleknél a modelladatlap operatív dokumentum: milyen adatokkal tanították, mire nem jó, milyen elfogultság vagy korlát van, milyen licenc alatt jön.
8
Felhős nyílt-súlyú következtetés
Nem csak „teljesen helyi" vagy „zárt SaaS" létezik. A Hugging Face következtetési szolgáltatói köztes modellt kínálnak: nyílt modellekhez férsz hozzá, de nem te üzemelteted a GPU-t.
9
Ranglista ≠ valós munkafolyamat-minőség
Egy modell lehet látványos ranglistás szereplő, miközben gyenge az eszközhasználatában, instabil a kvantált változata, vagy rossz a dokumentumos munkafolyamatban. Saját feladaton végzett értékelés fontosabb.
10
App-ökoszisztéma és bővíthetőség
Az Open WebUI-hoz például saját csatornákat, egyéni ügynököket, egyéni RAG logikát lehet építeni. A nyílt világ egyre inkább alkalmazásplatform, nem csak modellkatalógus.
A nyílt forrású LLM világ nem „egy alternatív chatbot", hanem AI infrastruktúra-ökoszisztéma. Aki ezt megérti, az már nem csak modellt választ, hanem stacket, üzemeltetést, API-stratégiát, irányítási keretet és munkafolyamat-illesztést. A fő tanulság nem az, hogy mindent helyben kell futtatni, hanem hogy a zárt asszisztenseken túl létezik egy nagyobb világ, ahol a szabadság és kontroll ára a komplexitás.
A prompt a belépőszint, a stack a valódi rendszer.