Nyílt forrású LLMHaladó modul~45 perc

Nyílt LLM-ök világa

ChatGPT-n és Claude-on túl: hogyan épül fel a nyílt forráskódú AI ökoszisztéma — modellek, hub, futtatókörnyezet, kvantálás és összekötési rétegek. Nem termékkatalógus, hanem stack-szemlélet.

A helyes mentális modell

A nyílt LLM világ nem egyetlen termék, hanem egymásra épülő rétegek rendszere: modellek, hub, adatkészletek, futtatókörnyezetek, kvantálási formátumok, API/kiszolgáló rétegek, összekötési keretrendszerek és felhasználói appok. A leggyakoribb tanulói hiba: összekeverni, hogy melyik rétegről van szó.

Stack-összefoglaló

Modell rétegLlama, Gemma, Mistral, DeepSeek — maga a súly

Hub rétegHugging Face — elosztás, verzió, modelladatlap

Adatkészlet rétegtanítás, finomhangolás, RAG alap

Futtatási rétegllama.cpp, vLLM, Ollama — végrehajtja a következtetést

Csomagolási rétegGGUF, safetensors, 4-bit kvant — a futtatható formátum

Kiszolgáló / API rétegOpenAI-kompatibilis végpont — appok csatlakoznak ide

Összekötési rétegLiteLLM, LangChain — útválasztás, RAG, ügynökfolyam

App / felhasználói rétegOpen WebUI, LM Studio — végfelhasználói felület

Üzemeltetési réteghelyi laptop, szerver, felhő — hol fut valójában

Irányítás / licenc réteglicenc, megfelelőség, auditálhatóság

Miért lép ki valaki a chatablakból?

Adatvédelem és adatkontroll

Érzékeny dokumentumok, belső adatok, kutatási anyagok házon belül maradnak — helyi vagy saját üzemeltetésű futtatással.

Testreszabhatóság

Saját modellválasztás, saját végpont, saját útválasztás, saját felület, saját naplózás. Nincs szállítói kötöttség.

Integráció

OpenAI-kompatibilis végpontokkal sok meglévő app minimális változtatással ráköthető nyílt modellekre.

Költség- és infrastruktúra-stratégia

Nagy volumenű következtetés, belső felhasználási eset, vagy speciális terhelés esetén saját stack jobb skálázhatóságot adhat.

Fontos: a nyílt stack nem mindig olcsóbb vagy egyszerűbb — hardver, üzemeltetés, kompatibilitás és minőségbiztosítás a fejlesztő felelőssége. A zárt asszisztensek ezt elrejtik; a nyílt stack ott jó, ahol a kontroll és integrálhatóság fontosabb.

Hogyan érdemes modellt választani?

A nyílt világban a modellválasztás nem csak minőségi kérdés. Ugyanannyira szól a licencről, a futtathatóságról, a kvantált változat minőségéről és arról, hogy a kiválasztott runtime mennyire kezeli jól.

Mit nézz meg először egy nyílt modellnél?

A név önmagában kevés. Először azt nézd meg, hogy a modell milyen méretű, mire erős, milyen licenc alatt jön, milyen kontextust kezel, és van-e normális modelladatlapja. A gyakorlatban ez dönti el, hogy helyben futtatható kísérletről, üzemi használatról vagy csak laborjellegű próbáról van szó.

→Model card: mire jó, mire nem, milyen adatokon tanult, milyen korlátot ír le a készítő.
→Licenc: belső használat, kereskedelmi használat és továbbterjesztés szempontjából mi engedett.
→Futtathatóság: van-e belőle GGUF vagy más, a kiválasztott runtime-mal kompatibilis csomag.
→Valós use case: szöveg, kód, RAG, eszközhasználat vagy többmodalitás a fő cél.

Miért nem elég a benchmark?

A benchmark legfeljebb szűrő. A valódi kérdés az, hogy a modell a te promptjaiddal, a te dokumentumaiddal és a te hardvereden hogyan viselkedik. Egy ranglistán erős modell lehet rossz választás, ha gyenge a kvantált változata, instabil az eszközhasználata, vagy túl nagy a memóriaigénye a célkörnyezethez.

→A saját munkafolyamat fontosabb, mint az általános toplista.
→A kvantált és a teljes súlyú változat között lehet érezhető különbség.
→A dokumentumos és a kódos use case gyakran más modellt kíván.
→A kiszolgáló réteg és a chat sablon ugyanúgy beleszól a minőségbe, mint maga a modell.

Hugging Face és GitHub — két különböző szerep

A nyílt LLM ökoszisztémában a két legfontosabb platform nem csereszabatos — egészen más problémát old meg mindkettő.

Hugging Face

Felfedezés + tárolás + modell/adat ökoszisztéma. Modellek, adatkészletek, bemutatók, fájlformátum-támogatás, finomhangolási és kiszolgálási dokumentáció, felhős következtetési lehetőségek. Ez a felfedezés és elosztás központja.

GitHub

Implementáció + kísérletezés + üzemeltetési tudás. Itt élnek a futtatókörnyezetek, kiszolgáló motorok, átjárók, felületek, kvantáló eszközök, hibajegyek, teljesítménymérő viták és a „hogyan kötöd össze valójában" tudás.

Emiatt: modellt keresni Hugging Face-en, implementációt GitHub-on érdemes nézni.

Hub vs futtatókörnyezet vs app — a legfontosabb különbség

Modell hub

Nem futtat, csak elérhetővé és kezelhetővé teszi a modelleket, fájlokat, adatlapokat, adatkészleteket és demókat. Pl.: Hugging Face

Futtatómótor

Ténylegesen betölti és futtatja a modellt. A hangsúly a memóriaelrendezésen, kötegkezelésen, áteresztőképességen és hardverkihasználáson van. Pl.: llama.cpp, vLLM, TGI

App / felület

Használható felületet és munkafolyamatot ad. Elrejti a nyers infrastruktúra egy részét, de alul ugyanúgy modellekre és kiszolgáló rétegre támaszkodik. Pl.: LM Studio, Open WebUI

Ugyanaz a modell teljesen más élményt adhat LM Studio asztali appban, Ollamában, llama.cpp-szerveren vagy vLLM-es szerveren.

Ökoszisztéma rétegek

Itt látszik, hogy a nyílt világban a modell csak az egyik réteg. A tényleges rendszerhez hub, runtime, app és üzemeltetési logika is kell.

A modell réteg a tényleges alapmodell: súlyok, architektúra, képességek, kontextusablak. A modellek önmagukban nem „termékek" — csak súlyok, amiket valaminek be kell töltenie.

Llama 3.x (Meta)

Legelterjedtebb nyílt-súlyú, 8B–70B–405B, jó minőség

Gemma 3 (Google)

Hatékony kisebb modellek, jó helyi futtatáshoz

Mistral / Mixtral

Erős európai modellek, MoE architektúra

Qwen 2.5 (Alibaba)

Erős kód és matematika, széles kontextus

DeepSeek R1/V3

Következtetés-fókusz, versenyképes csúcsminőség

Phi-4 (Microsoft)

Kis mérethez erős teljesítmény, kutatási modell

Nem minden „open" egyforma: nyílt súlyú (open-weight) ≠ nyílt forrású (open-source). A licencet és a felhasználási feltételeket mindig ellenőrizd.

Konkrét példa

Ollama — így néz ki ez a gyakorlatban

Ollama oldal

Az Ollama pontosan a futtatási + kiszolgáló réteget valósítja meg: letölti a modellt (Hugging Face GGUF formátumból), helyben futtatja, és OpenAI-kompatibilis REST végpontot nyit rá. Maga az Ollama nem az AI — az az infrastruktúra, amelyen a modell fut.

Modell

Llama 3, Qwen, Gemma — a súly, amit Ollama betölt

Futtatómótor

Ollama maga — végrehajtja a következtetést, kezeli a memóriát

App / felület

Open WebUI, VS Code Cline, n8n — ezek csatlakoznak az Ollama végponthoz

A helyes stack-kép: modell (pl. Qwen, Gemma, Llama) + futtatómótor (Ollama) + felület (Open WebUI, VS Code, Cline) + munkafolyamat-réteg (n8n, Python, RAG). Az Ollama a középső elem, nem a teljes rendszer.

Gyakorlati stack minták

Kezdő stack

Hugging Face modell + LM Studio vagy Ollama helyben. Gyorsan elindul, kevés kód kell, helyileg kipróbálható. Az absztrakció miatt a stack működése kevésbé átlátható — de jó kiindulópont.

Haladó helyi stack

Hugging Face GGUF + llama.cpp / Ollama + Open WebUI. Valódi helyi adatkontroll, több modell, saját végpont és felület. Korlát: hardver, modellek mérete és válaszidő.

Fejlesztői / saját üzemeltetésű API stack

Hugging Face modell + vLLM vagy TGI + OpenAI-kompatibilis végpont + LiteLLM átjáró + saját app. Csapatoknak, belső alkalmazásoknak, automatizációhoz. Itt válik a nyílt világ valódi üzemeltetési feladattá.

Felhős nyílt-súlyú stack

Hugging Face Hub + felhős következtetési szolgáltató + egységes kliensréteg. Köztes út: nem te üzemelteted a GPU-t, de nyílt modellekkel dolgozol. Gyors prototípushoz jó.

Három tipikus nyílt stack-minta

A legtöbb csapat nem ugyanoda akar eljutni. Más kell ahhoz, ha csak helyben akarsz kipróbálni modelleket, és más ahhoz, ha saját API-t vagy belső AI-réteget akarsz adni egy szervezetnek.

Személyes, helyi kísérletezés

A cél egy gyors, olcsó és jól érthető belépőpont. Itt az a fontos, hogy lásd a stack rétegeit, ne az, hogy vállalati szinten skálázz.

Mit?

Helyben kipróbálni 2–3 nyílt modellt dokumentumösszegzésre, jegyzetelésre vagy prompttesztre.

Mivel?

Hugging Face modell + Ollama vagy LM Studio + egyszerű felület, például Open WebUI.

Hogyan?

Válassz egy kisebb modellt, nézd meg a modelladatlapot, töltsd le kompatibilis formátumban, majd ugyanarra a feladatra hasonlítsd össze a válaszidőt, minőséget és memóriaigényt.

Belső, adatérzékeny csapatworkflow

Itt már nem csak a modell a kérdés, hanem az is, hogy ki fér hozzá, hogyan naplózol, és milyen végpontot adsz a belső eszközöknek.

Mit?

Saját dokumentumokhoz, belső jegyzetekhez vagy kutatási anyagokhoz kötött AI-réteget építeni.

Mivel?

Ollama vagy vLLM + Open WebUI + RAG-réteg + belső hozzáféréskezelés.

Hogyan?

A modellt ne önmagában vezesd be: előbb döntsd el, hol fut, ki használja, mi kerül bele, milyen logolás kell, és hogyan illeszkedik a már meglévő tudásbázisba.

API-first fejlesztői stack

A nyílt világ itt válik valódi rendszerépítéssé. Nem chatfelületet akarsz, hanem cserélhető, saját végpontot adó AI-szolgáltatást.

Mit?

Saját alkalmazások, automatizációk vagy agentek mögé OpenAI-kompatibilis végpontot adni.

Mivel?

vLLM vagy TGI + LiteLLM proxy + saját app vagy workflow-réteg.

Hogyan?

A modellcserét, a költségkontrollt, a rate limitet és a megfigyelhetőséget már az elején tervezz be, különben a nyílt stack gyorsan technikai adóssággá válik.

Ugyanaz a feladat — különböző stackekkel

Példa: bizalmas PDF-ek összefoglalása és munkafolyamatba illesztése

Zárt asszisztenssel

Leggyorsabb indulás, legkevesebb beállítás, de adatkezelési kérdéseket fel kell tenni. Az integráció egyszerűbb, ha már van stabil API vagy munkakörnyezet. A zárt szolgáltató oldja meg az infrastruktúrát — ára a korlátozott kontroll.

Asztali nyílt modell stackkel

LM Studio vagy Ollama + helyi dokumentumfeldolgozás. Nagyobb adatvédelem, egyszerűbb személyes használat. Gyengébb skálázhatóság, nem feltétlenül éles üzemi RAG.

Saját üzemeltetésű szerveres stackkel

vLLM/TGI + saját dokumentumfeldolgozás + OpenAI-kompatibilis végpont + felület/átjáró. Csapatmunkára és belső eszközök integrációjára is alkalmas — cserébe: naplózás, hitelesítés, párhuzamosság és monitorozás.

Felhős nyílt-súlyú szolgáltatóval

Gyorsabb indulás, kisebb üzemeltetési teher, de az adatvédelem és útválasztás a szolgáltatóval kötött megállapodás függvénye. Jó köztes megoldás, ha saját GPU-üzemeltetés még nem éri meg.

Konkrét use case-ek

A nyílt stack akkor válik érthetővé, amikor nem rétegekről, hanem konkrét munkáról beszélünk. Ezek nem absztrakt példák, hanem olyan minták, amelyeknél tényleg számít, hogy hol fut a modell és milyen API-t adsz rá.

Belső dokumentumok összefoglalása helyi stackkel

Mit?

Érzékeny PDF-eket, meeting-jegyzeteket és belső anyagokat nem külső chatbe, hanem saját környezetben feldolgozni.

Mivel?

Ollama + Open WebUI + egy kisebb, jól kvantált nyílt modell.

Hogyan?

1.Először a dokumentumtípus alapján válassz modellt: általános szöveghez más kell, mint hosszú technikai anyaghoz.
2.Egy valós mintahalmazon hasonlítsd össze a válaszminőséget és a válaszidőt.
3.Csak azután kösd rá több kollégára vagy dokumentumforrásra, ha a helyi pilot stabil.

Saját alkalmazás bekötése nyílt modellre

Mit?

Olyan belső eszközt építeni, amely nem egy SaaS chatablakot, hanem saját API-végpontot használ.

Mivel?

vLLM vagy TGI + LiteLLM + belső app vagy workflow.

Hogyan?

1.Az alkalmazás felől OpenAI-kompatibilis végpontban gondolkodj, így a modell később cserélhető marad.
2.A prompt, a chat sablon és a kimeneti formátum legyen verziózott, ne csak a modell.
3.A minőséget saját regressziós kérdéskészleten mérd, ne csak szemre.

Felhős, de nyílt-súlyú prototípus

Mit?

Gyorsan kipróbálni nyílt modelleket anélkül, hogy saját GPU-üzemeltetésbe mennél.

Mivel?

Groq vagy más felhős következtetési szolgáltató + Hugging Face-ről választott modellcsalád.

Hogyan?

1.A prototípusnál még nem a teljes kontroll a lényeg, hanem hogy lásd, hoz-e valódi előnyt a nyílt modell a konkrét feladaton.
2.Kezeld külön a prototípus és az üzemi döntést: ami tesztre jó, nem biztos, hogy megfelelőségi vagy költségoldalon is jó.
3.Ha a use case igazolódik, csak utána dönts a helyi, saját üzemeltetésű vagy felhős végleges irányról.

Mikor érdemes nyílt stack felé menni?

Szituáció	Nyílt stack	Zárt platform
Adatlokális, érzékeny dokumentumok	✅ Saját üzemeltetésű Ollama/vLLM	❌ Adatok elhagyják a szervezetet
Gyors, súrlódásmentes indulás	⚠️ Több beállítás kell	✅ ChatGPT, Claude azonnal indul
Saját végpont, integráció meglévő appba	✅ OpenAI-kompatibilis API	Korlátozott testreszabás
Csúcsminőség (összetett következtetés)	⚠️ DeepSeek R1 közel, de rés van	✅ GPT-5.4, Claude Opus 4.6
Nagy volumenű köteg, olcsón	✅ Groq, saját GPU szerver	Drágább lehet nagy volumnél
Finomhangolás, saját szakterületi adaptáció	✅ Teljes kontroll a súlyokon	Korlátozott / drága

5 kérdés mielőtt belépnél a nyílt stackbe

Kell-e valódi adatkontroll?

Ha igen, helyi vagy saját üzemeltetésű út indokolt lehet. Az adatok helyben maradnak.

Kell-e saját API és integráció?

Ha igen, OpenAI-kompatibilis kiszolgálás és átjáró lesz a kulcs.

Van-e hardver és üzemeltetési kapacitás?

Ha nincs, felhős nyílt-súlyú vagy zárt szolgáltatás jobb lehet.

Egyéni használat vagy többfelhasználós rendszer?

Egyéni használatra asztali/helyi stack, csapatra szerveres kiszolgálás.

Kísérletezni akarsz vagy üzembiztos szolgáltatást?

Kísérletezésre kiváló a nyílt világ; éles üzemre csak akkor, ha a megbízhatósági és monitorozási réteget is megépíted.

Miben nem jó — korlátok

Üzemeltetési komplexitás

Saját üzemeltetésű stack esetén te felelsz a hardverért, frissítésekért, kompatibilitásért és minőségbiztosításért. Nincs helpdesk, nincs felügyelt szolgáltatás.

Csúcsminőség-rés

A nyílt modellek jók és fejlődnek, de a legjobb zárt modellek (GPT-5.4, Claude Opus 4.6) összetett következtetési feladatokon még előnnyel járnak.

Licenc-variáció

Nem minden nyílt modell szabad kereskedelmi felhasználásra. A Llama, Gemma, Mistral mind eltérő licencfeltételekkel rendelkezik — ellenőrizd üzleti felhasználás előtt.

Gyorsan változó ökoszisztéma

A nyílt LLM világ nagyon gyors tempón fejlődik. Ami ma csúcsszintű nyílt forrású modell, 3 hónap múlva lehet, hogy meghaladottá válik.

Technikai kompromisszumok

VRAM és RAM

A kvantálás és a futtatókörnyezet sokat segít, de a modellméret, kontextus, kötegméret és párhuzamos kérések memóriaigénye gyorsan elszállhat. A „futtatható" nem egyenlő a „kényelmesen használhatóval".

Válaszidő és áteresztőképesség

Egy helyi asztali beállítás kényelmes egyéni használatra, de gyenge többfelhasználós API-ként. Ha csapat vagy alkalmazás egyszerre sok kérést lő, a futtatókörnyezet-választás üzleti döntéssé válik.

Kvantálási minőségvesztés

A 4-bit/8-bit kvantálás a memóriát csökkenti, de kompromisszum lehet minőségben és kompatibilitásban. Nem igaz, hogy „ugyanaz csak kisebb" — mindig konkrét modellen és feladaton kell ellenőrizni.

Karbantartási teher

Verziódrift, függőségi ütközés, illesztőprogram-probléma, modelformátum-eltérés. Az éles üzemi stabilitás ennél több: naplózás, monitorozás, frissítési stratégia, visszaállás, hitelesítés.

Chat sablon és prompt formázás

Nyílt modelleknél eltérő chat sablonformátumot várhatnak. Rossz sablonnal a válaszminőség romolhat, az eszközhasználat félremehet. Zárt rendszereknél ezt elrejti a szolgáltató.

Ami elsőre kimarad

A nyílt forrású LLM világ tele van olyan réteggel, amelyet az alapszintű leírások nem mutatnak meg.

Beágyazás + visszakeresés + újrarangsorolás

A RAG-rendszerek minősége sokszor inkább a visszakeresési stacken múlik, mint a fő LLM-en. Külön beágyazási modellek, visszakeresési folyamat és újrarangsoroló is szükséges lehet.

Chat sablonok

A modellek eltérő chat sablonformátumot várnak. A tokenizáló határozza meg, hogyan alakul az üzenetlista feldolgozható bemenettéé.

Többmodalitás és eszközhasználat

A mai nyílt ökoszisztéma már képfelismerő modelleket, eszközhasználatot és strukturált kimenetet is tartalmaz. A verseny nem csak szöveges minőségről szól.

Megfigyelhetőség és értékelés

Éles üzemi szinten kell nyomkövetés, napló, válaszidő-mérés, minőségértékelés és regresszió-detektálás. Ha nincs megfigyelhetőség, nem tudod, mikor romlott el a rendszer.

Biztonsági és forráslánc dimenzió

Fájlformátum, modell eredete, függőségi lánc, folyamatokba épített kód, prompt injection elleni védelem. Nyílt stacknél nem csak modelleket választasz, hanem bizalmi láncot is.

Szolgáltató-független átjáró

A LiteLLM-szerű átjáró réteg a cserélhetőséget adja. Hosszú távon nem az a legnagyobb érték, melyik modell a legjobb ma, hanem hogy a rendszered mennyire bírja a modelcserét újraírás nélkül.

Modelladatlap és dokumentációs transzparencia

Nyílt modelleknél a modelladatlap operatív dokumentum: milyen adatokkal tanították, mire nem jó, milyen elfogultság vagy korlát van, milyen licenc alatt jön.

Felhős nyílt-súlyú következtetés

Nem csak „teljesen helyi" vagy „zárt SaaS" létezik. A Hugging Face következtetési szolgáltatói köztes modellt kínálnak: nyílt modellekhez férsz hozzá, de nem te üzemelteted a GPU-t.

Ranglista ≠ valós munkafolyamat-minőség

Egy modell lehet látványos ranglistás szereplő, miközben gyenge az eszközhasználatában, instabil a kvantált változata, vagy rossz a dokumentumos munkafolyamatban. Saját feladaton végzett értékelés fontosabb.

App-ökoszisztéma és bővíthetőség

Az Open WebUI-hoz például saját csatornákat, egyéni ügynököket, egyéni RAG logikát lehet építeni. A nyílt világ egyre inkább alkalmazásplatform, nem csak modellkatalógus.

A nyílt forrású LLM világ nem „egy alternatív chatbot", hanem AI infrastruktúra-ökoszisztéma. Aki ezt megérti, az már nem csak modellt választ, hanem stacket, üzemeltetést, API-stratégiát, irányítási keretet és munkafolyamat-illesztést. A fő tanulság nem az, hogy mindent helyben kell futtatni, hanem hogy a zárt asszisztenseken túl létezik egy nagyobb világ, ahol a szabadság és kontroll ára a komplexitás.

A prompt a belépőszint, a stack a valódi rendszer.

Kapcsolódó oldalak

Ollama

Helyi LLM futtatókörnyezet — legegyszerűbb belépő a nyílt modellek világába.

Hugging Face

Hub, modellek, adatkészletek — a nyílt forrású AI ökoszisztéma központja.

Groq

Felhős futtatás nyílt modellekre — alacsony válaszidő, API-first.

RAG és tudásbázis

Saját adatokhoz kötött LLM — nyílt modelleken is futtatható.