Advanced modul
Multimodális AI mint workflow-réteg
Amikor a munka nem csak szöveg — routing, korlátok, döntési logika.
A workflow előző moduljában az input mindig szöveg volt. A valóságban nem az: PDF, scan, screenshot, táblázat, chart, audio, videó. Ez a modul nem arról szól, hogy a multimodális AI okosabb chat, hanem arról, hogy mikor érdemes közvetlenül az eredeti forrással dolgozni, mikor kell előfeldolgozni, és hol vannak a kemény korlátok.
Döntési réteg
Nem minden forrás kerülhet natívan az AI elé — a helyes route az inputtól függ.
Valós korlátok
200+ oldalas szkennelt PDF, rossz OCR, chartok — ezek mind külön kezelést igényelnek.
Routing infrastruktúra
2026-ban a jó workflow már nem csak promptolás, hanem routing is: melyik inputot melyik modellhez és milyen előfeldolgozással küldöd.
Mi változik az előző modulhoz képest?
Az előző modul implicit módon abból indult ki, hogy az input szöveg. Itt ez megszűnik. A kérdés már nem csak az, hogy hogyan bontod lépésekre a feladatot, hanem az is, hogy milyen állapotban add át a forrást az AI-nak.
A kritikus új réteg az előfeldolgozás és routing. Itt dől el, hogy egy 12 oldalas tiszta PDF-et natívan töltesz fel, vagy egy 280 oldalas szkennelt iratot előbb OCR-ezel, layoutot nyersz ki belőle, markdownra alakítod, chunkolod, és csak utána küldöd modellre.
Kulcspontok
Az előző modul logikája
Input → előfeldolgozás → AI-feldolgozás → köztes output → validáció → emberi döntés. A workflow lépéseire bontás már megvolt — de az input mindig szövegnek tűnt.
Az új réteg: inputosztályozás
Milyen a forrás? Szkennelt? Hosszú? Rossz minőségű? Chart-heavy? Ezek döntik el, hogy natív feltöltés, OCR pipeline, vagy hibrid workflow szükséges.
Routing mint infrastruktúra
2026-ban a jó workflow már nem csak promptolás, hanem routing is. Melyik fájlnak kell OCR? Melyiket lehet natívan feltölteni? Ezt kell előre eldönteni.
Mi a multimodális AI — helyesen értve
A multimodális AI többféle inputot képes közös kontextusban kezelni: szöveget, képet, PDF-et, táblázatot, audiót, videót. 2026 márciusában a három fő modell képességei eltérőek:
• Gemini 3.1 Pro: 2M token kontextus, natív text+kép+audio+videó input — a legnagyobb kontextusablak és az egyetlen modell, amely videót is natívan kezel. • Claude Opus 4.6: 200k token, 97,2%-os long-context retrieval pontosság — kiemelkedő hosszú dokumentumelemzésnél. • GPT-5.4: 128k token + persistent memory (session-ök között is megmarad), structured output erős.
A fontos pont változatlan: a nagy kontextus nem ugyanaz, mint a jó dokumentumértés. A modellek hosszú, layout-heavy dokumentumoknál továbbra is sérülékenyek, és a lost in the middle jelenség — a középső tartalom elvesztése — hosszú kontextus mellett is valós probléma.
Kulcspontok
Képek és screenshotok
A modell látja és értelmezi a vizuális tartalmat. Erős ott, ahol a struktúra maga is hordoz jelentést: diagramok, UI-képek, elrendezések.
PDF és dokumentumok
Rövid, tiszta PDF-eknél a natív feltöltés jól működik. Hosszú, szkennelt iratoknál a korlátok már megjelennek.
Táblázatok és chartok
Értelmezni tud, de a spatial és layout-függő feladatoknál ma sem stabil. A végső számok és totalok emberi ellenőrzést igényelnek.
A helyes mentális modell
A multimodális AI nem mindent beolvasó mindenes, hanem döntési réteg. Előbb el kell döntened, melyik route a helyes az adott forráshoz.
A korlátok — amit sokszor elhallgatnak
A multimodalitás nem csak lehetőség, hanem új hibaréteg. Ez a rész nem azért fontos, hogy elvegye a kedvedet a használattól, hanem azért, hogy a helyes esetekben használd — és ne tervezz rá ott, ahol nem megbízható.
Kulcspontok
Hosszú, szkennelt PDF-ek
200+ oldalas szkennelt PDF tipikusan rossz natív input. A scan képi input, a modellnek vizuálisan kell értelmeznie a szöveget és a layoutot. Az oldalak közötti kapcsolatok követése különösen romlik — a MMLongBench-Doc benchmark ezeket a hosszú, layout-heavy eseteket vizsgálja, és nyitott problémaként mutatja be.
OCR és vizuális szövegértés
Az OCRBench v2 szerint a vizuális szövegértés ma is gyenge pont: komplex layoutnál, képleteknél, rotált vagy átfedő szövegnél és kézírásnál a teljesítmény erősen esik. Beszkennelt jogi vagy pénzügyi anyagnál nem elég egyszerűen feltölteni és kérdezni.
Táblázatok, chartok, screenshotok
Legend swap chartokon, merged cell félreolvasás táblázatoknál, UI-state hallucinálás screenshotokon — ezek a jellemző hibatípusok. A spatial és layout-függő feladatok ma sem stabilak. Chart vagy táblázat esetén az AI első olvasó, nem végső arbiter.
Nagy kontextus nem egyenlő megbízható megértéssel
Az élvonalbeli modellek 1M körüli kontextust támogatnak. Ez nem jelenti azt, hogy megbízhatóan értenek mindent ekkora terjedelemben. A lost in the middle jelenség hosszú kontextus mellett is valós probléma.
Példák és működő minták
Gyakorlati következtetés: szkennelt PDF
Egy 200 oldalas szkennelt dokumentumot ne tekints natív multimodális feltöltésre ideális inputnak. Előbb OCR-ezd, nyerj ki layoutot, alakítsd át tiszta markdownra vagy strukturált textre, és csak utána add a modellnek. A nyers eredetit tartsd meg auditcélra.
Gyakorlati következtetés: számok és klauzulák
Beszkennelt jogi vagy pénzügyi anyagnál számok, dátumok, képletek, táblázatcellák külön validációt igényelnek. Kézzel írt vagy rossz felbontású dokumentumot mindig gyanús inputnak kell tekinteni.
A döntési réteg: natív, preprocess vagy hibrid?
Nem az a kérdés, hogy a modell tudja-e kezelni a fájlt, hanem hogy neked mi a helyes route. Ez a modul központi logikája.
Kulcspontok
Natív multimodális feltöltés
Ezt akkor válaszd, ha a vizuális szerkezet maga is jelentést hordoz, és a fájl nem extrém hosszú vagy rossz minőségű. Tipikus jó esetek: screenshotos support triage, chart vagy dashboard értelmezése, rövidebb PDF ahol a layout fontos, slide + transcript + chat együtt.
OCR + markdown + text-modell
Ezt akkor válaszd, ha a dokumentum szöveg-heavy, hosszú, szkennelt vagy rossz minőségű. Tipikus jó esetek: 100+ oldalas scanned PDF, többhasábos régi dokumentum, jogi vagy pénzügyi szöveg ahol a pontos szám, klauzula vagy hivatkozás fontos, non-Latin vagy handwriting-érzékeny anyag.
Hibrid workflow
2026-ban ez az érett megoldás. Előbb OCR és layout-kinyerés, utána text-alapú feldolgozás, majd ahol kell, vizuális ellenőrzés vagy második VLM-pass. Tipikus jó esetek: komplex mellékletes dokumentum-review, chart + táblázat + főszöveg együtt, audit, compliance, procurement, pénzügyi riportok.
Mikor melyik utat válaszd?
A döntés az inputhelyzettől függ, nem a modell képességétől. Ezek a fő esetek:
Kulcspontok
Rövid, tiszta PDF — fontos layout
Natív multimodális feltöltés.
Screenshot, UI, chart, diagram
Natív multimodális + emberi ellenőrzés.
200+ oldalas scanned PDF
OCR + layout + markdown + text workflow.
Többhasábos, régi scan
Hibrid: OCR-first, VLM-second.
Precíz számok, jogi klauzulák, high-stake tartalom
Strukturált extraction + szabályellenőrzés + emberi review.
Nagy volumenű visszatérő feldolgozás
Router + conditional branch + audit log.
2026-os production workflow
A practitioner irány ma nem egyetlen nagy prompt, hanem egy pipeline. A routing ma már nem extra, hanem infrastruktúra: routing nélkül már költségben és minőségben is rosszabb kompromisszumokra kényszerülsz.
Ajánlott alapworkflow: Input → classifier → preprocess vagy natív route → structured extraction → validation → human review → feedback
Kulcspontok
1. Input osztályozása
Felismered, hogy szkennelt-e, milyen hosszú, van-e chart, handwriting, low DPI. Ettől függ az összes többi lépés.
2. Preprocessing vagy natív route
Döntés: kell-e OCR és layout parsing? Ha igen, elvégzed — csak ezután kerül a modell elé.
3. Strukturált extraction
A modellt nem szabad szabad szöveges csodaválaszra engedni: kérj JSON-t, provenance-t, oldalszámot, source taget.
4. Validation és consistency check
Futtass consistency checket: a számok egyeznek? A hivatkozások valósak? Low confidence esetén emelj emberre.
5. Human review és feedback
High-stake esetben mindig emberi review. A hibákat építsd vissza a promptba vagy a routerbe — ez javítja a következő futást.
Példák és működő minták
Miért szükséges a provenance?
Ha nincs oldalszám, source tag vagy legalább szakaszhivatkozás, az output auditálhatatlan. Ez különösen kritikus jogi, pénzügyi vagy compliance kontextusban.
Az automation csapda
Ha automationbe teszed review nélkül, egy OCR-hiba vagy screenshot-misread nem egyszer hibázik, hanem minden futásnál. A validációs lépés nem opcionális, hanem infrastruktúra.
Példák — korlát-tudatosan
Három munkahelyi forgatókönyv, ahol a multimodális AI jól használható — de csak akkor hozza a legtöbbet, ha tudod, hol vannak a határai.
Kulcspontok
Meeting utáni dokumentálás
Ha van transcript, slide és chatlog, natív multimodális workflow jó első kör. Ha viszont 4 órányi meeting, több melléklet és százoldalas háttéranyag van mögötte, már chunkolni, összefoglalni és iterálni kell. Ne egy körben kérj teljes igazságot.
Ügyfél-reklamáció triage
Screenshot + ticket jó natív eset. De ha a screenshoton számok, státuszok és több kis UI-elem van, kérj előbb perception-pass-t: mit látsz pontosan? — és csak utána kérj interpretációt. A button state és overlay-hibák itt gyakoriak.
Dokumentum-review
Ha 20–30 oldalas, tiszta PDF és mellékelt táblázat van, a natív vagy hibrid workflow működhet. Ha 180 oldalas scan, ne a modelltől várd az elsődleges olvashatóságot. OCR-ezz, normalizálj, chunkolj, és csak a vizuálisan kényes részeknél menj vissza VLM-re.
A bizalmi határ
A multimodális AI nem bizonyíték, hanem előfeldolgozó és összerendező réteg. Ezt érdemes nagyon tisztán kimondani.
Kulcspontok
Amit rábízhatsz első körben
Összefoglalás, triage draft, eltérésjelölés, forrástérkép, kulcspontok kiemelése.
Amit nem szabad vakon rábízni
Precíz számok és totalok, jogi záradékok, cross-page következtetések, nincs adat típusú negatív állítások, high-stake compliance vagy finanszírozási döntések.
Jellemző hibák
Ezek a hibák szinte mindenkinél ugyanazok az első időszakban. Felismerésük megakadályozza a leggyakoribb, rendszerszintű problémákat.
Kulcspontok
Nagy kontextus = megbízható megértés
Nem ugyanaz. A nagy kontextusablak nem garantálja, hogy a modell a hosszú dokumentum minden releváns részét pontosan feldolgozza. Ez az első és leggyakoribb tévhit.
Scanned PDF natív feltöltése
A scan valójában OCR-first jellegű feladat. Ha natívan töltöd fel, a modell vizuálisan próbálja értelmezni — és a hosszabb, rossz minőségű iratoknál ez megbízhatatlan.
Extraction és interpretáció összekeverése
Előbb kérd meg a modellt, hogy mondja meg, mit látott és mit olvasott ki. Csak utána kérj következtetést. A két lépés szétválasztása javítja a megbízhatóságot.
Nincs provenance
Ha nincs oldalszám, source tag, bounding-box-szerű visszakövethetőség vagy legalább szakaszhivatkozás, az output auditálhatatlan.
Automation review nélkül
Egy OCR-hiba vagy screenshot-misread ilyenkor nem egyszer hibázik, hanem minden futásnál. A validációs lépés nem opcionális.
Gyakorlati multimodális route-ok
A multimodális AI akkor válik igazán érthetővé, ha nem általános képességként, hanem konkrét útvonalakként nézed. Ugyanaz a modell másképp működik egy scanelt PDF-nél, egy meetingfelvételnél vagy egy képes riportnál. Ezek a route-ok segítenek abban, hogy ne csak azt tudd, mit lehet vele csinálni, hanem azt is, melyik feladathoz milyen beállás a reális.
Kulcspontok
Scanelt PDF → OCR → extraction → review
Hosszú, gyenge minőségű dokumentumoknál ne egyből értelmezést kérj. Előbb szövegkinyerés, aztán strukturált extraction, végül emberi ellenőrzés. Ezzel csökken az a hiba, amikor a modell vizuális találgatásból épít választ.
Meetingfelvétel → transcript → action lista
Hangnál vagy videónál a legbiztonságosabb út általában a transzkriptből indul. A modell így már nyelvi anyaggal dolgozik, és jobban szétválasztható a mit mondtak, mit kell tenni, és milyen döntések maradtak nyitva kérdés.
Kép / screenshot → képi leírás → célzott kérdések
Diagram, dashboard vagy UI screenshot esetén ne teljes értelmezést kérj elsőre. Előbb azt derítsd ki, mit lát a modell: tengelyek, címkék, számok, hibák, hiányzó elemek. A második körben jöhet az üzleti vagy működési következtetés.
Videó → frame-ek → forrástérkép
Hosszabb videóknál nem mindig a teljes videóelemzés a jó út. Sokszor jobban működik, ha kulcskockákat, fejezetpontokat és időkódokat készítesz, és az AI-val ezekből építtetsz visszakereshető jegyzetet vagy forrástérképet.
Példák és működő minták
Mit vigyél magaddal?
A multimodális AI nem egyetlen gomb. Minden inputtípushoz érdemes saját mini workflow-t kialakítani: mit nyersz ki először, mit ellenőrzöl kézzel, és mikor kérsz csak interpretációt.
Következő lépés
A multimodális AI azt oldja meg, hogy a rendszer többféle inputot tud kezelni. A connectorok azt oldják meg, hogy ezekhez az inputokhoz ne mindig kézzel kelljen hozzáférni. Multimodális AI = többféle forrás feldolgozása. Connector = ezeknek a forrásoknak a rendszeres, közvetlen elérése.
Gyakorlás
Teszteld magad AI-jal
A multimodális AI a saját feladataidon válik valódivá. Kérd meg az AI-t, hogy segítsen osztályozni a forrásokat és megtervezni a routing-logikát.
Kérdezd meg az AI-t
- →Van egy dokumentumom: [típus, hossz, minőség]. Natív feltöltés, OCR + markdown, vagy hibrid workflow a helyes út?
- →Kérj perception-pass-t: mit látsz pontosan ezen a képen/táblázaton? Csak utána kérj következtetést.
Kész prompt
“Van egy dokumentumom: [írd le: típus, hossz, minőség, use case]. Melyik route a helyes — natív multimodális feltöltés, OCR + markdown pipeline, vagy hibrid workflow? Indokold, és mondj konkrét előfeldolgozási lépéseket.”