Advanced modul

Multimodális AI mint workflow-réteg

Amikor a munka nem csak szöveg — routing, korlátok, döntési logika.

A workflow előző moduljában az input mindig szöveg volt. A valóságban nem az: PDF, scan, screenshot, táblázat, chart, audio, videó. Ez a modul nem arról szól, hogy a multimodális AI okosabb chat, hanem arról, hogy mikor érdemes közvetlenül az eredeti forrással dolgozni, mikor kell előfeldolgozni, és hol vannak a kemény korlátok.

Döntési réteg

Nem minden forrás kerülhet natívan az AI elé — a helyes route az inputtól függ.

Valós korlátok

200+ oldalas szkennelt PDF, rossz OCR, chartok — ezek mind külön kezelést igényelnek.

Routing infrastruktúra

2026-ban a jó workflow már nem csak promptolás, hanem routing is: melyik inputot melyik modellhez és milyen előfeldolgozással küldöd.

Mi változik az előző modulhoz képest?

Az előző modul implicit módon abból indult ki, hogy az input szöveg. Itt ez megszűnik. A kérdés már nem csak az, hogy hogyan bontod lépésekre a feladatot, hanem az is, hogy milyen állapotban add át a forrást az AI-nak.

A kritikus új réteg az előfeldolgozás és routing. Itt dől el, hogy egy 12 oldalas tiszta PDF-et natívan töltesz fel, vagy egy 280 oldalas szkennelt iratot előbb OCR-ezel, layoutot nyersz ki belőle, markdownra alakítod, chunkolod, és csak utána küldöd modellre.

1Tananyagblokk

Kulcspontok

Az előző modul logikája

Input → előfeldolgozás → AI-feldolgozás → köztes output → validáció → emberi döntés. A workflow lépéseire bontás már megvolt — de az input mindig szövegnek tűnt.

Az új réteg: inputosztályozás

Milyen a forrás? Szkennelt? Hosszú? Rossz minőségű? Chart-heavy? Ezek döntik el, hogy natív feltöltés, OCR pipeline, vagy hibrid workflow szükséges.

Routing mint infrastruktúra

2026-ban a jó workflow már nem csak promptolás, hanem routing is. Melyik fájlnak kell OCR? Melyiket lehet natívan feltölteni? Ezt kell előre eldönteni.

Mi a multimodális AI — helyesen értve

A multimodális AI többféle inputot képes közös kontextusban kezelni: szöveget, képet, PDF-et, táblázatot, audiót, videót. 2026 márciusában a három fő modell képességei eltérőek:

• Gemini 3.1 Pro: 2M token kontextus, natív text+kép+audio+videó input — a legnagyobb kontextusablak és az egyetlen modell, amely videót is natívan kezel. • Claude Opus 4.6: 200k token, 97,2%-os long-context retrieval pontosság — kiemelkedő hosszú dokumentumelemzésnél. • GPT-5.4: 128k token + persistent memory (session-ök között is megmarad), structured output erős.

A fontos pont változatlan: a nagy kontextus nem ugyanaz, mint a jó dokumentumértés. A modellek hosszú, layout-heavy dokumentumoknál továbbra is sérülékenyek, és a lost in the middle jelenség — a középső tartalom elvesztése — hosszú kontextus mellett is valós probléma.

2Tananyagblokk

Kulcspontok

Képek és screenshotok

A modell látja és értelmezi a vizuális tartalmat. Erős ott, ahol a struktúra maga is hordoz jelentést: diagramok, UI-képek, elrendezések.

PDF és dokumentumok

Rövid, tiszta PDF-eknél a natív feltöltés jól működik. Hosszú, szkennelt iratoknál a korlátok már megjelennek.

Táblázatok és chartok

Értelmezni tud, de a spatial és layout-függő feladatoknál ma sem stabil. A végső számok és totalok emberi ellenőrzést igényelnek.

A helyes mentális modell

A multimodális AI nem mindent beolvasó mindenes, hanem döntési réteg. Előbb el kell döntened, melyik route a helyes az adott forráshoz.

A korlátok — amit sokszor elhallgatnak

A multimodalitás nem csak lehetőség, hanem új hibaréteg. Ez a rész nem azért fontos, hogy elvegye a kedvedet a használattól, hanem azért, hogy a helyes esetekben használd — és ne tervezz rá ott, ahol nem megbízható.

3Tananyagblokk

Kulcspontok

Hosszú, szkennelt PDF-ek

200+ oldalas szkennelt PDF tipikusan rossz natív input. A scan képi input, a modellnek vizuálisan kell értelmeznie a szöveget és a layoutot. Az oldalak közötti kapcsolatok követése különösen romlik — a MMLongBench-Doc benchmark ezeket a hosszú, layout-heavy eseteket vizsgálja, és nyitott problémaként mutatja be.

OCR és vizuális szövegértés

Az OCRBench v2 szerint a vizuális szövegértés ma is gyenge pont: komplex layoutnál, képleteknél, rotált vagy átfedő szövegnél és kézírásnál a teljesítmény erősen esik. Beszkennelt jogi vagy pénzügyi anyagnál nem elég egyszerűen feltölteni és kérdezni.

Táblázatok, chartok, screenshotok

Legend swap chartokon, merged cell félreolvasás táblázatoknál, UI-state hallucinálás screenshotokon — ezek a jellemző hibatípusok. A spatial és layout-függő feladatok ma sem stabilak. Chart vagy táblázat esetén az AI első olvasó, nem végső arbiter.

Nagy kontextus nem egyenlő megbízható megértéssel

Az élvonalbeli modellek 1M körüli kontextust támogatnak. Ez nem jelenti azt, hogy megbízhatóan értenek mindent ekkora terjedelemben. A lost in the middle jelenség hosszú kontextus mellett is valós probléma.

Példák és működő minták

Gyakorlati következtetés: szkennelt PDF

Egy 200 oldalas szkennelt dokumentumot ne tekints natív multimodális feltöltésre ideális inputnak. Előbb OCR-ezd, nyerj ki layoutot, alakítsd át tiszta markdownra vagy strukturált textre, és csak utána add a modellnek. A nyers eredetit tartsd meg auditcélra.

Gyakorlati következtetés: számok és klauzulák

Beszkennelt jogi vagy pénzügyi anyagnál számok, dátumok, képletek, táblázatcellák külön validációt igényelnek. Kézzel írt vagy rossz felbontású dokumentumot mindig gyanús inputnak kell tekinteni.

A döntési réteg: natív, preprocess vagy hibrid?

Nem az a kérdés, hogy a modell tudja-e kezelni a fájlt, hanem hogy neked mi a helyes route. Ez a modul központi logikája.

4Tananyagblokk

Kulcspontok

Natív multimodális feltöltés

Ezt akkor válaszd, ha a vizuális szerkezet maga is jelentést hordoz, és a fájl nem extrém hosszú vagy rossz minőségű. Tipikus jó esetek: screenshotos support triage, chart vagy dashboard értelmezése, rövidebb PDF ahol a layout fontos, slide + transcript + chat együtt.

OCR + markdown + text-modell

Ezt akkor válaszd, ha a dokumentum szöveg-heavy, hosszú, szkennelt vagy rossz minőségű. Tipikus jó esetek: 100+ oldalas scanned PDF, többhasábos régi dokumentum, jogi vagy pénzügyi szöveg ahol a pontos szám, klauzula vagy hivatkozás fontos, non-Latin vagy handwriting-érzékeny anyag.

Hibrid workflow

2026-ban ez az érett megoldás. Előbb OCR és layout-kinyerés, utána text-alapú feldolgozás, majd ahol kell, vizuális ellenőrzés vagy második VLM-pass. Tipikus jó esetek: komplex mellékletes dokumentum-review, chart + táblázat + főszöveg együtt, audit, compliance, procurement, pénzügyi riportok.

Mikor melyik utat válaszd?

A döntés az inputhelyzettől függ, nem a modell képességétől. Ezek a fő esetek:

5Tananyagblokk

Kulcspontok

Rövid, tiszta PDF — fontos layout

Natív multimodális feltöltés.

Screenshot, UI, chart, diagram

Natív multimodális + emberi ellenőrzés.

200+ oldalas scanned PDF

OCR + layout + markdown + text workflow.

Többhasábos, régi scan

Hibrid: OCR-first, VLM-second.

Precíz számok, jogi klauzulák, high-stake tartalom

Strukturált extraction + szabályellenőrzés + emberi review.

Nagy volumenű visszatérő feldolgozás

Router + conditional branch + audit log.

2026-os production workflow

A practitioner irány ma nem egyetlen nagy prompt, hanem egy pipeline. A routing ma már nem extra, hanem infrastruktúra: routing nélkül már költségben és minőségben is rosszabb kompromisszumokra kényszerülsz.

Ajánlott alapworkflow: Input → classifier → preprocess vagy natív route → structured extraction → validation → human review → feedback

6Tananyagblokk

Kulcspontok

1. Input osztályozása

Felismered, hogy szkennelt-e, milyen hosszú, van-e chart, handwriting, low DPI. Ettől függ az összes többi lépés.

2. Preprocessing vagy natív route

Döntés: kell-e OCR és layout parsing? Ha igen, elvégzed — csak ezután kerül a modell elé.

3. Strukturált extraction

A modellt nem szabad szabad szöveges csodaválaszra engedni: kérj JSON-t, provenance-t, oldalszámot, source taget.

4. Validation és consistency check

Futtass consistency checket: a számok egyeznek? A hivatkozások valósak? Low confidence esetén emelj emberre.

5. Human review és feedback

High-stake esetben mindig emberi review. A hibákat építsd vissza a promptba vagy a routerbe — ez javítja a következő futást.

Példák és működő minták

Miért szükséges a provenance?

Ha nincs oldalszám, source tag vagy legalább szakaszhivatkozás, az output auditálhatatlan. Ez különösen kritikus jogi, pénzügyi vagy compliance kontextusban.

Az automation csapda

Ha automationbe teszed review nélkül, egy OCR-hiba vagy screenshot-misread nem egyszer hibázik, hanem minden futásnál. A validációs lépés nem opcionális, hanem infrastruktúra.

Példák — korlát-tudatosan

Három munkahelyi forgatókönyv, ahol a multimodális AI jól használható — de csak akkor hozza a legtöbbet, ha tudod, hol vannak a határai.

7Tananyagblokk

Kulcspontok

Meeting utáni dokumentálás

Ha van transcript, slide és chatlog, natív multimodális workflow jó első kör. Ha viszont 4 órányi meeting, több melléklet és százoldalas háttéranyag van mögötte, már chunkolni, összefoglalni és iterálni kell. Ne egy körben kérj teljes igazságot.

Ügyfél-reklamáció triage

Screenshot + ticket jó natív eset. De ha a screenshoton számok, státuszok és több kis UI-elem van, kérj előbb perception-pass-t: mit látsz pontosan? — és csak utána kérj interpretációt. A button state és overlay-hibák itt gyakoriak.

Dokumentum-review

Ha 20–30 oldalas, tiszta PDF és mellékelt táblázat van, a natív vagy hibrid workflow működhet. Ha 180 oldalas scan, ne a modelltől várd az elsődleges olvashatóságot. OCR-ezz, normalizálj, chunkolj, és csak a vizuálisan kényes részeknél menj vissza VLM-re.

A bizalmi határ

A multimodális AI nem bizonyíték, hanem előfeldolgozó és összerendező réteg. Ezt érdemes nagyon tisztán kimondani.

8Tananyagblokk

Kulcspontok

Amit rábízhatsz első körben

Összefoglalás, triage draft, eltérésjelölés, forrástérkép, kulcspontok kiemelése.

Amit nem szabad vakon rábízni

Precíz számok és totalok, jogi záradékok, cross-page következtetések, nincs adat típusú negatív állítások, high-stake compliance vagy finanszírozási döntések.

Jellemző hibák

Ezek a hibák szinte mindenkinél ugyanazok az első időszakban. Felismerésük megakadályozza a leggyakoribb, rendszerszintű problémákat.

9Tananyagblokk

Kulcspontok

Nagy kontextus = megbízható megértés

Nem ugyanaz. A nagy kontextusablak nem garantálja, hogy a modell a hosszú dokumentum minden releváns részét pontosan feldolgozza. Ez az első és leggyakoribb tévhit.

Scanned PDF natív feltöltése

A scan valójában OCR-first jellegű feladat. Ha natívan töltöd fel, a modell vizuálisan próbálja értelmezni — és a hosszabb, rossz minőségű iratoknál ez megbízhatatlan.

Extraction és interpretáció összekeverése

Előbb kérd meg a modellt, hogy mondja meg, mit látott és mit olvasott ki. Csak utána kérj következtetést. A két lépés szétválasztása javítja a megbízhatóságot.

Nincs provenance

Ha nincs oldalszám, source tag, bounding-box-szerű visszakövethetőség vagy legalább szakaszhivatkozás, az output auditálhatatlan.

Automation review nélkül

Egy OCR-hiba vagy screenshot-misread ilyenkor nem egyszer hibázik, hanem minden futásnál. A validációs lépés nem opcionális.

Gyakorlati multimodális route-ok

A multimodális AI akkor válik igazán érthetővé, ha nem általános képességként, hanem konkrét útvonalakként nézed. Ugyanaz a modell másképp működik egy scanelt PDF-nél, egy meetingfelvételnél vagy egy képes riportnál. Ezek a route-ok segítenek abban, hogy ne csak azt tudd, mit lehet vele csinálni, hanem azt is, melyik feladathoz milyen beállás a reális.

10Tananyagblokk

Kulcspontok

Scanelt PDF → OCR → extraction → review

Hosszú, gyenge minőségű dokumentumoknál ne egyből értelmezést kérj. Előbb szövegkinyerés, aztán strukturált extraction, végül emberi ellenőrzés. Ezzel csökken az a hiba, amikor a modell vizuális találgatásból épít választ.

Meetingfelvétel → transcript → action lista

Hangnál vagy videónál a legbiztonságosabb út általában a transzkriptből indul. A modell így már nyelvi anyaggal dolgozik, és jobban szétválasztható a mit mondtak, mit kell tenni, és milyen döntések maradtak nyitva kérdés.

Kép / screenshot → képi leírás → célzott kérdések

Diagram, dashboard vagy UI screenshot esetén ne teljes értelmezést kérj elsőre. Előbb azt derítsd ki, mit lát a modell: tengelyek, címkék, számok, hibák, hiányzó elemek. A második körben jöhet az üzleti vagy működési következtetés.

Videó → frame-ek → forrástérkép

Hosszabb videóknál nem mindig a teljes videóelemzés a jó út. Sokszor jobban működik, ha kulcskockákat, fejezetpontokat és időkódokat készítesz, és az AI-val ezekből építtetsz visszakereshető jegyzetet vagy forrástérképet.

Példák és működő minták

Mit vigyél magaddal?

A multimodális AI nem egyetlen gomb. Minden inputtípushoz érdemes saját mini workflow-t kialakítani: mit nyersz ki először, mit ellenőrzöl kézzel, és mikor kérsz csak interpretációt.

Következő lépés

A multimodális AI azt oldja meg, hogy a rendszer többféle inputot tud kezelni. A connectorok azt oldják meg, hogy ezekhez az inputokhoz ne mindig kézzel kelljen hozzáférni. Multimodális AI = többféle forrás feldolgozása. Connector = ezeknek a forrásoknak a rendszeres, közvetlen elérése.

Gyakorlás

Teszteld magad AI-jal

A multimodális AI a saját feladataidon válik valódivá. Kérd meg az AI-t, hogy segítsen osztályozni a forrásokat és megtervezni a routing-logikát.

Kérdezd meg az AI-t

  • Van egy dokumentumom: [típus, hossz, minőség]. Natív feltöltés, OCR + markdown, vagy hibrid workflow a helyes út?
  • Kérj perception-pass-t: mit látsz pontosan ezen a képen/táblázaton? Csak utána kérj következtetést.

Kész prompt

Van egy dokumentumom: [írd le: típus, hossz, minőség, use case]. Melyik route a helyes — natív multimodális feltöltés, OCR + markdown pipeline, vagy hibrid workflow? Indokold, és mondj konkrét előfeldolgozási lépéseket.