vi BEKNOPTE SAMENVATTING onthullen dat er weliswaar vooruitgang is geboekt, maar dat er nog significant veel ruimte is voor verbetering, met name in de lange-contextmodellering voor de verwerking van multipagina documenten en gekalibreerd, selectief visueel vraagbeantwoording van documenten. Meer schaalbaar DI wordt ook verkend, waarbij de effectiviteit van kennisdistillatie (KD) voor modelcompressie in visueel-rijke layoutanalyse (DLA) en classificatie van documenten aan het licht komt. Door middel van empirische studies en methodologische bijdragen, heeft dit proefschrift de volgende bijdragen en bevindingen: Ten eerste vinden we in een benchmarkstudie van gevestigde POK-methoden op tekstclassificatie in de echte wereld dat onze nieuwe hybride POK-methode ’Concrete Dropout Ensemble’ het beste presteert, de kalibratie binnenshuis verbeterend en detectie van nieuwe klassen, zelfs met een kleiner ensemble. Gedetailleerde ablatie-experimenten onthullen de impact van voorafgaande kennis, neurale architectuur en keuzes van hyperparameters op de kwaliteit van POK-schatting. Ten tweede identificeren we uitdagingen in de vooruitgang van DI en stellen een formalisatie voor van multipagina documentclassificatiescenario’s, bouwen novel datasets, en voeren een experimentele analyse uit die de belofte van multipagina representatie-leren en inferentie toont. Ten derde introduceren we DUDE, waarin veelzijdige uitdagingen en principes worden voorgesteld voor een uitgebreide evaluatie. Naast onze eigen benchmarking organiseren we een competitie, waaruit blijkt dat hoewel nieuwere modellen veelbelovend zijn, ze het moeilijk hebben met vragen die visueel bewijs of complex redeneren vereisen. Bovendien vinden we ernstige problemen in het vermogen van Grote Taalmodellen (LLMs) om over documenten in hun geheel te redeneren, wat problemen benadrukt met hallucinatie, redeneren met lange context en controle. Ten vierde stellen we de eerste experimentele methodologie voor om documenten te verrijken met semantische layoutstructuur met behulp van gedestilleerde DLA-modellen. We passen KD toe op visuele documenttaken, waarbij we de invloed van verschillende architectuurcomponenten van taken ontrafelen. Ten slotte sluit het proefschrift af met een bespreking van de bevindingen en implicaties voor toekomstig onderzoek, waarbij de noodzaak wordt benadrukt voor vooruitgang in multipagina documentrepresentatie-leren en het belang van realistische datasets en experimentele methodologieën om meetbaar vooruitgang te boeken naar betrouwbare en robuuste IA-DI technologie.