Zintuigen omzetten in media: kunnen we kunstmatige intelligentie leren waarnemen?
Mensen nemen de wereld waar via verschillende zintuigen: we zien, voelen, horen, proeven en ruiken. De verschillende zintuigen waarmee we waarnemen bestaan uit meerdere informatie kanalen, ook wel multimodaal genoemd. Betekent dit dat wat we waarnemen als multimedia kan worden gezien?
Xue Wang, promovendus bij LIACS, vertaalt waarneming in multimedia en gebruikt kunstmatige intelligentie (KI) om informatie te halen uit multimodale processen, vergelijkbaar met hoe de hersenen informatie verwerken. In haar onderzoek heeft ze leerprocessen van KI op vier verschillende manieren getest.
Woorden in vectoren omzetten
Allereerst heeft Xue zich verdiept in het leren van woorden: de vertaling van woorden in vectoren. Een vector is een grootheid met twee eigenschappen, namelijk een richting en een omvang. Specifiek gaat dit deel over hoe de classificatie van informatie kan verbeteren. Xue stelde het gebruik voor van een nieuw AI-model dat woorden koppelt aan beelden, waardoor woorden gemakkelijker kunnen worden geclassificeerd. Tijdens het testen van het model kon een waarnemer ingrijpen als de KI iets fout deed. Uit het onderzoek blijkt dat dit model beter presteert dan een eerder gebruikt model.
Kijken naar subcategorieën
Een tweede aandachtspunt van het onderzoek zijn afbeeldingen die ook andere informatie bevatten. Voor dit onderwerp observeerde Xue het KI-vermogen om sub-categorieën te labelen, ook wel fijnkorrelig labelen genoemd. Ze gebruikte een specifiek KI-model om het categoriseren van afbeeldingen met weinig tekst er omheen te vereenvoudigen. Het voegt grove labels (algemene categorieën) samen met fijnkorrelige labels (sub-categorieën). De aanpak is effectief en nuttig bij het structureren van makkelijke en moeilijke categorisaties.
Relaties vinden tussen beelden en tekst
Ten derde onderzocht Xue de associatie tussen beeld en tekst, d.w.z. de relatie tussen beiden. Een probleem bij dit onderwerp is dat de omzetting van deze informatie niet lineair is, wat betekent dat het moeilijk te meten is. Xue vond een mogelijke oplossing voor dit probleem: ze gebruikte een zogeheten kernel-gebaseerde omzetting. Kernel staat voor een specifieke categorie algoritmen in machinaal leren. Met het gebruikte model is het nu mogelijk voor KI om de betekenisrelatie tussen beelden en tekst te zien.
Contrast zoeken in beelden en tekst
Als laatste richtte Xue zich op afbeeldingen met tekst. Hierbij moest KI-model kijken naar tegenstellingen tussen woorden en beelden. Het KI-model koppelde hierbij zelfstandige naamwoorden in beeldbijschriften aan delen van het beeld. Er was geen waarnemer die bij deze taak kon ingrijpen. Uit het onderzoek bleek dat KI deze taak uitvoerde met een gemiddelde nauwkeurigheid voor dit onderzoeksgebied.
De perceptie van kunstmatige intelligentie
Dit onderzoek levert een grote bijdrage aan het gebied van multimedia-informatie. We zien dat AI woorden kan classificeren, afbeeldingen kan categoriseren en afbeeldingen aan tekst kan koppelen. Verder onderzoek kan gebruik maken van de door Xue voorgestelde methoden en leidt hopelijk tot nog betere inzichten in de multimediale perceptie van AI.