Universiteit Leiden

nl en

Programmerende socioloog John Boy ontwikkelt Textnets: software om grote hoeveelheden tekst visueel inzichtelijk te maken

Software programmeren is waarschijnlijk niet het eerste waar je aan denkt bij een socioloog. Drie jaar geleden begon John Boy aan de ontwikkeling van zijn software programma Textnets. Corona zorgde ervoor dat hij zich minder goed kon concentreren op het schrijven van wetenschappelijke onderzoek en ook het opzetten van online lessen vergde veel energie. Waar hij zich echter wel goed op kon focussen, was programmeren. En dus zat Boy iedere dag een paar uur achter zijn bureau en codeerde hij Textnets, een open source programma om grote hoeveelheden tekstdocumenten te analyseren en visueel inzichtelijk te maken.

Etnografische onderzoekers eindigen vaak met grote hoeveelheden tekst, met name wanneer zij ook online onderzoek doen. Socioloog John Boy vroeg zich af of hij in plaats de gebruikelijke tools (alle teksten lezen, een voor een coderen en op die manier langzaam categorieën en concepten opbouwen) een andere, meer mixed methods aanpak kon gebruiken om deze grote hoeveelheden tekst te analyseren. Dit wordt mogelijk gemaakt door het programma van Boy. “Ik maak gebruik van digitale techniek om teksten te analyseren. Wat ik heb ontwikkeld is een manier om teksten visueel inzichtelijk te maken. Het is vervolgens aan de wetenschapper om dat te interpreteren.”

Programmeren en cultuur

Boy programmeert al sinds hij een tiener is. In het verleden gebruikte hij al eigen gecodeerde programma’s voor zijn dissertatie. Tijdens zijn postdoc ontwikkelt hij software met de naam ‘Kijkeens’, een programma dat Instagram data kan analyseren en opslaan in een database. Hij raakte geïntrigeerd door de mogelijkheden van tekstconnecties, maar niet op een manier waarop kwantitatieve sociale wetenschappers meestal naar connecties kijken. ‘Ik denk dat het meeste rekenwerk wordt gedaan door mensen die vragen stellen op basis van statistiek en kwantiteit. Dat is niet de achtergrond die ik heb. Ik ben vooral geïnteresseerd in wat je kunt doen met software met als doel om kwalitatieve vragen te stellen.”

Textnets

Het doel van Textnets is simpel: verzamelingen teksten op hoger niveau analyseren. In plaats van dat je jezelf helemaal onderdompelt in losse teksten, maak je met Textnets een gevisualiseerd overzicht van tekst documenten. Belangrijke woorden en zinnen worden gehighlight. Textnets analyseert de documenten en zet ze uiteen in woorden en zinnen. Wanneer twee documenten hetzelfde woord of zin bevatten, worden ze aan elkaar gelinkt. Zo wordt een web of netwerk gecreëerd die inzichtelijke maakt en welke documenten met elkaar verbonden zijn en waarom ze verbonden zijn.

Visualiseren van grote hoeveelheden tekst

“Vooral wanneer je veel teksten hebt, is Textnets handig. Als je bijvoorbeeld 70.000 tweets, 40.000 online posts op een forum en 20.000 korte verhalen hebt dan kan je dat simpelweg niet allemaal lezen culturele patronen herkennen. Dan heb je een computerprogramma nodig die je daarbij kan helpen”, aldus Boy. “Het programma doet niet al het werk, het zegt niet wat de connecties betekenen. Het visualiseert alleen hoe de verschillende documenten geclusterd zijn. Onderzoekers moeten zelf de resultaten interpreteren.  Textnets kun je zien als gereedschap dat je daarbij helpt, de visualisatie helpt bij de interpretatie. Niet alleen omdat het er mooi uit ziet, maar het maakt het makkelijker om gevoel over te brengen van wat er gaande is.”

Visualisatie van subsidies van de Amerikaanse National Science Foundation (NSF) aan onderzoekers op het gebied van sociologie en culturele antropologie voor projecten in verband met Covid-19.

Creëren van connectie en betekenis

Textnets kan naast het analyseren van documenten ook woorden en woordgroepen aan elkaar linken die in hetzelfde document voorkomen. Neem bijvoorbeeld een tekst waarin iemand praat over ‘bank’, ‘Netflix’ en ‘verveling’ en een andere tekst waarin in iemand het heeft over ‘bank’, ‘kinderen’ en ‘koffie’. Het woord ‘bank’ wordt dan gelinkt aan Netflix en verveling, maar ook aan kinderen en koffie. Het programma kan dan in beeld brengen dat het woord ‘bij verschillende onderwerpen hoort. “Hierdoor krijg je inzicht in de verschillende zinnen en uitdrukkingen die mensen gebruiken die een brug slaan tussen verschillende manieren waarop er over de wereld wordt gepraat. De manier waarop je de software kunt gebruiken is tweeledig. Een manier is om documenten samen te clusteren en de andere is het clusteren van woorden en te zien hoe die woorden betekenis en verbinding creëren.”

Free software als een manier van denken

Het programma dat Boy heeft ontwikkeld is, net als alle andere programma’s waaraan hij bijdraagt als programmeur, ‘open source software’. Of zoals hij het zelf liever noemt ‘free software’. “Software zie ik als een manier van denken. Wanneer je software beschouwt als eigendom zeg je eigenlijk dat jij eigenaar bent van die denkwijze. Voor mij, en voor alle mensen binnen de open software beweging, onetisch”  ‘Free’ moet hierbij niet gezien worden als gratis, maar in de zin van freedom, vrijheid. Het betekent niet per definitie dat je niet voor een programma betaalt, maar dat er geen gebruiksrestricties aan vast zitten. Voor Boy was het duidelijk dat hij zijn project onder de GNU General Public License zou uitbrengen. Deze licentie geeft de auteur het copyright maar de programmeur kan het gebruik van de software zo open mogelijk houden. Boy gebruikt zijn copyright om de software zo vrij mogelijkheid te houden. “Dit betekent dat niemand mijn software om mag zetten in een eigenaar-product. Alles wat hieruit voortgebouwd wordt, moet ook ‘free’ zijn.

Gebruik van woordgroepen in plaats van losse woorden voor de verbindingen
Deze website maakt gebruik van cookies.  Meer informatie.