Het uitrijpen van de taaltechnologie

Professor Dr. Franciska de Jong
Hoogleraar Taaltechnologie en directeur Erasmus Studio
Universiteit Twente en Erasmus Universiteit Rotterdam

Wat is, volgens u, de meest veelbelovende ontwikkeling in uw vakgebied?

De taal- en spraaktechnologie is onderdeel geworden van het leven van alledag. Taaltechnologie is een onlosmakelijk onderdeel van spellingcheckers, van ‘how-can-I-help-you’-diensten (al dan niet met spraakherkenning), en de talloze zoekmachines die ons de weg wijzen in de enorme hoeveelheden digitale data die ons ter beschikking staan. Al die technologieën zijn nog volop in ontwikkeling en in de komende jaren verwacht ik dat er steeds meer mogelijkheden komen voor maatwerk: applicaties die rekening houden met de kenmerken van gebruikers, de context en het karakter van datasets. De mogelijkheden om patronen en trends te detecteren in grote verzamelingen tekst worden steeds verfijnder.

Hoe ziet u de toekomst van uw discipline?

De taaltechnologie is op dit moment aan het uitrijpen. Dat blijkt uit de hoeveelheid toepassingen, maar ook uit de enorme aandacht daarvoor binnen vakgebieden waarvoor de automatische analyse van tekst van belang is: economie, het biomedische domein, sociale wetenschappen, en de geesteswetenschappen. De online academische cursussen (de zogeheten MOOCs) op dit terrein worden wereldwijd door honderdduizenden gevolgd (onder meer Natural Language Processing en Machine Learning).

Het vakgebied zelf zal zich daarom deels in multidisciplinair verband doorontwikkelen en zich richten op vragen die te maken hebben met het analyseren van patronen in gecombineerde datasets (teksten uit verschillende bronnen en materiaal in meerdere talen, maar ook: tekst en beeld, en tekst en numerieke gegevens (prijsontwikkeling, beurskoersen, geografische data, chronologie, etc.).

Wat is het belang van de geesteswetenschappen?

Met de opkomst van digitale dataverzamelingen en de rol van informatietechnologie in de werkomgeving van onderzoekers in de humaniora, is er toenemende aandacht voor de ontwikkeling en invulling van het begrip ‘digital scholarship’ binnen de humaniora.

Het begrip Digital Humanities (op sommige plaatsen in de wereld, waaronder Nederland, ook wel aangeduid als e-Humanities) wordt niet langer geassocieerd met het digitaliseren van bestaande analoge collecties, maar met het ontwikkelen van tools voor de interactie met digitale bronnen (exploratie, bewerking, annotatie, visualisatie). De datasets die ertoe doen voor de geesteswetenschappen hebben een inherente complexiteit die voor taaltechnologen en informatici interessant is. De ontwikkeling van modellen voor analyse en interactie gericht op datasets en werkprocessen binnen de humaniora wordt al enige tijd vanuit diverse onderzoeksfinancieringsprogramma’s gestimuleerd. In Nederland zijn er bijvoorbeeld het CATCH-programma (www.nwo.nl/catch) en CLARIN dat gericht is op de ontwikkeling van een generieke infrastructuur (gestandaardiseerde tools en datasets, ingebed in een EU-breed intitiatief). Zie verder www.clarin.nl.

Het documenteren van verandering is altijd een belangrijke deeltaak geweest van de humanities, en intellectuele en maatschappelijk dynamiek vindt zijn weerslag vaak in teksten. Mogelijk zal de taaltechnologie daarbij een hulpmiddel voor structurering en analyse blijken te zijn. Daarnaast kan taaltechnologie (al dan niet in combinatie met spraakherkenning) een rol spelen voor doorzoekbaarheid van multimedia-archieven die een steeds belangrijkere bron vormen bijvoorbeeld voor onderzoekers in mediastudies en oral history. [1]

Hoe groot de impact van de taaltechnologie wordt, zal deels afhangen van de mate waarin de bestaande werk- en denkwijze van onderzoekers in de humaniora in de nieuwe vormen van omgang met data kan worden voortgezet. Tegelijk zal er aandacht nodig zijn voor de methodologische implicaties voor onderzoekers, bijvoorbeeld in de omgang met statistische onzekerheden en foutenmarges die inherent zijn aan automatische analyse. Je ziet overigens steeds vaker dat opleidingen van jonge onderzoekers hierop al inspelen.

In het komende decennium zal duidelijk worden of digital scholarship kan doordringen in de haarvaten van de humanities of dat de digital humanities een subdiscipline zal blijken te zijn met een eigen onderzoeksgemeenschap.

Referenties:

1 de Jong, F.M.G. and Ordelman, R.J.F. and Scagliola, S. (2011) Audio-visual Collections and the User Needs of Scholars in the Humanities: a Case for Co-Development. In: Proceedings of the 2nd Conference on Supporting Digital Humanities (SDH 2011), 17-18 Nov 2011, Copenhagen, Denmark. Centre for Language Technology, Copenhagen. (http://eprints.eemcs.utwente.nl/20868/)


Andere bijdragen in Digital humanities, Samenwerken binnen de geesteswetenschappen, Taalwetenschappen