 |
 |
|
|
 |
| |
|
Artikel voor Cavia (nov. '06) |
|
|
Artikel voor Cavia (nov. '06) |
 |
 |
| |
|
|
|
| Inleiding |
In het kader van het beantwoorden van de vraag ‘Wat doen onze docenten’ werd mij door de CAVIA redactie gevraagd een stukje te schrijven over mijn bezigheden als AIO bij het Human Computer Studies Laboratory (HCS, vroeger SWI) en mijn specifieke onderzoek. Ik denk dat het heel goed is dat studenten meer in contact komen met het wetenschappelijk onderzoek dat op de universiteit gebeurt. Ook is er na de verschillende Informatica opleidingen en met name bij de opleiding Kunstmatige Intelligentie een meer dan gemiddelde doorstroming naar het AIO-schap. Daarom leek het me een goed idee om meer te vertellen over de specifieke inhoud van een promovendus-positie. Ook zal ik een en ander vertellen over het resultaat van een onderzoek bij HCS en anderen: de prijswinnende MultimediaN E-culture demo.
|
| Aio schap |
Even wat achtergrond: Ik begon mijn opleiding Kunstmatige Intelligentie in 1997 en begon na vier jaar aan mijn afstudeerwerk bij de Psychonomiegroep van Jaap Murre. Het afstudeerwerk behelsde onderzoek gedaan naar een daar ontwikkeld geheugenmodel en de gevolgen die dit zou kunnen hebben voor optimale aanbiedingsschema’s van woordjes voor het leren van een tweede taal. Tijdens deze afstudeerperiode kwam ik voor het eerst in aanraking met het ‘echte’ onderzoekswerk en toen in na mijn afstuderen door Maarten van Someren en Bob Wielinga gevraagd werd om AIO te worden bij de toenmalige SWI-groep heb ik niet lang getwijfeld en nam de onderzoeksbaan aan. Mijn vierjarig AIO-contract is op 1 januari 2001 ingegaan en ik ben nu dus op driekwart van de totale periode.
|
| Semantic Web |
Aangezien ik toen ik begon een eerste-geldstroom-AIO was (dat wil zeggen de AIO-positie die een hoogleraar standaard krijgt bij zijn leerstoel, direct betaald door de universiteit) was mijn onderzoeksonderwerp niet van tevoren vastgelegd. Bij de veel vaker voorkomende derde-geldstroom-AIO’s die betaald worden uit projectgelden ligt al wel vaak een concretere onderzoeksvraag klaar. Wat wel duidelijk was, was dat mijn onderzoek zou plaatshebben binnen het kader van Semantic Web-onderzoek.
Het Semantic Web onderzoek is een wereldwijd project dat tot doel heeft een semantische laag bovenop het huidige (syntactische) World Wide Web te construeren. Door betekenis aan webobjecten zoals webpagina’s, plaatjes en dergelijke te koppelen zou het mogelijk worden voor computerprogramma’s om met die kennis te redeneren en zo zou een machine-processable Web onstaan. Het idee van het Semantic Web is ontwikkeld en wordt momenteel aangestuurd door Sir Tim Berners-Lee, de bedenker van het huidige WWW. De kennis die gekoppeld zou zijn aan webobjecten zou gedefinieerd moeten worden met behulp van ontologieën. Deze ontologieën zijn gestructureerde beschrijvingen van een domein, bijvoorbeeld kunst, sport of voedsel. Ontologieën bestaan uit concepten (klassen), instanties (objecten) en relaties tussen deze concepten en instanties. Om het van het Semantic Web een succes te maken hebben we een groot aantal van deze ontologieën nodig die aan elkaar gerelateerd kunnen worden. Natuurlijk zou je met domeinexperts met de hand deze ontologieën kunnen maken, maar uit eerder onderzoek weten we dat dit niet alleen te veel tijd en moeite kost, maar ook dat domeinexperts erg met elkaar van mening kunnen verschillen over de precieze structuur van de domeinontologieën. Toen ik begon als AIO was het algemene doel van mijn onderzoek te bekijken hoe we (delen van) deze ontologieën automatisch kunnen construeren of bestaande ontologieen konden verrijken met behulp van bestaande kennisbronnen zoals webpagina’s.
|
| Het extraheren van de kunstenaar-kunststijl relatie. |
Het domein waar ik me al snel op concentreerde was het cultureel erfgoed domein. Hierin zijn al een aantal gestructureerde vocabulaires en taxonomieën aanwezig die als basis kunnen dienen voor uitgebreidere ontologieën. Twee voorbeelden hiervan zijn de Art and Architecture Thesaurus (AAT), waarin 133.000 kunsttermen beschreven en hiërarchisch gestructureerd staan en de Unified List of Artist Names (ULAN), een lijst van bekende en minder bekende kunstenaars. Ik besloot me te concentreren op het extraheren van de relatie tussen kunststijlen aan de ene kant (uit AAT) en kunstenaars aan de andere kant (uit de ULAN). Met andere woorden: we willen weten welke kunstenaars gerelateerd zijn aan bijvoorbeeld Impressionisme of Expressionisme. Deze informatie proberen we uit bestaande webpagina’s te halen door middel van text mining. Mogelijke methodes van aanpak zijn het gebruik van adaptieve natuurlijke taaltechnieken en/of het leren van patronen. Wij kozen echter voor een aanpak die de redundantie van kennis op het Wb exploiteert. Door simpele extractiemethodes te gebruiken zijn we in staat om informatie van veel heterogene pagina’s te extraheren. Deze informatie combineren we dan met behulp van simpele statistieken om zo tot overtuigende uitspraken te komen over wie een Impressionist is en wie een Expressionist. Deze methode heb ik ontwikkeld, geprogrammeerd (in het onvolprezen SWI-Prolog) en veelvuldig geëvalueerd. Om te testen of de methode ook werkte in andere domeinen hebben we met deze methode ook de relatie tussen voetballers en voetbalclubs geprobeerd te vinden. Dit gaf ongeveer hetzelfde resultaat als in het cultureel erfgoed domein.
|
| MultimediaN E-Culture Project en Demo |
Ondertussen was ik alweer een tijdje ingelijfd bij het MultimediaN E-culture project. In dit project werken onderzoekers van HCS, de VU en het CWI samen met de organisaties Digitaal Erfgoed Nederland en Instituut Collectie Nederland aan een demo-applicatie die principes van het Semantic Web in de praktijk brengt in het cultureel erfgoed domein. De applicatie laat zien hoe online collecties van verschillende musea beter bekeken kunnen worden via het Web. Op dit moment zijn er in de demo drie verschillende collecties beschikbaar (die van Rijksmuseum, Rijksmuseum voor Volkenkunde en een online collectie: artchive.com). De kunstwerken zijn door de musea zelf geannoteerd met metadata zoals wie de maker is, uit welk jaar of welke periode het stamt en van welke plaats het afkomstig is. Een gedeelte van de concepten uit deze metadata komt al uit ontologieën zoals het AAT. Hierdoor is het mogelijk de kennis uit de ontologieeen te gebruiken bij het beantwoorden van zoekvragen van de gebruiker. Zo vind je bij de zoekvraag ‘Picasso’ niet alleen schilderijen met het woord ‘Picasso’ in de titel zoals dat bij Google gebeurt. Doordat er ook in de metadata gekeken wordt, zal je ook schilderijen geschilderd door Pablo Picasso en zelfs schilderijen van kunstenaars die samenwerkten met Picasso vinden. Dit zijn resultaten kunnen alleen worden getoond met behulp van een hoop achtergrondkennis over hoe de verschillende metadata aan elkaar gerelateerd is. De kennis over de relatie tussen kunstenaars en kunststijlen is ook onderdeel van deze achtergrondkennis en zo is het mogelijk dat als je zoekt op het keyword ‘Matisse’ je ook schilderijen terugvindt van Claude Monet, die in dezelfde stijl heeft geschilderd als Matisse (nl. Impressionisme).
|
| Semantic Web Challenge |
Met deze demo-applicatie heeft het MultimediaN E-culture project de eerste prijs gewonnen in de jaarlijkse Semantic Web Challenge tijdens de ISWC conferentie dit jaar. Het doel van deze competitie is het vergroten van ons begrip hoe machine-begrijpelijke gegevens op het Web geexploiteerd kunnen worden. Om mee te doen dienen applicaties informatie van heterogene bronnen te integreren en deduceren in een open omgeving. Ook dient het een echte end-user applicatie te zijn. De organisatoren waren van mening dat van de 18 inzendingen de E-culture demo het beste was. Een mooi resultaat voor het Amsterdamse Semantic Web onderzoek. Je kan zelf nagaan of deze prijs terecht was. De online demoversie van de applicatie is te vinden op http://e-culture.multimedian.nl. Daar vindt je ook nog meer informatie over de tool en het onderzoek.
Meer informatie over het HCS laboratorium en mijn eigen onderzoek:
http://hcs.science.uva.nl
http://www.science.uva.nl/~vdeboer/publications.html
|
| |
|
 |
 |
 |
|