| Boeken |
Alle Colleges:
1 2 3 4 5 6 7 |
EINDCIJFERS |
HERKANSING CIJFERS |
| Docenten K. Sima'an en M. de Rijke |
BOEKEN We behandelen delen van de volgende boeken (kopieen worden gelegd in de bibliotheek in Euclides)
|
Practicum opgaves inleveren bij Koen Marten (studentassistent): altijd een week na het desbetreffende college (behalve wanneer anders is vermeld bij het specifieke practicum). |
|
College 1 |
Docent: Khalil
Sima'an Lees:
Practicum voor het college NLP -- 3de jaars Informatica studenten 1. Exercise 2.1 van ``Jurafsky and Martin" 2. Exercise 2.2 van ``Jurafsky and Martin" (programmeren!) 3. Computer oefening: download de volgende text file Zoek de regels in deze file die de volgende pattronen bevatten, gebruik makend van reguliere expressies in Perl (of egrep): bewaar de reguliere expressies en vergelijk ze met het werk van je medestudenten: A. Zoek naar het woord "weer" in de text (dus met white-space eromheen) B. Zoek alle patronen die beginnen met "/" en eindigen met "/" C. Zoek alle patronen die bevatten het woord "weer" D. Zoek alle patronen die getallen bevatten en eindigen met "/" E. Zoek alle internet adressen (dus beginnen met "http..." en een adres vormen) F. Zoek alle patronen die "telegraaf" gevolgd door "weer" bevat (er kan van alles tussen zitten). |
College 2 |
Docent: Maarten de Rijke Klik hier http://staff.science.uva.nl/~mdr/Teaching/NTV Practicum inleveren 2 weken na dit college |
| College
3 |
Docent: Khalil Sima'an Lees
1. Exercise 6.1 (pagina 232) 2. Exercises 6.3, 6.4 en 6.5 (paginas 232--233) 3. Maak gebruik van het ispell programma van Unix om een programma te schrijven dat 1) ispell gebruikt om mogelijke correcties van foute woorden te genereren 2) een bigram taalmodel op woord niveau gebruikt om de meest waarschijnlijke correctie te kiezen uit de suggesties die uit ispell ontstaan. Test-set voor deze opdracht is de volgende text: fiftyspellingerrors.html die fouten bevat. Om jouw spellingscorrectie programma te testen, moet je deze text eerst vergelijken met de correcte text correct_fiftyspellingerrors.html. Waar jij verschillen vindt laat je ispell los op het foute gedeelte van de text gevolgd door jouw correctie-programma. Je zal merken dat niet alle fouten zo gecorrigeerd kunnen worden, probeer uit te leggen waarom dat niet lukt. Training-set voor de bigram model kan worden aangevraagd bij de assistent (Koen Martens). |
| College
4 |
Docent: Maarten de Rijke Klik hier http://staff.science.uva.nl/~mdr/Teaching/NTV |
| College
5 |
Docent: Khalil Sima'an Lees
Maak een standaard stochastische POS tagger: 1. taal-model op basis van bigrams van POS tags 2. lexicale model zoals gewonelijk (zie slides) Om dit model te bouwen moet je tabellen van frequencies van de benodigde N-grammen uit de training materiaal extraheren en in tabellen plaatsen. Deze tabellen gerbuik je om de waarschijnlijkheden te schatten middels relatieve frequencies. Gebruik dit model om de spellingscorrectie van opdracht 3 opnieuw te de doen: voor een input zin dat spellingsfouten bevat gebruik je ispell om suggesties van correcte-zinnen te maken. Vervolgens kies je nu de meest waarschijnlijke correcte-zin waarbij je de waarschijnlijkheid van een zin berekent aan de hand van P(zin) = som_over_alle_postag_sequenties P(zin, postag_sequentie) Data voor training kan worden verkregen bij de assistent (Koen Martens). |
| College
6 |
Docent: Maarten de Rijke Klik hier http://staff.science.uva.nl/~mdr/Teaching/NTV |
| College
7 |
Docent: Khalil Sima'an Een overzicht van de voorgaande colleges en een kort overzicht van gerelateerde colleges. Hier zijn de slides |