Natuurlijketaal Verwerking 2003/2004


Boeken
Alle Colleges: 1  2  3  4  5  6  7
EINDCIJFERS
HERKANSING CIJFERS


Tentamen Natuurlijketaal Verwerking:   DATUM:  21-Oct-03   TIJD:  9.30-12.30    ZAAL: C.206




Docenten

K. Sima'an

 en

M. de Rijke

 BOEKEN

We behandelen delen van de volgende boeken (kopieen worden gelegd in de bibliotheek in Euclides)
  1.  Daniel Jurafsky and  James H. Martin. `"SPEECH and LANGUAGE PROCESSING": An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall, 2000.
  2.  Chris Manning and Hinrich Schütze. "Foundations of Statistical Natural Language Processing", MIT Press. Cambridge, MA: May 1999.  (see http://nlp.stanford.edu/fsnlp/ )
  3. Hand-outs.


Practicum opgaves inleveren bij Koen Marten (studentassistent): altijd een week na het desbetreffende college (behalve wanneer anders is vermeld bij het specifieke practicum).





College 1
Docent: Khalil Sima'an

Lees:
  • Hoofdstukken 1 en 2 uit het boek van Jurafsky and Martin
  • SLIDES eeste college

Practicum voor het college NLP -- 3de jaars Informatica studenten

1.  Exercise 2.1  van ``Jurafsky and Martin"
2.  Exercise 2.2 van ``Jurafsky and Martin"  (programmeren!)
3.  Computer oefening: download de volgende text file
    Zoek de  regels in deze file die de volgende pattronen bevatten, gebruik makend van
    reguliere expressies in Perl (of egrep): bewaar de reguliere expressies en vergelijk ze
    met het werk van je medestudenten:
    
      A. Zoek naar het woord "weer" in de text  (dus met white-space eromheen)
      B. Zoek alle patronen die beginnen met "/" en eindigen met "/"
      C. Zoek alle patronen die bevatten het woord "weer"
      D. Zoek alle patronen die getallen bevatten en eindigen met "/"
      E. Zoek alle internet adressen (dus beginnen met "http..." en een adres vormen)
      F. Zoek alle patronen die "telegraaf" gevolgd door "weer" bevat (er kan van alles tussen zitten).


College 2

 
Docent: Maarten de Rijke

Klik hier  http://staff.science.uva.nl/~mdr/Teaching/NTV

Practicum inleveren 2 weken na dit college

College 3
 Docent: Khalil Sima'an

 Lees
  • Hoofdstuk 5 (t/m section 5.6)
  • Hoofdstuk 6
  • SLIDES derde college

Practicum  uit ``Jurafsky and Martin"  (INLEVEREN OP 6 October 2003)
       1. Exercise 6.1 (pagina 232)  
       2. Exercises  6.3, 6.4 en 6.5 (paginas 232--233)
       3. Maak gebruik van het ispell programma van Unix om een programma te schrijven
            dat  1) ispell gebruikt om mogelijke correcties van foute woorden  te genereren
                    2) een bigram taalmodel op  woord niveau gebruikt om de meest waarschijnlijke
                          correctie te kiezen uit de suggesties die uit ispell ontstaan.
           Test-set voor deze opdracht is de volgende text: fiftyspellingerrors.html
                             die fouten bevat. Om jouw spellingscorrectie programma te testen,
                             moet je deze text eerst vergelijken met de correcte text
                              correct_fiftyspellingerrors.html. Waar jij verschillen vindt laat je ispell
                             los op het foute gedeelte van de text gevolgd door jouw  correctie-programma.
                             Je zal merken dat niet alle fouten zo gecorrigeerd kunnen worden, probeer
                             uit te leggen waarom dat niet lukt.
           Training-set voor de bigram model kan worden aangevraagd bij de assistent (Koen Martens).

College 4
Docent: Maarten de Rijke

Klik hier  http://staff.science.uva.nl/~mdr/Teaching/NTV

College 5
Docent: Khalil Sima'an

Lees
  • SLIDES 5de college
  • Hoofdstuk 8
Practicum   (inleveren op 13 October)
          Maak een standaard stochastische POS tagger:
                1. taal-model op basis van bigrams van POS tags
                2. lexicale model zoals gewonelijk (zie slides)
           Om dit model te bouwen moet je tabellen van frequencies van de benodigde
           N-grammen uit de training materiaal extraheren en in tabellen plaatsen. Deze
            tabellen gerbuik je om de waarschijnlijkheden te schatten middels relatieve frequencies.
 
          Gebruik dit model om de spellingscorrectie van opdracht 3 opnieuw te de doen:
          voor een input zin dat spellingsfouten bevat gebruik je ispell om suggesties van
          correcte-zinnen te maken. Vervolgens kies je nu de meest waarschijnlijke correcte-zin    
          waarbij je de waarschijnlijkheid van een zin berekent aan de hand van  
                       
                                   P(zin) = som_over_alle_postag_sequenties  P(zin,  postag_sequentie)
             
          Data voor training kan worden verkregen bij de assistent (Koen Martens).

College 6
Docent: Maarten de Rijke

Klik hier  http://staff.science.uva.nl/~mdr/Teaching/NTV

College 7
Docent: Khalil Sima'an

Een overzicht van de voorgaande colleges en een kort overzicht van gerelateerde colleges.
Hier zijn de slides