Curriculum vitae


  Curriculum vitae
Naam: Dirix
Voornaam: Peter
Geboortedatum: 21 augustus 1975
Geboorteplaats: Hasselt
Burgerlijke stand: ongehuwd
Rijbewijs: B

  Opleiding
Studies:Latijn-Wiskunde (Aangenomen College, Sint-Truiden, 1992)
Toelatingsexamen faculteit Toegepaste Wetenschappen (K.U. Leuven, 1992)
Kandidaat in de natuurkunde (Limburgs Universitair Centrum, Diepenbeek, 1994)
Licentiaat in de natuurkunde (Katholieke Universiteit Leuven, 1997)
Aanvullende studie in de informatica (Katholieke Universiteit Leuven, 1998)
Aanvullende studie in de toegepaste informatica (Katholieke Universiteit Leuven, geen diploma)
Master in Artificial Intelligence (Katholieke Universiteit Leuven, 2002)
European Master in Language en Speech (Katholieke Universiteit Leuven, 2002)
Individuele vakken letteren: Oudslavisch, Oude Indo-Europese talen (Oudsaksisch, Gallisch, Oudperzisch, Hettitisch, Oskisch, Oudpruisisch, Messapisch, Oudnoords) (Katholieke Universiteit Leuven, 2017-2022)

Stage:METIS-project, Centrum voor Computerlinguïstiek van de KU Leuven (01/04/2002 tot 31/05/2002)


  Werkervaring
Academische sector:
Onderzoeker Centrum voor Computerlinguïstiek van de KU Leuven (vanaf 01/07/2002)
Projecten:
  • METIS (2002-2003): statistische automatische vertaling met monolinguale corpora
  • Atranos (2003): automatische samenvatting voor ondertiteling
  • Corpus Gesproken Nederlands (CGN) (2003)
  • METIS-II (2004-2007): statistische automatische vertaling met monolinguale corpora
  • AfriTools (2012-): ontwikkelen van software en hulpbronnen voor taalkundig onderzoek en natuurlijketaalverwerking in het Afrikaans, met inbegrip van een tokenizer, een lemmatiseerder, een woordsoortannotator, een handmatig geverifieerd lexicon van 250K woorden en een UD-versie van de AfriBooms-treebank
  • syntaxisonderzoek in het Afrikaans: werkwoordsgroepen (vervangende infinitief, preteritale assimilatie/vervanging, woordvolgorde, groepsdoorbreking, complex initials), aangeplakte vragen, insubordinatie
Andere taken:
- schrijven van projectvoorstellen
- medeorganisator van conferenties en workshops (EMSSL 2002, HPSG 2004, Metis II-workshop 2007, CLIN 17, CLIF 2008, EAMT 2011, CLIN 27)
- redacteur van de conferentienotulen van CLIN 17
- ontwikkeling van een meertalige ontologie van jobnamen voor Selor (het selectiebureau van de Belgische federale overheid)
- onafhankelijk expert voor het CORDIS-programma van de Europese Commissie
- covoorzitter van de speciale sessie over taaltechnologie voor de International Conference on Information and Software Technologies (ICIST) (sinds 2016)
- lid van het wetenschappelijk comité van CLIN 17, het Colloquium Afrikaans in Gent 2015, de UniDive 2023 General Meeting, COLING (sinds 2018), EMNLP (sinds 2021), ACL (sinds 2022), CLIN Journal 2021 en LREC (sinds 2007)

Lidmaatschappen:

Privésector:
Tekstcorpusingenieur bij Lernout & Hauspie te Wemmel (01/10/1999 tot 14/12/2001)
- ontwikkeling van software voor het opschonen en annoteren van corpora
- opzetten van een tekstcorpusserver
- specialist in tekencodering
- geven van interne opleidingen: basisopleiding informatica, Linux, tekencodering, corpusannotatie en Perl
Taalkundig ingenieur bij Dictaphone/Nuance in Diegem/Leuven (01/05/2004 tot 15/08/2010)
- ontwikkeling van medische taalmodellen voor het Nederlands, Duits, Spaans en Frans
- ontwikkeling en onderhoud van het lexicaal kader en ontwikkeling van corpusopschonings-, lexicale en validatiesoftware
- lexiconontwikkeling en ontwikkeling van tokenisatie- en postprocessinggrammatica's voor het Engels, Nederlands, Frans, Duits, Spaans, Italiaans en Russisch
- ontwikkeling van fonetische transcripties voor het Engels, Nederlands, Frans, Duits, Spaans, Italiaans en Russisch
- manager van taalkundige consultants
- geven van een jaarlijks seminarie over spraakherkenning aan de Provinciale Hogeschool Limburg
Manager of Linguistic Engineering bij Nuance in Leuven (16/08/2010 tot 30/09/2019)
Leiding van een team van maximaal 14 interne taalkundige ingenieurs, 2 stagiairs en 35 externe consultants.
De taken van het team zijn:
- ontwikkeling van grote uitspraakwoordenboeken voor continue automatische spraakherkenning en morfologische generatie/analyse
- ontwikkeling van grammatica's voor de morfologische analyse van constituenten
- ontwikkeling van tokenisatie- en postprocessinggrammatica's voor automatische spraakherkenning
- ontwikkeling van herkenningsgrammatica's voor spraakherkenning op basis van eindigetoestandstaalmodellen
- ontwikkeling van generatieve grammatica's voor trainingdata for automatische spraakherkenning en semantische analyse
- taalkundige ondersteuning voor ingenieurs
- onderzoek naar verbetering van spraakherkenning op taalafhankelijke basis
- analyse van gebruikersdata
De volgende bedrijfstakken worden ondersteund:
- dicteerproducten (Dragon NaturallySpeaking, Dragon Anywhere, Dragon Professional)
- medische dicteersoftware (Dragon Network Medical Edition, Dragon Practice Medical Edition, Dragon Medical One, PowerScribe 360)
- televisie (Dragon TV)
- telefoons (Dragon Dictation, Dragon Search, Voicemail-to-Text, Nuance Mix, Nuance Transcription Engine)
- auto's (Dragon Drive)
- virtuele assistenten (Nina, Dragon Mobile Assistant)
Ondersteuning van 37 talen: Arabisch, Catalaans, Deens, Duits, Engels, Ests, Fins, Frans, Grieks, Hebreeuws, Hindi, Hongaars, Indonesisch, Italiaans, Japans, Kantonees, Koreaans, Kroatisch, Lets, Litouws, Maleis, Mandarijn-Chinees, Nederlands, Noors, Oekraïens, Pools, Portugees, Roemeens, Russisch, Sjanghainees, Slowaaks, Spaans, Thai, Tsjechisch, Turks, Vietnamees en Zweeds
Lid van de industriële adviescommissie voor het SCATE project (2014-2018).
Manager of Speech Input Data: Linguistic Resources bij Cerence in Leuven (vanaf 01/10/2019)
Leiding van een team van interne taalkundige ingenieurs, stagiairs en externe consultants.
De taken van het team zijn:
- ontwikkeling van grote uitspraakwoordenboeken voor continue automatische spraakherkenning en morfologische generatie/analyse
- ontwikkeling van grammatica's voor de morfologische analyse van constituenten
- ontwikkeling van tokenisatie- en postprocessinggrammatica's voor automatische spraakherkenning
- ontwikkeling van herkenningsgrammatica's voor spraakherkenning op basis van eindigetoestandstaalmodellen
- ontwikkeling van generatieve grammatica's voor trainingdata for automatische spraakherkenning en semantische analyse
- taalkundige ondersteuning voor ingenieurs
- onderzoek naar verbetering van spraakherkenning op taalafhankelijke basis
- analyse van gebruikersdata
Ondersteuning van 43 talen: Arabisch, Bengaals, Bulgaars, Catalaans, Deens, Duits, Engels, Ests, Fins, Frans, Grieks, Hebreeuws, Hindi, Hongaars, Indonesisch, Italiaans, Japans, Kannada, Kantonees, Koreaans, Kroatisch, Lets, Litouws, Maleis, Mandarijn-Chinees, Marathi, Nederlands, Noors, Oekraïens, Pools, Portugees, Roemeens, Russisch, Sjanghainees, Slowaaks, Spaans, Tamil, Teloegoe, Thai, Tsjechisch, Turks, Vietnamees en Zweeds
- Lid van de industriële adviescommissie voor het Erasmus Mundus European Masters Program in Language and Communication Technologies (2020-2023) en het UPSKILLS project (2020-2023). Verder gaf ik lezingen over spraaktechnologie voor de Nationale Bibliotheek van Noorwegen en aan de Université catholique de Louvain.

Studentenjobs:Mentor (opvang eerstejaars), Limburgs Universitair Centrum, Diepenbeek (september-oktober 1993)
Repetitor wiskunde, Repetitorbureau Rebus, Leuven (januari-november 1996)
Medewerker "Guidogids Leuven" (edities 1998 en 1999)
Verwerking interviews faculteit TEW, KU Leuven (juli-augustus 1998)
Tutor wiskunde, statistiek, natuurkunde en wetenschapsfilosofie (2002-2008)


  Talen & informatica
Talenkennis: Nederlands (moedertaal), Frans, Engels (C1), Afrikaans, Duits, Spaans (B2), Italiaans (A2), Russisch, Zweeds, Noors, Fries (A1). Verder kan ik alle andere Germaanse en Romaanse talen min of meer lezen.
Klassieke talen: Latijn, klassiek Grieks, Oudslavisch, Oudnoords, Oudsaksisch, Gallisch, Oudperzisch, Hettitisch, Oskisch, Oudpruisisch, Messapisch
Programmeer- en scriptingtalen: Perl, Python, Pascal, Fortran, Prolog, Java, Haskell, Basic, Matlab
Mark-uptalen: HTML, XHTML, SGML, XML, LaTex
Besturingssystemen: Windows, Unix, MS-DOS
Versiecontrolesystemen: Perforce, Mercurial, Git, CVS
Andere toepassingen: Outlook, MS Word, MS Excel, PowerPoint, Praat, MS Teams, Twitch

© 1999-2023 Alle rechten voorbehouden. Laatste wijziging: 9 februari 2023.