Peter Dirix' persoonlijke webstek

Peter Dirix' persoonlijke webstek

Curriculum vitae

home

contactgegevens

curriculum vitae

publicaties

presentaties & conferenties

studentenleven

English

Curriculum vitae

Naam: Dirix
Voornaam: Peter
Geboortedatum: 21 augustus 1975
Geboorteplaats: Hasselt
Burgerlijke stand: ongehuwd
Rijbewijs: B

Opleiding

Studies:	Latijn-Grieks/Latijn-Wiskunde (Aangenomen College, Sint-Truiden, 1992)
	Toelatingsexamen faculteit Toegepaste Wetenschappen (K.U. Leuven, 1992)
	Kandidaat in de natuurkunde (Limburgs Universitair Centrum, Diepenbeek, 1994)
	Licentiaat in de natuurkunde (Katholieke Universiteit Leuven, 1997)
	Aanvullende studie in de informatica (Katholieke Universiteit Leuven, 1998)
	Aanvullende studie in de toegepaste informatica (Katholieke Universiteit Leuven, geen diploma)
	Master in Artificial Intelligence (Katholieke Universiteit Leuven, 2002)
	European Master in Language en Speech (Katholieke Universiteit Leuven, 2002)
	Individuele vakken letteren: Oudslavisch, Oude Indo-Europese talen, vergelijkende Indo-Europese taalkunde, Sanskriet, taaltypologie en -universalia (Katholieke Universiteit Leuven, 2017-2025)
	Zomerschool talen en taalkunde: Myceens en Klassiek Armeens (Universiteit Leiden, 2025)

Stage: METIS-project, Centrum voor Computerlinguïstiek van de KU Leuven (01/04/2002 tot 31/05/2002)

Certificaten:
Cursus Overlevingsrussisch (Centrum voor Russische Studies KU Leuven, december 2013)

Probleemoplossend denken: in 3 steppen naar creative oplossingen (Cevora, mei 2025)

Hybride people management: je teamcohesie versterken op afstand (Cevora, juli 2025)

Werkervaring

Academische sector:

	Onderzoeker Centrum voor Computerlinguïstiek van de KU Leuven (vanaf 01/07/2002) Projecten: METIS (2002-2003): statistische automatische vertaling met monolinguale corpora Atranos (2003): automatische samenvatting voor ondertiteling Corpus Gesproken Nederlands (CGN) (2003) METIS-II (2004-2007): statistische automatische vertaling met monolinguale corpora AfriTools: ontwikkelen van software en hulpbronnen voor taalkundig onderzoek en natuurlijketaalverwerking in het Afrikaans, met inbegrip van een tokenizer, een lemmatiseerder, een woordsoortannotator, een handmatig geverifieerd lexicon van 250K woorden en een UD-versie van de AfriBooms-treebank syntaxisonderzoek in het Afrikaans: werkwoordsgroepen (vervangende infinitief, preteritale assimilatie/vervanging, woordvolgorde, groepsdoorbreking, complex initials), aangeplakte vragen, insubordinatie, reduplicatie Andere taken: - schrijven van projectvoorstellen - medeorganisator van conferenties en workshops (EMSSL 2002, HPSG 2004, Metis II-workshop 2007, CLIN 17, CLIF 2008, EAMT 2011, CLIN 27) - redacteur van de conferentienotulen van CLIN 17 - ontwikkeling van een meertalige ontologie van jobnamen voor Selor (het selectiebureau van de Belgische federale overheid) - onafhankelijk expert voor het CORDIS-programma van de Europese Commissie - covoorzitter van de speciale sessie over taaltechnologie voor de International Conference on Information and Software Technologies (ICIST) (2016-2025) - lid van het wetenschappelijk comité van CLIN 17, het Colloquium Afrikaans in Gent 2015, de 3rd Afrikaans Grammar Workshop (2023), de UniDive 2023 General Meeting, COLING (sinds 2018), EMNLP (sinds 2021), ACL (sinds 2022), CLIN Journal 2021, de BKL-taaldag (2025) en LREC (sinds 2007) - lid van de redactieraad van het CLIN Journal (sinds 2025) Lidmaatschappen: Gents centrum voor het Afrikaans en de studie van Zuid-Afrika (2014-) Northern European Association for Language Technology (2015-) European COST action UniDive (2022-)

Privésector:

Tekstcorpusingenieur bij Lernout & Hauspie te Wemmel (01/10/1999 tot 14/12/2001)
- ontwikkeling van software voor het opschonen en annoteren van corpora
- opzetten van een tekstcorpusserver
- specialist in tekencodering
- geven van interne opleidingen: basisopleiding informatica, Linux, tekencodering, corpusannotatie en Perl

Taalkundig ingenieur bij Dictaphone/Nuance in Diegem/Leuven (01/05/2004 tot 15/08/2010)
- ontwikkeling van medische taalmodellen voor het Nederlands, Duits, Spaans en Frans
- ontwikkeling en onderhoud van het lexicaal kader en ontwikkeling van corpusopschonings-, lexicale en validatiesoftware
- lexiconontwikkeling en ontwikkeling van tokenisatie- en postprocessinggrammatica's voor het Engels, Nederlands, Frans, Duits, Spaans, Italiaans en Russisch
- ontwikkeling van fonetische transcripties voor het Engels, Nederlands, Frans, Duits, Spaans, Italiaans en Russisch
- manager van taalkundige consultants
- geven van een jaarlijks seminarie over spraakherkenning aan de Provinciale Hogeschool Limburg

Manager of Linguistic Engineering bij Nuance in Leuven (16/08/2010 tot 30/09/2019)
Leiding van een team van maximaal 14 interne taalkundige ingenieurs, 2 stagiairs en 35 externe consultants.
De taken van het team waren:
- ontwikkeling van grote uitspraakwoordenboeken voor continue automatische spraakherkenning en morfologische generatie/analyse
- ontwikkeling van grammatica's voor de morfologische analyse van constituenten
- ontwikkeling van tokenisatie- en postprocessinggrammatica's voor automatische spraakherkenning
- ontwikkeling van herkenningsgrammatica's voor spraakherkenning op basis van eindigetoestandstaalmodellen
- ontwikkeling van generatieve grammatica's voor trainingdata for automatische spraakherkenning en semantische analyse
- taalkundige ondersteuning voor ingenieurs
- onderzoek naar verbetering van spraakherkenning op taalafhankelijke basis
- analyse van gebruikersdata
De volgende bedrijfstakken werden ondersteund:
- dicteerproducten (Dragon NaturallySpeaking, Dragon Anywhere, Dragon Professional)
- medische dicteersoftware (Dragon Network Medical Edition, Dragon Practice Medical Edition, Dragon Medical One, PowerScribe 360)
- televisie (Dragon TV)
- telefoons (Dragon Dictation, Dragon Search, Voicemail-to-Text, Nuance Mix, Nuance Transcription Engine)
- auto's (Dragon Drive)
- virtuele assistenten (Nina, Dragon Mobile Assistant)
Ondersteuning van 37 talen: Arabisch, Catalaans, Deens, Duits, Engels, Ests, Fins, Frans, Grieks, Hebreeuws, Hindi, Hongaars, Indonesisch, Italiaans, Japans, Kantonees, Koreaans, Kroatisch, Lets, Litouws, Maleis, Mandarijn-Chinees, Nederlands, Noors, Oekraïens, Pools, Portugees, Roemeens, Russisch, Sjanghainees, Slowaaks, Spaans, Thai, Tsjechisch, Turks, Vietnamees en Zweeds
Lid van de industriële adviescommissie voor het SCATE project (2014-2018).

Manager of Speech Input Data: Linguistic Resources bij Cerence AI in Leuven (vanaf 01/10/2019)
Leiding van een team van interne taalkundige ingenieurs, stagiairs en externe consultants.
De taken van het team zijn:
- ontwikkeling van grote uitspraakwoordenboeken voor continue automatische spraakherkenning en morfologische generatie/analyse
- ontwikkeling van grammatica's voor de morfologische analyse van constituenten
- ontwikkeling van tokenisatie- en postprocessinggrammatica's voor automatische spraakherkenning
- ontwikkeling van herkenningsgrammatica's voor spraakherkenning op basis van eindigetoestandstaalmodellen
- ontwikkeling van generatieve grammatica's voor trainingdata for automatische spraakherkenning en semantische analyse
- taalkundige ondersteuning voor ingenieurs
- onderzoek naar verbetering van spraakherkenning op taalafhankelijke basis
- analyse van gebruikersdata
Ondersteuning van 44 talen: Arabisch, Bengaals, Bulgaars, Catalaans, Deens, Duits, Engels, Ests, Fins, Frans, Grieks, Hebreeuws, Hindi, Hongaars, Indonesisch, Italiaans, Japans, Kannada, Kantonees, Koreaans, Kroatisch/Servisch, Lets, Litouws, Maleis, Mandarijn-Chinees, Marathi, Nederlands, Noors, Oekraïens, Pools, Portugees, Roemeens, Russisch, Sjanghainees, Sloveens, Slowaaks, Spaans, Tamil, Teloegoe, Thai, Tsjechisch, Turks, Vietnamees en Zweeds
- Lid van de industriële adviescommissie voor het Erasmus Mundus European Masters Program in Language and Communication Technologies (2020-2023) en het UPSKILLS project (2020-2023). Verder gaf ik lezingen over spraaktechnologie voor de Nationale Bibliotheek van Noorwegen en aan de Université catholique de Louvain.

Studentenjobs: Mentor (opvang eerstejaars), Limburgs Universitair Centrum, Diepenbeek (september-oktober 1993)

Repetitor wiskunde, Repetitorbureau Rebus, Leuven (januari-november 1996)

Medewerker "Guidogids Leuven" (edities 1998 en 1999)

Verwerking interviews faculteit TEW, KU Leuven (juli-augustus 1998)

Tutor wiskunde, statistiek, natuurkunde en wetenschapsfilosofie (2002-2008)

Talen & informatica

Talenkennis: Nederlands (moedertaal), Frans, Engels (C1), Afrikaans, Duits, Spaans (B2), Italiaans (A2), Russisch, Zweeds, Noors, Fries (A1). Verder kan ik alle andere Germaanse en Romaanse talen min of meer lezen.
Klassieke talen: Latijn, Myceens en klassiek Grieks, Oudslavisch, Oudnoords, Oudsaksisch, Gallisch, Oudperzisch, Hettitisch, Oskisch, Oudpruisisch, Messapisch, Tochaars
Programmeer- en scriptingtalen: Perl, Python, Pascal, Fortran, Prolog, Java, Haskell, Basic, Matlab
Mark-uptalen: HTML, XHTML, SGML, XML, LaTex
Besturingssystemen: Windows, Unix, MS-DOS
Versiecontrolesystemen: Perforce, Mercurial, Git, CVS
Andere toepassingen: Outlook, MS Word, MS Excel, PowerPoint, Praat, MS Teams, Twitch