Koldo Gojenola Galletebeitia eta Nerea Ezeiza Ramos
Unibertsitatea:
Euskal Herriko Unibertsitatea
Fakultatea:
Informatika Fakultatea
Saila:
Lengoaia eta Sistema Informatikoak
Jakintza-arloa:
Informatika
Urtea:
2017
|Hizkuntzaren Prozesamenduan sintaxiak berebiziko garrantzia du. Hainbat atazatan erabiltzen da sintaxitik eratorritako informazioa, esaterako itzulpen automatikoan, rol semantikoen etiketatzean eta sentimenduen analisian. Tesi-lan honetan sintaxi konputazionala landu da, zehazki dependentzietan oinarritutako sintaxia jorratu da analizatzaile automatikoen bidez. Dependentzien analisi sintaktiko automatikoa hobetzeko bide desberdinak aztertu dira: izaera desberdinetako analizatzaileen hibridazioa, ezaugarrien ingeniaritzako tekniken erabilpena, multzokatze mota desberdinen esperimentazioa eta automatikoki analizatutako zuhaitz-bankuetatik eratorritako ezaugarrien erabilpena.
Bide horiek guztiak jorratzearen arrazoi nagusia morfologikoki aberatsak diren hizkuntzen dependentzien analisia hobetzen lagundu dezaketen era desberdinak aztertzea da. Hori dela eta, egindako esperimentu gehienak bost hizkuntza desberdinetan probatu dira (euskara, frantsesa, alemana, hungariera eta suediera), eta hizkuntza horietan guztietan probatu ezin izan diren bideak euskararekin probatu dira, euskararen dependentzien analisia baita bereziki hobetu nahi dena.
Tesi-lan honen beste atal garrantzitsua euskararako baliabideak sortzea da, sintaxiari hertsiki lotutako baliabideak hain zuzen ere. Tesiak iraun dituen urteetan baliabide desberdinak sortu dira, baina bi dira nabarmentzeko modukoak. Alde batetik, 150 milioi hitzeko zuhaitz-bankua etiketatu da sintaktikoki era automatikoan; beste aldetik, euskarazko jatorrizko zuhaitz-bankua nazioarteko Dependentzia Unibertsalak proiektuan proposatzen den formatura bihurtu da. Lehenengo corpusa tesi-lan honetan erabili da automatikoki analizatutako zuhaitz-bankuetatik eratorritako ezaugarriak sortzeko, eta bigarrena edozeinek erabil dezake, publikoki atzigarri baitago.In Language Processing syntax is of enormous importance. Information derived from syntax is used for a number of tasks, for example, in machine translation, semantic role labelling and in the analysis of feelings.The subject of this thesis is computational syntax, i.e., machine analysers are used to study syntactic dependencies. A number of methods for improving machine analysis of syntactic dependencies are examined, including the hybridisation of analysers of varying nature, the use of feature engineering techniques, experimenting with different kinds of clustering and the use of features derived from machine-analysed treebanks.
The main reason for working on all of the aforementioned methods is to examine different approaches that may help to improve the analysis of dependencies in morphologically-rich languages. As such, most of the experiments were carried out in five different languages (Basque, French, German, Hungarian and Swedish), and the approaches that could not be tried out in all those languages were tried out in Basque, as the aim is to improve the analysis of dependencies in Basque in particular.
One of this thesis’ key goals is to generate resources for the Basque language, specifically resources closely related to syntax. A number of resources have been generated during the time it has taken to complete the thesis, but two of them are particularly notable. Firstly, a 150-million-word treebank has been syntactically labelled by machine; secondly, the original Basque treebank has been converted to the format proposed in the international Universal Dependencies project. The first corpus is used in this thesis to extract features derived from machine-analysed treebanks. The second corpus may be used by anyone, as it is accessible to the public.