Sentimenduen analisi automatikorantz: oinarrizko baliabideen sorkuntza eta hizkuntza maila ezberdinetako balentzia-aldatzaileen identifikazioa
26 bisita jaso dira
Autoretza:
Jon Alkorta Agirrezabala
Zuzendaria:
Igone Zabala Unzalu, Koldobika Gojenola Galletebeitia, Mikel Iruskieta Quintian
Unibertsitatea:
Euskal Herriko Unibertsitatea
Fakultatea:
Hezkuntza eta Kirol Fakultatea
Saila:
Hizkuntza eta Literaturaren Didaktika
Jakintza-arloa:
Hizkuntzalaritza
Urtea:
2019
|Tesi-lan honetan, hizkuntzalaritza aplikatuaren ikuspegitik, euskarazko sentimendu analisian lehen urratsak egin dira. Bi helburu nagusi egon dira tesi-proiektuan. Alde batetik, sentimendu analisia egiteko oinarrizko baliabideak sortu ditugu euskararentzat. Zehatz esanda, Euskarazko Iritzi Corpusa, Sentitegi izeneko euskarazko sentimendu lexikoia eta dokumentu-mailako sentimendu sailkatzailea garatu ditugu. Corpusak sei domeinuetako 240 iritzi-testu biltzen ditu. RST hurbilpenaz baliatuta, corpusekodiskurtso-informazioa etiketatuta dago. Gainera, iritzi-testuen orientazio semantikoa ere etiketatuta dago. Sentimendu lexikoiari dagokionez, 1.237 hitzez osatuta dago eta bertako sarrerek -5 eta +5 artekosentimendu balentzia dute. Sentimendu lexikoia sortzeko itzulpen metodologia zehatz bat jarraitu dugu. Azkenik, dokumentu mailako sentimendu sailkatzailea ere garatu dugu. Tresnaren oinarrian aurretikaipatu dugu sentimendu lexikoia dago eta, horretaz gain, baditu beste zenbait erregela ere. Beste aldetik, sentimendu analisiaren lanketa teoriko bat ere egin dugu. Sentimendu sailkapena lexikoianoinarrituz egin nahi bada, hitzen sentimendu balentzia jakitearekin ez da nahikoa, izan ere, testuetanbadaude zenbait fenomeno hitz horien sentimendu balentzia eragiten dutenak. Horiei testuinguruzko balentzia aldatzaileak deitzen zaie eta horiek euskaran nola agertzen diren landu dugu. Gramatika maila bakoitzeko balentzia aldatzaile mota bat landu dugu: fonologian, bustidura adierazkorra; morfologian,morfemak; sintaxian, ezeztapen-markak eta, azkenik, diskurtsoan, diskurtso erlazioak eta unitate zentrala. Emaitzek erakusten dutenez, balentzia aldatzaileek hitzen edo sintagmen sentimendu balentzia indartuedo ahuldu egiten dute. Ahultze horren intentsitatearen arabera, sentimendu balentziaren zeinuan aldaketagerta liteke, positiboa dena negatibo bilakatuz edo alderantziz. Azkenik, kasu batzuetan, balentzia aldatzaileak ez du eraginik sortzen.In the research work, we have taken the first steps on sentiment analysisfrom point of view of applied linguistics. The work developed consists of twoaspects. On the one hand, based on the contextual valence shifter approachto sentiment analysis, we have identified valence shifters of different languagelevels in Basque, from phonology to discourse through morphology and syn-tax. Moreover, we have measured their effect on the sentiment valence ofdifferent linguistic elements. The second aspect of this work focuses on the creation and developmentof tools and resources for sentiment analysis in Basque. Firstly, a corpuswith 240 opinion texts has been built and it has been annotated: from thepoint of view of semantic orientation and discourse information. Secondly, asentiment lexicon with 1,237 entries has been created. Finally, a documentlevel and lexicon based sentiment classifier has been created based on theSO-CAL tool.