Euskarazko izena+aditza konbinazioak corpusetik automatikoki erauztea eta idiomatikotasunaren arabera karakterizatzea

No Thumbnail Available

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Euskarazko izena+aditza egiturako unitate fraseologikoak (UFak) corpusetik automatikoki erauzi etaidiomatikotasun-mailaren arabera karakterizatzeko lan esperimentala egin dugu. Corpusetik hautagaiakerauzteko sistema landu ondoren, idiomatikotasunaren lau ezaugarri edo propietateetako bakoitzaneurtzeko teknikak garatu eta ebaluatu ditugu, hiru adituk eskuz sailkatutako erreferentzia erabiliz.Hiru kategoria bereizi dira: esapide idiomatikoa, kolokazioa eta konbinazio librea. Azkenik, ezaugarribakunen neurketak ikasketa automatikoko sailkatze-ataza batean konbinatu dira.Ondorio nagusiada arlo honetan estandar diren agerkidetza-tekniken emaitzak modu esanguratsuan gainditu direla,batez ere teknika semantikoen bidez, baina baita malgutasun morfosintaktikoaren neurketaren bidez ere.
We present an experimental study on the automatic extraction of phraseological units of noun+verbstructure in Basque, and their characterization according to the idiomaticity level. After automaticallyextracting candidates from corpora, we develop several techniques for quantifying the four basic propertiesof idiomaticity, using for evaluation a gold standard of candidates classified by three experts. We usethree categories: idioms, collocations and free combinations. Finally, the results of those experimentshave been combined using Machine Learning for classification.The results show that the standardcooccurence techniques are significantly ourtperformed by semantic measures, and, to a lower extent, bymeasures of morphosyntactic flexibility.

Description

Keywords

fraseologia konputazionala, idiomatikotasuna, esapide idiomatikoak, kolokazioak, computational phraseology, idiomaticity, idioms, collocations

Citation

Collections