Search Results

Now showing 1 - 5 of 5
  • Item
    Euskarazko denbora-egituren tratamendu automatikorako azterketa
    Altuna Diaz, Begoña
    Hizkuntzaren prozesamenduan (HP) balio handikoa da denbora-informazioa, horrek kokatzen baititutestuko gertaerak kronologian edo horien iraupena adierazten baitu.Erauzitako informazio horigertaerak noiz jazo diren jakiteko baliatu ahal izango da, baita gertaerak denboran zehar ordenatuedo etorkizunean zer gertatuko den aurrikusteko. Horiek lortzeko, ordea, denbora-egiturak eta eurenezaugarriak identifikatu eta tresna informatikoentzat atzigarri egin behar dira eta zeregin horietarakohizkuntza-baliabideak eta konputazio-baliabideak sortu behar dira.
  • Item
    Testu kopuru handiak prozesatzeko big data teknikak
    Beloki Leitza, Zuhaitz; Artola Zubillaga, Xabier; Soroa Etxabe, Aitor
    Eskura dauzkagun datu kopuru erraldoiak prozesatzeko, zaharkituta gelditu dira XXI. mendearenhasieran erabiltzen ziren prozesaketa-teknikak eta algoritmoak. Gaur egun sistema banatuak erabiltzendira, prozesaketa makina batean baino gehiagotan eginez.Gauza berbera gertatzen da hizkuntzarenprozesamenduan ere. Corpusak edo testu-bilduma handiak prozesatzeko, makina bat baino gehiagokoinguruneak beharrezkoak bihurtu dira dagoeneko. Lan honetan, testu-dokumentu kopuru handiak ingu-rune banatuetan prozesatzeko teknikak aztertuko ditugu. Horretarako, makina birtualetan oinarritutakosistema bat eraiki dugu, Storm konputazio banatuko frameworka erabiliz.Esperimentu batzuk ereaurkeztu ditugu, eta hainbat ezarpenekin lortutako errendimenduaren hobekuntzak.
  • Item
    Korreferentzia-ebazpena euskaraz idatzitako testuetan
    Soraluze Irureta, Ander; Arregi Uriarte, Olatz; Arregi Iparragirre, Xabier; Diaz de Ilarraza Sanchez, Arantza
    Artikulu honetan euskarazko korreferentziak ebazteko sistema baten garapena azaltzen da.Leheniketa behin, azterketa linguistiko batean oinarritutako aipamen-detektatzaile automatikoa aurkezten dugu.Sistema hori erregelatan oinarritutakoa da, eta egoera finituko teknologia erabiliz inplementatu da.Behin testuko aipamenak detektatuta, beraien artean gertatzen diren korreferentzia-erlazioak ebaztendituen sistema ere garatu dugu. Horretarako, ingeleserako diseinatu den sistema eraginkor bat oinarritzathartu, eta euskararen ezaugarrietara egokitu da. Egokitze-lan hori deskribatzen da artikuluaren bigarren partean.
  • Item
    Erlazio-erauzketa testu klinikoetan hizkuntzaren prozesamenduaren bidez
    Santana , Sergio; Perez Ramirez, Alicia; Casillas Rubio, Arantza; Oronoz Antxordoki, Maite
    Testu klinikoetan informazio aberatsa dago, besteak beste, medikuntzako entitate izendunak ditugu (botika-izenak,gaixotasun-izenak, etab.) eta hauen arteko erlazioak. Informazio hori erauzteko, ikasketa sakoneko algoritmoakhartu ditugu oinarri eta antzeko patroiak, ez derrigor berdinak, topatzeko gai den sistema bat eraiki dugu. Sistemakbi entitate (adb. botika bat eta gaixotasun bat) erlazionatuta dauden ala ez detektatu eta erlazio mota (adb. kausa)esleitu behar du. Horretarako, Joint AB-LSTM deritzon algoritmoaren ahuleziak aztertu eta desoreka estatistikoariaurre egiteko bi modu proposatu ditugu. Hurbilpena nazioarte mailan ezaguna den ingelesez idatzitako BioNLP2011 datu-sortan ebaluatu dugu.
  • Item
    Ideiagintza suizidaren identifikazioa sare sozialetan
    Gracia Urzelai, Sara; Oronoz Antxordoki, Maite; Perez Ramirez, Alicia
    Suizidioa gizartearen kezka nagusietako bat bilakatu da azken urteetan. Gainera, sare sozialak gure eguneroko-tasunaren parte bilakatu dira, eta emozioak adierazteko erabiltzen dira askotan. Lan honetan sailkapen bitarraburutu da Reddit sare sozialeko mezu baten edukia suizidioarekin erlazionatua dagoen ala ez erabakitzeko.Alde batetik, artearen egoerako sistema gainbegiratuei dagokienean, ELECTRA transformerrarekin lortu daasmatze-tasarik altuena, %97,9koa. Bestalde, ondorioztatu da LDA topiko-ereduak sortutako errepresentazioakbaliagarriak izan daitezkeela ataza honetan, eta hau frogatzeko oinarri-lerroa den sailkatzailea proposatu da,%83,3ko asmatze-portzentaia izan duena 5 topiko erabiliz.