Testu kopuru handiak prozesatzeko big data teknikak

dc.contributor.authorBeloki Leitza, Zuhaitzeus
dc.contributor.authorArtola Zubillaga, Xabiereus
dc.contributor.authorSoroa Etxabe, Aitoreus
dc.date.accessioned2024-11-27T11:49:07Z
dc.date.available2024-11-27T11:49:07Z
dc.description.abstractEskura dauzkagun datu kopuru erraldoiak prozesatzeko, zaharkituta gelditu dira XXI. mendearenhasieran erabiltzen ziren prozesaketa-teknikak eta algoritmoak. Gaur egun sistema banatuak erabiltzendira, prozesaketa makina batean baino gehiagotan eginez.Gauza berbera gertatzen da hizkuntzarenprozesamenduan ere. Corpusak edo testu-bilduma handiak prozesatzeko, makina bat baino gehiagokoinguruneak beharrezkoak bihurtu dira dagoeneko. Lan honetan, testu-dokumentu kopuru handiak ingu-rune banatuetan prozesatzeko teknikak aztertuko ditugu. Horretarako, makina birtualetan oinarritutakosistema bat eraiki dugu, Storm konputazio banatuko frameworka erabiliz.Esperimentu batzuk ereaurkeztu ditugu, eta hainbat ezarpenekin lortutako errendimenduaren hobekuntzak.eus
dc.description.abstractProcessing techniques and algorithms used at the beginning of the 21th century to process massive datasets have become obsolete. Nowadays, distributed systems are used to performing the processing in severalcomputers simultaneously. In the Natural Language Processing field, clusters of several computers arealready necessary to process large quantities of text. In this work we analyze an architecture to performdistributed processing of text.The architecture relies on virtual machines and is based on the Stormdistributed processing framework. We describe some experiments and show the performance gain obtainedin diverse settings.en
dc.identifier.doihttps://dx.doi.org/10.26876/ikergazte.i.81
dc.identifier.otherproduction.37408
dc.identifier.urihttps://gordailua.ueu.eus/handle/123456789/2200
dc.relation.ispartofI. Ikergazte: Nazioarteko ikerketa euskaraz. Kongresuko artikulu-bilduma
dc.subjectBig dataeus
dc.subjecthizkuntzaren prozesamenduaeus
dc.subjectsistema banatuakeus
dc.subjectBig dataen
dc.subjectnatural language processingen
dc.subjectdistributed systemsen
dc.subject.otherHizkuntzalaritzaeus
dc.subject.otherInformatikaeus
dc.titleTestu kopuru handiak prozesatzeko big data teknikakeus
dc.typeintroductionen

Files

Collections