Técnicas de Recuperación de Información en Grandes Volúmenes de Datos Heterogéneos con Bases de Datos NOS !
Damián P. Barry1, Carlos E. Buckle1, Renato Mazanti1, Gustavo Samec1, Cristian Pacheco1, Ro ri!o "aramillo1, #!nacio Real1, #!nacio $ita1, "uan Manuel Cortez1, %ernan o G. &inetti'
1
De(to. e #n)ormática, %ac. e #n!enier*a, +niversi a ,acional e la Pata!onia San "uan Bosco. Puerto Ma ryn, $r!entina -./ '012//3'00. 4 #nt. 113. amian56arry7un(ata.e u.ar, c6uckle7un(ata.e u.ar, renato7cen(at.e u.ar, !samec7cen(at.e u.ar, cristian7cristian2(acheco.com.ar
'###28#D#, '#nvesti!a
%aculta e #n)ormática 2 +niversi a ,acional e 8a Plata or Comisi9n e #nvesti!aciones Cient*)icas e la Prov. e Bs. $s. 8a Plata, $r!entina
Resumen
El (resente (royecto se en)oca en la evaluaci9n e las t:cnicas e;istentes (ara recu(eraci9n e)iciente e in)ormaci9n so6re !ran es vol<menes e atos hetero!:neos. Dichas t:cnicas (ermitirán esta6lecer las ca(aci a es necesarias con las =ue e6er*a contar una 6ase e atos e in)ormaci9n masiva, tanto es e la (ers(ectiva e almacenamiento y t:cnicas e in e;aci9n, como e istri6uci9n e las consultas, escala6ili a y ren imiento en am6ientes hetero!:neos. Para ello se ise>arán ar=uitecturas tanto centraliza as como istri6ui as, y se realizarán las corres(on ientes veri)icaciones, esta6lecien o los (orcenta?es e me?ora e ren imiento (ara ca a ar=uitectura. Pala6ras Clave@ Recu(eraci9n e #n)ormaci9n, Bases e Datos ,oSA8, #n e;aci9n, Particiona o horizontal, Shar s, Escala6ili a , Ren imiento.
es necesario mane?ar e)icientemente. Princi(almente (or las si!uientes razones@ • 8a (o(ulari a e los sistemas e !esti9n e conteni os DCMS, Content Mana!ement SystemsE como (ortales en !eneral y como (lata)ormas e cola6oraci9n en (articular. • 8a llama a Ge6 '.1 ha e)ini o un con?unto e a(licaciones =ue )acilitan la interacci9n con !ran volumen e conteni o multime ia. • Crecimiento en la (ro ucci9n e in)ormaci9n entro e las or!anizaciones ya sea (or (ro ucci9n e los sistemas o (or la i!italizaci9n e in)ormaci9n e;istente. En suma, se ha (asan o e ha6lar e !i!a6yte e in)ormaci9n a ha6lar con total normali a el or en e los (eta6ytes H1IJ H1/J H1.J. Esta situaci9n ha !enera o el esa)*o e me?orar las herramientas e 6<s=ue a en lo =ue se enomina Bin)ormation retrievalC utilizan o (ara ello iversas t:cnicas. $socia o a este (ro6lema, se suma la necesi a e escala6ili a , is(oni6ili a y esem(e>o en el mane?o e !ran es vol<menes e in)ormaci9n, situaci9n =ue re=uiere e t:cnicas e sistemas istri6ui os. $l!unas e las t:cnicas incluyen@ 6alanceo e car!a, re(licaci9n y istri6uci9n horizontal Dshar in!E e la in)ormaci9n H1J H.J. $ mo o e e?em(lo, (o emos mencionar soluciones similares como la a o(ta a (or la Casa Blanca =ue ha utiliza o la com6inaci9n e Dru(al y $(ache Solr en el (ortal e conteni os ocumentales H1IJ H1/J. En !eneral, cual=uier soluci9n a este (ro6lema e6e incluir estrate!ias e 6<s=ue a, ahorro e es(acio, escala6ili a , is(oni6ili a y esem(e>o. El in e;a o trans)orma los atos es e su )orma ori!inal en una estructura =ue )acilita la 6<s=ue a y recu(eraci9n e los mismos en )orma rá(i a y (recisa H1J H'J. El (roceso e in e;a o !eneralmente re=uiere
"onte#to
Esta (resentaci9n corres(on e al (royecto e investi!aci9n B&:cnicas e recu(eraci9n e in)ormaci9n en !ran es vol<menes e atos hetero!:neos con 6ases e atos ,o2S=lC esarrolla o (or ocentes y alumnos e la %aculta e #n!enier*a e la +niversi a ,acional e 8a Pata!onia San "uan Bosco D+,PS"BE Se e Puerto Ma ryn. El (royecto es )inancia o (or la Secretar*a e Ciencia y &:cnica e icha +niversi a y se vincula con el ###28#D# %aculta e #n)ormática e la +niversi a ,acional e 8a Plata a trav:s el irector =uien se esem(e>a como investi!a or en icho la6oratorio.
Introducción
En la actuali a e;iste !ran canti a e sitios Fe6 =ue (rocesan !ran es vol<menes e in)ormaci9n, la cual
2012
XIV Workshop de Investigadores en Ciencias de la Computación
WICC 2012
723
un análisis y (rocesamiento e los ocumentos a incluir en el *n ice@ lematizaci9n, tokenizaci9n, análisis )on:tico, etc. Estos (asos intro ucen (ro6lemas y esa)*os im(ortantes al momento e (rocesar H3J H11J H11J H1'J. 8a 6<s=ue a secuencial e cual=uier ti(o e in)ormaci9n (resenta varios (ro6lemas, sien o el (rinci(al la )alta e escala6ili a . +na soluci9n a este inconveniente es el uso e estructuras e atos =ue (ermitan ser rá(i amente consulta as. #n a!an o las istintas alternativas (ara solucionar la istri6uci9n e los *n ices y e las 6<s=ue as en un am6iente hetero!:neo y escala6le se e)inieron un con?unto e (ro(ie a es esea6les =ue e6iera cum(lir una soluci9n H1J H'J HIJ H1KJ@ Ren imiento, &olerancia a %allas y E?ecuci9n en am6ientes hetero!:neos. Por otra (arte, las soluciones ,oSA8 (ara a ministrar !ran es vol<menes e in)ormaci9n se 6asan normalmente en la con)ormaci9n e un sistema e no os hetero!:neos. E;isten iversas t:cnicas =ue (ermiten con)i!urar am6ientes hetero!:neos yLo mi;tos. $l!unas e las t:cnicas utiliza as (or estas 6ases e atos son@ aE Particionamiento horizontal me iante Bshar sC. Se utiliza un (roceso e in e;a o trans)orman o los atos es e su )orma ori!inal en una estructura =ue )acilita la 6<s=ue a y recu(eraci9n e los mismos en )orma rá(i a y (recisa, (or e?em(lo un *n ice inverti o H.J, un *n ice e citas, una matriz o un ár6ol. Estas t:cnicas )acilitan la im(lementaci9n y escala6ili a en am6ientes hetero!:neos me iante el uso el conce(to e 6ase e atos e (artici9n horizonal o shar in! H1J H'J H13J H10J. 6E Share ,othin! Se!<n Michael Stone6raker@ BConsiste en una ar=uitectura istri6ui a en el =ue ca a no o es in e(en iente y autosu)iciente, y tiene un <nico (unto e contenci9n en to o el sistemaC. El conce(to e Share ,othin! (arte e la in e(en encia e los no os, me iante la istri6uci9n e la in)ormaci9n y e las acciones so6re ichos no os. Se (o r*a ecir =ue un Shra es un no o Share ,othin! on e se a ministra un con?unto e ocumentos in e;a os se!<n al!<n criterio y en on e se los (ue e someter a mecanismos e 6<s=ue a e in)ormaci9n y e ?erar=uizaci9n y or enamiento e la in)ormaci9n recu(era a e(en ien o e necesi a es (articulares e in)ormaci9n. Por e?em(lo se (o r*an realizar istri6uciones@ !eo!rá)icas, temáticas, ontol9!icas, se!mentaci9n se!<n (re)erencias, etc. o inclusive com6inaciones e ellas. En to os los casos se (ue e com6inar con t:cnicas e 6ases e atos tra icionales, como la re(licaci9n y la (aralelizaci9n me iante es=uemas e Share Disk Dcluster tra icional, como (or e?em(lo la
im(lementaci9n e un 6la e con una Stora!e $rea ,etForkE H1J H'J H1MJ. cE Re(licaci9n con 6alanceo e car!a 8a ar=uitectura e6e !arantizar un con?unto e no os con la in)ormaci9n re(lica a y consistente en to os los no os. En este caso el motor e 6<s=ue a cuenta con un (oolin! e no os e atos en los cuales 6uscar la in)ormaci9n. 8a ar=uitectura misma no (araleliza las 6<s=ue as, sim(lemente istri6uye la car!a entre los no os. Como los no os son in e(en ientes y auto2su)icientes son ca(aces e res(on er consistentemente a la consulta realiza a ya =ue la res(onsa6ili a e recu(eraci9n está en el no o e atos y la res(onsa6ili a e istri6uci9n e car!a en el 6alancea or. 8a esventa?a e este m:to o es =ue ni resuelve el (ro6lema es(acial e la in)ormaci9n ni (araleliza la 6<s=ue aHIJ. E Scatter an Gather El m:to o realiza un 6roa cast e la 6<s=ue a e in)ormaci9n re=ueri a en sus no os conoci os, realizan o una is(ersi9n e la misma. Ca a no o Din e(en iente e los emásE tiene la ca(aci a e ela6orar una res(uesta con la in)ormaci9n =ue contiene icho no o. &o as las res(uestas se concentran en el no o =ue realiz9 la is(ersi9n y :ste es res(onsa6le e consoli ar las mismas en una <nica Dy consistenteE res(uesta a a la (etici9n. +na venta?a a icional el m:to o es =ue a su vez los no os e atos (ue en ser is(ersores en nuevos no os Dconoci os (or :lE. Con)orman o e esta )orma una re e no os in e(en ientes =ue contienen in)ormaci9n. 8as venta?as en este caso son el (articionamiento e la in)ormaci9n y la (aralelizaci9n e las 6<s=ue as. 8a esventa?a es una so6recar!a en la istri6uci9n e la in)ormaci9n, es(ecialmente si se esea realizar con al!una l9!ica e se!mentaci9n en (articular@ Geo!rá)ica, ti(o e conteni o, atri6utos ontol9!icos, etc. En este <ltimo caso se re=uiere conocimiento e in)ormaci9n so6re los conteni os D atosE a ser almacena os, sien o en al!unos casos relativamente com(le?a su resoluci9n, es(ecialmente ante la a(licaci9n e re!las ontol9!icas so6re los conteni os H'J HIJ H3J. Para este caso es interesante (o er a(licar la t:cnica e Ma( L Re uce =ue es una 6uena t:cnica (ara (rocesar !ran volumen e atos en (aralelo. El mo elo (rovee un mecanismo e (articionamiento e in)ormaci9n =ue (ermite istri6uir Binteli!entementeC e acuer o a re!las (re2 e)ini as los atos en istintos no os auto2conteni os. Ma( Lre uce es una t:cnica =ue im(lica (aralelizar los atos =ue es istinto a (aralelizar las tareas. N6viamente la (aralelizaci9n e los atos (ermite (aralelizar el (rocesamiento en las 6<s=ue as, (ero la clave e la t:cnica se 6asa en la inteli!encia e se(araci9n e los atos. $ su vez una venta?a a icional ra ica en el ahorro e es(acio en el resulta o e las
2012
XIV Workshop de Investigadores en Ciencias de la Computación
WICC 2012
724
claves com(arti as al re ucirlas ocumentoH0J HMJ H13J H10J.
entro
e
un
!$neas de In%estigación & Desarrollo
8as (rinci(ales l*neas e investi!aci9n se (o r*an resumir en la lista si!uiente@ • #nvesti!ar t:cnicas e (articionamiento, re(licaci9n y istri6uci9n e in)ormaci9n tanto en las enomina as Bases e Datos relacionales DRDBMSE como en las enomina as ,oS=l.
• #nvesti!ar y seleccionar uno o varios m:to os e (articionamiento y re(licaci9n so6re Bases e Datos ,oS=l. D(osi6les@ OD%S Re(lication, Master Master, Master Slave, etc.E • De)inir m:tricas =ue (ermitan o6tener conclusiones relevantes res(ectos a las t:cnicas y m:to os im(lementa os.
• De)inir y esarrollar uno o varios m:to os e (rue6as e stress sistematiza as (ara someter a com(araci9n las istintas Bases e Datos ,oS=l Selecciona as. • $rmar un 6anco e (rue6as =ue (ermita com(ro6ar las istintas im(lementaciones y m:to os utiliza os en las Bases e Datos ,oS=l selecciona as. • Dise>ar istintas ar=uitecturas e (articionamiento y escalamiento en )unci9n e los resulta os o6teni os y com(ararlas con los mismos m:to os e)ini os.
• #nvesti!ar las Bases e Datos no estructura as D,oS=lE actuales y c9omo im(lementan la a ministraci9n e sus recursos, es(ecialmente en lo =ue res(ecta al (articionamiento, almacenamiento, istri6uci9n y recu(eraci9n e in)ormaci9n. • Determinar la )acti6ili a y a(lica6ili a e los m:to os te9ricos en los entornos (rácticos estu ia os, es(ecialmente en lo re)eri o a la istri6uci9n e in)ormaci9n e in)ormation retrieval. • Realizar una com(araci9n entre las istintas Bases e atos ,oS=l es(ec*)icamente en lo re)eri o al (articionamiento, istri6uci9n, escala6ili a , is(oni6ili a y (er)ormance. • Pro(oner me?oras o nuevas t:cnicas yLo re2 )ormulaciones a las t:cnicas e;istentes (ara el mane?o e recursos, en lo =ue se re)iere a las t:cnicas e istri6uci9n y recu(eraci9n. • #m(lementar y vali ar las t:cnicas y m:to os (ro(uestos so6re (lata)ormas e esarrollo concretas.
)ormación de Recursos Humanos
En lo re)eri o a %ormaci9n e Recursos Oumanos este (royecto (ro(one las si!uientes metas@ • Consoli ar me iante el (royecto, un !ru(o e investi!aci9n e la +niversi a ,acional e la Pata!onia San "uan Bosco se e Puerto Ma ryn, so6re la isci(lina Bases e Datos ,oS=l. Este !ru(o se inte!ra actualmente e / (ro)esores, 1 "&P y 1 $u;iliar, a emás (artici(an el mismo / alumnos el ciclo su(erior =ue realizarán sus tra6a?os e tesina e !ra o enmarca os en el (royecto. 8os miem6ros, los cuales se encuentran a6oca os a la investi!aci9n a )in e crear nuevos m:to os, esarrollos y tra6a?os e (u6licaci9n cient*)ica (ara revistas, con!resos e or en nacional e internacional. • %omentar, incentivar y investi!aci9n. i)un ir las tareas e
Resultados & O'(eti%os
8os resulta os y o6?etivos e este (royecto investi!aci9n se (ue en enumerar como si!ue@ e
• Seleccionar material 6i6lio!rá)ico y !enerar una 6ase e conocimiento so6re las t:cnicas y m:to os em(lea os en los es=uemas e (articionamiento, re(licaci9n, istri6uci9n e in e;a o e los Sistemas e Bases e Datos ,oS=l. • #nvesti!ar y seleccionar una o varias e las Bases e Datos ,oS=l con c9 i!o a6ierto. D(osi6les@ Oa oo(LO6ase, Cassan ra, CouchDB, 8uceneLSolr, etc.E • #nvesti!ar y seleccionar uno o varios m:to os y len!ua?es e consultas so6re Bases e Datos ,oS=l. D(osi6les@ Ma(Re uce, OA8, S(arA8, GA8, etc.E
• Me?orar la )ormaci9n e recursos humanos altamente cali)ica os, con ca(aci a es e investi!aci9n y esarrollo. 8o!rar la cate!orizaci9n e los ocentes (artici(antes y la ?erar=uizaci9n el e(artamento e in)ormática y e la universi a en to os sus niveles. • Contri6uir a la creaci9n en un )uturo Centro o #nstituto en investi!aci9n in)ormática. • #nteractuar con otros !ru(os e investi!aci9n e las se es e la universi a y e otras universi a es, en tareas con?untas e investi!aci9n y esarrollo, como tam6i:n en la )ormaci9n e recursos humanos.
2012
XIV Workshop de Investigadores en Ciencias de la Computación
WICC 2012
725
• #ncrementar el n<mero e (royectos acre ita os y e tra6a?os (u6lica os (or la universi a y la se e.
H11J Davi Smiley Q Eric Pu!h. BSolr 1./ Enter(rise Search ServerC. Packt Pu6lishin!, '11M. H1'J Erik Oatcher, Ntis Gos(o netiV. B8ucene in $ctionC, 'n . e , Mannin! Pu6lications Co. '11/. H1IJ GhiteOouse.!ov Goes Dru(al, htt(@LL(ersonal emocracy.comLno eL1.1I1 H1/J &hou!hts on the Ghitehouse.!ov sFitch to Dru(al, htt(@LLra ar.oreilly.comL'11ML11LFhitehouse2sFitch2 ru(al2o(ensource.html H1.J Cal Oen erson@ BBuil in! Scala6le Ge6 SitesC, NUReilly Me ia, '11K H1KJ Ricky Oo@ Scala6le System Desi!n Patterns, Pra!matic Pro!rammin! &echni=ues. htt(@LLhoricky.6lo!s(ot.comL'111L11Lscala6le2system2 esi!n2(atterns.html H13J $zza $6ouzei , Tamil Ba? aPaFlikoFski, Daniel $6a i1, $vi Sil6erschatz, $le;an er Rasin@ Oa oo(DB@ $n $rchitectural Oy6ri o) Ma(Re uce an DBMS &echnolo!ies )or $nalytical Gorkloa s. H10J "e))rey Dean an San?ay GhemaFat@ Ma(Re uce@ Sim(lie Data Processin! on 8ar!e Clusters. Goo!le #nc. H1MJ Michael Stone6raker@ &he Case )or Share ,othin!. +niversity o) Cali)ornia, Berkeley, Ca.
Referencias
H1J M.&. Pzsu Q P. Ral uriez. BPrinci(les o) Distri6ute Data6ase Systems, 'n e itionC. Prentice2 Oall, 1MMM. Sitio Fe6@ htt(@LLso)t6ase.uFaterloo.caLStozsuL 6ookLnotes.html H'J Davi &aniar Q Clement O. C. 8eun! Q Genny Rahayu Q Sushant Goel. BOi!h Per)ormance Parallel Data6ase Processin! an Gri Data6asesC. "ohn Giley Q Sons, '110. HIJ P. Ral uriez. BData Mana!ement an Parallel Proessin!C. Cha(man an Oall, 1MM'. H/J M.Cohn, BSuccee in! Fith $!ile@ So)tFare Develo(ment +sin! ScrumC, Pearson E ucation, '111. H.J $hme T. Elma!armi Q Marek RusinkieFicz Q $mit Sheth. BMana!ement o) Oetero!eneous an $utonomous Data6ase SystemsC. Mor!an Tau)mann Pu6lishers, 1MMM. HKJ Tristina Cho oroF Q Michael Dirol). BMon!oDB@ &he De)initive Gui eC. NUReilly, '111. H3J Satnam $la!. BCollective #ntelli!ence in $ctionC. Mannin! Pu6lication, '11M. H0J "ason Renner. BPro Oa oo(C. $(ress, '11M. HMJ &om Ghite. BOa oo(@ &he De)initive Gui eC, NUReilly, '111. H11J Michael McCan less Q Erik Oatcher. B8ucene in $ction, Secon E ition@ Covers $(ache 8ucene I.1C. Mannin! Pu6lication, '111.
2012
XIV Workshop de Investigadores en Ciencias de la Computación