NOSQL

Published on February 2017 | Categories: Documents | Downloads: 48 | Comments: 0 | Views: 342
of 4
Download PDF   Embed   Report

Comments

Content

WICC 2012

722

Técnicas de Recuperación de Información en Grandes Volúmenes de Datos Heterogéneos con Bases de Datos NOS !
Damián P. Barry1, Carlos E. Buckle1, Renato Mazanti1, Gustavo Samec1, Cristian Pacheco1, Ro ri!o "aramillo1, #!nacio Real1, #!nacio $ita1, "uan Manuel Cortez1, %ernan o G. &inetti'
1

De(to. e #n)ormática, %ac. e #n!enier*a, +niversi a ,acional e la Pata!onia San "uan Bosco. Puerto Ma ryn, $r!entina -./ '012//3'00. 4 #nt. 113. amian56arry7un(ata.e u.ar, c6uckle7un(ata.e u.ar, renato7cen(at.e u.ar, !samec7cen(at.e u.ar, cristian7cristian2(acheco.com.ar
'###28#D#, '#nvesti!a

%aculta e #n)ormática 2 +niversi a ,acional e 8a Plata or Comisi9n e #nvesti!aciones Cient*)icas e la Prov. e Bs. $s. 8a Plata, $r!entina

Resumen
El (resente (royecto se en)oca en la evaluaci9n e las t:cnicas e;istentes (ara recu(eraci9n e)iciente e in)ormaci9n so6re !ran es vol<menes e atos hetero!:neos. Dichas t:cnicas (ermitirán esta6lecer las ca(aci a es necesarias con las =ue e6er*a contar una 6ase e atos e in)ormaci9n masiva, tanto es e la (ers(ectiva e almacenamiento y t:cnicas e in e;aci9n, como e istri6uci9n e las consultas, escala6ili a y ren imiento en am6ientes hetero!:neos. Para ello se ise>arán ar=uitecturas tanto centraliza as como istri6ui as, y se realizarán las corres(on ientes veri)icaciones, esta6lecien o los (orcenta?es e me?ora e ren imiento (ara ca a ar=uitectura. Pala6ras Clave@ Recu(eraci9n e #n)ormaci9n, Bases e Datos ,oSA8, #n e;aci9n, Particiona o horizontal, Shar s, Escala6ili a , Ren imiento.

es necesario mane?ar e)icientemente. Princi(almente (or las si!uientes razones@ • 8a (o(ulari a e los sistemas e !esti9n e conteni os DCMS, Content Mana!ement SystemsE como (ortales en !eneral y como (lata)ormas e cola6oraci9n en (articular. • 8a llama a Ge6 '.1 ha e)ini o un con?unto e a(licaciones =ue )acilitan la interacci9n con !ran volumen e conteni o multime ia. • Crecimiento en la (ro ucci9n e in)ormaci9n entro e las or!anizaciones ya sea (or (ro ucci9n e los sistemas o (or la i!italizaci9n e in)ormaci9n e;istente. En suma, se ha (asan o e ha6lar e !i!a6yte e in)ormaci9n a ha6lar con total normali a el or en e los (eta6ytes H1IJ H1/J H1.J. Esta situaci9n ha !enera o el esa)*o e me?orar las herramientas e 6<s=ue a en lo =ue se enomina Bin)ormation retrievalC utilizan o (ara ello iversas t:cnicas. $socia o a este (ro6lema, se suma la necesi a e escala6ili a , is(oni6ili a y esem(e>o en el mane?o e !ran es vol<menes e in)ormaci9n, situaci9n =ue re=uiere e t:cnicas e sistemas istri6ui os. $l!unas e las t:cnicas incluyen@ 6alanceo e car!a, re(licaci9n y istri6uci9n horizontal Dshar in!E e la in)ormaci9n H1J H.J. $ mo o e e?em(lo, (o emos mencionar soluciones similares como la a o(ta a (or la Casa Blanca =ue ha utiliza o la com6inaci9n e Dru(al y $(ache Solr en el (ortal e conteni os ocumentales H1IJ H1/J. En !eneral, cual=uier soluci9n a este (ro6lema e6e incluir estrate!ias e 6<s=ue a, ahorro e es(acio, escala6ili a , is(oni6ili a y esem(e>o. El in e;a o trans)orma los atos es e su )orma ori!inal en una estructura =ue )acilita la 6<s=ue a y recu(eraci9n e los mismos en )orma rá(i a y (recisa H1J H'J. El (roceso e in e;a o !eneralmente re=uiere

"onte#to
Esta (resentaci9n corres(on e al (royecto e investi!aci9n B&:cnicas e recu(eraci9n e in)ormaci9n en !ran es vol<menes e atos hetero!:neos con 6ases e atos ,o2S=lC esarrolla o (or ocentes y alumnos e la %aculta e #n!enier*a e la +niversi a ,acional e 8a Pata!onia San "uan Bosco D+,PS"BE Se e Puerto Ma ryn. El (royecto es )inancia o (or la Secretar*a e Ciencia y &:cnica e icha +niversi a y se vincula con el ###28#D# %aculta e #n)ormática e la +niversi a ,acional e 8a Plata a trav:s el irector =uien se esem(e>a como investi!a or en icho la6oratorio.

Introducción
En la actuali a e;iste !ran canti a e sitios Fe6 =ue (rocesan !ran es vol<menes e in)ormaci9n, la cual

2012

XIV Workshop de Investigadores en Ciencias de la Computación

WICC 2012

723

un análisis y (rocesamiento e los ocumentos a incluir en el *n ice@ lematizaci9n, tokenizaci9n, análisis )on:tico, etc. Estos (asos intro ucen (ro6lemas y esa)*os im(ortantes al momento e (rocesar H3J H11J H11J H1'J. 8a 6<s=ue a secuencial e cual=uier ti(o e in)ormaci9n (resenta varios (ro6lemas, sien o el (rinci(al la )alta e escala6ili a . +na soluci9n a este inconveniente es el uso e estructuras e atos =ue (ermitan ser rá(i amente consulta as. #n a!an o las istintas alternativas (ara solucionar la istri6uci9n e los *n ices y e las 6<s=ue as en un am6iente hetero!:neo y escala6le se e)inieron un con?unto e (ro(ie a es esea6les =ue e6iera cum(lir una soluci9n H1J H'J HIJ H1KJ@ Ren imiento, &olerancia a %allas y E?ecuci9n en am6ientes hetero!:neos. Por otra (arte, las soluciones ,oSA8 (ara a ministrar !ran es vol<menes e in)ormaci9n se 6asan normalmente en la con)ormaci9n e un sistema e no os hetero!:neos. E;isten iversas t:cnicas =ue (ermiten con)i!urar am6ientes hetero!:neos yLo mi;tos. $l!unas e las t:cnicas utiliza as (or estas 6ases e atos son@ aE Particionamiento horizontal me iante Bshar sC. Se utiliza un (roceso e in e;a o trans)orman o los atos es e su )orma ori!inal en una estructura =ue )acilita la 6<s=ue a y recu(eraci9n e los mismos en )orma rá(i a y (recisa, (or e?em(lo un *n ice inverti o H.J, un *n ice e citas, una matriz o un ár6ol. Estas t:cnicas )acilitan la im(lementaci9n y escala6ili a en am6ientes hetero!:neos me iante el uso el conce(to e 6ase e atos e (artici9n horizonal o shar in! H1J H'J H13J H10J. 6E Share ,othin! Se!<n Michael Stone6raker@ BConsiste en una ar=uitectura istri6ui a en el =ue ca a no o es in e(en iente y autosu)iciente, y tiene un <nico (unto e contenci9n en to o el sistemaC. El conce(to e Share ,othin! (arte e la in e(en encia e los no os, me iante la istri6uci9n e la in)ormaci9n y e las acciones so6re ichos no os. Se (o r*a ecir =ue un Shra es un no o Share ,othin! on e se a ministra un con?unto e ocumentos in e;a os se!<n al!<n criterio y en on e se los (ue e someter a mecanismos e 6<s=ue a e in)ormaci9n y e ?erar=uizaci9n y or enamiento e la in)ormaci9n recu(era a e(en ien o e necesi a es (articulares e in)ormaci9n. Por e?em(lo se (o r*an realizar istri6uciones@ !eo!rá)icas, temáticas, ontol9!icas, se!mentaci9n se!<n (re)erencias, etc. o inclusive com6inaciones e ellas. En to os los casos se (ue e com6inar con t:cnicas e 6ases e atos tra icionales, como la re(licaci9n y la (aralelizaci9n me iante es=uemas e Share Disk Dcluster tra icional, como (or e?em(lo la

im(lementaci9n e un 6la e con una Stora!e $rea ,etForkE H1J H'J H1MJ. cE Re(licaci9n con 6alanceo e car!a 8a ar=uitectura e6e !arantizar un con?unto e no os con la in)ormaci9n re(lica a y consistente en to os los no os. En este caso el motor e 6<s=ue a cuenta con un (oolin! e no os e atos en los cuales 6uscar la in)ormaci9n. 8a ar=uitectura misma no (araleliza las 6<s=ue as, sim(lemente istri6uye la car!a entre los no os. Como los no os son in e(en ientes y auto2su)icientes son ca(aces e res(on er consistentemente a la consulta realiza a ya =ue la res(onsa6ili a e recu(eraci9n está en el no o e atos y la res(onsa6ili a e istri6uci9n e car!a en el 6alancea or. 8a esventa?a e este m:to o es =ue ni resuelve el (ro6lema es(acial e la in)ormaci9n ni (araleliza la 6<s=ue aHIJ. E Scatter an Gather El m:to o realiza un 6roa cast e la 6<s=ue a e in)ormaci9n re=ueri a en sus no os conoci os, realizan o una is(ersi9n e la misma. Ca a no o Din e(en iente e los emásE tiene la ca(aci a e ela6orar una res(uesta con la in)ormaci9n =ue contiene icho no o. &o as las res(uestas se concentran en el no o =ue realiz9 la is(ersi9n y :ste es res(onsa6le e consoli ar las mismas en una <nica Dy consistenteE res(uesta a a la (etici9n. +na venta?a a icional el m:to o es =ue a su vez los no os e atos (ue en ser is(ersores en nuevos no os Dconoci os (or :lE. Con)orman o e esta )orma una re e no os in e(en ientes =ue contienen in)ormaci9n. 8as venta?as en este caso son el (articionamiento e la in)ormaci9n y la (aralelizaci9n e las 6<s=ue as. 8a esventa?a es una so6recar!a en la istri6uci9n e la in)ormaci9n, es(ecialmente si se esea realizar con al!una l9!ica e se!mentaci9n en (articular@ Geo!rá)ica, ti(o e conteni o, atri6utos ontol9!icos, etc. En este <ltimo caso se re=uiere conocimiento e in)ormaci9n so6re los conteni os D atosE a ser almacena os, sien o en al!unos casos relativamente com(le?a su resoluci9n, es(ecialmente ante la a(licaci9n e re!las ontol9!icas so6re los conteni os H'J HIJ H3J. Para este caso es interesante (o er a(licar la t:cnica e Ma( L Re uce =ue es una 6uena t:cnica (ara (rocesar !ran volumen e atos en (aralelo. El mo elo (rovee un mecanismo e (articionamiento e in)ormaci9n =ue (ermite istri6uir Binteli!entementeC e acuer o a re!las (re2 e)ini as los atos en istintos no os auto2conteni os. Ma( Lre uce es una t:cnica =ue im(lica (aralelizar los atos =ue es istinto a (aralelizar las tareas. N6viamente la (aralelizaci9n e los atos (ermite (aralelizar el (rocesamiento en las 6<s=ue as, (ero la clave e la t:cnica se 6asa en la inteli!encia e se(araci9n e los atos. $ su vez una venta?a a icional ra ica en el ahorro e es(acio en el resulta o e las

2012

XIV Workshop de Investigadores en Ciencias de la Computación

WICC 2012

724

claves com(arti as al re ucirlas ocumentoH0J HMJ H13J H10J.

entro

e

un

!$neas de In%estigación & Desarrollo
8as (rinci(ales l*neas e investi!aci9n se (o r*an resumir en la lista si!uiente@ • #nvesti!ar t:cnicas e (articionamiento, re(licaci9n y istri6uci9n e in)ormaci9n tanto en las enomina as Bases e Datos relacionales DRDBMSE como en las enomina as ,oS=l.

• #nvesti!ar y seleccionar uno o varios m:to os e (articionamiento y re(licaci9n so6re Bases e Datos ,oS=l. D(osi6les@ OD%S Re(lication, Master Master, Master Slave, etc.E • De)inir m:tricas =ue (ermitan o6tener conclusiones relevantes res(ectos a las t:cnicas y m:to os im(lementa os.

• De)inir y esarrollar uno o varios m:to os e (rue6as e stress sistematiza as (ara someter a com(araci9n las istintas Bases e Datos ,oS=l Selecciona as. • $rmar un 6anco e (rue6as =ue (ermita com(ro6ar las istintas im(lementaciones y m:to os utiliza os en las Bases e Datos ,oS=l selecciona as. • Dise>ar istintas ar=uitecturas e (articionamiento y escalamiento en )unci9n e los resulta os o6teni os y com(ararlas con los mismos m:to os e)ini os.

• #nvesti!ar las Bases e Datos no estructura as D,oS=lE actuales y c9omo im(lementan la a ministraci9n e sus recursos, es(ecialmente en lo =ue res(ecta al (articionamiento, almacenamiento, istri6uci9n y recu(eraci9n e in)ormaci9n. • Determinar la )acti6ili a y a(lica6ili a e los m:to os te9ricos en los entornos (rácticos estu ia os, es(ecialmente en lo re)eri o a la istri6uci9n e in)ormaci9n e in)ormation retrieval. • Realizar una com(araci9n entre las istintas Bases e atos ,oS=l es(ec*)icamente en lo re)eri o al (articionamiento, istri6uci9n, escala6ili a , is(oni6ili a y (er)ormance. • Pro(oner me?oras o nuevas t:cnicas yLo re2 )ormulaciones a las t:cnicas e;istentes (ara el mane?o e recursos, en lo =ue se re)iere a las t:cnicas e istri6uci9n y recu(eraci9n. • #m(lementar y vali ar las t:cnicas y m:to os (ro(uestos so6re (lata)ormas e esarrollo concretas.

)ormación de Recursos Humanos
En lo re)eri o a %ormaci9n e Recursos Oumanos este (royecto (ro(one las si!uientes metas@ • Consoli ar me iante el (royecto, un !ru(o e investi!aci9n e la +niversi a ,acional e la Pata!onia San "uan Bosco se e Puerto Ma ryn, so6re la isci(lina Bases e Datos ,oS=l. Este !ru(o se inte!ra actualmente e / (ro)esores, 1 "&P y 1 $u;iliar, a emás (artici(an el mismo / alumnos el ciclo su(erior =ue realizarán sus tra6a?os e tesina e !ra o enmarca os en el (royecto. 8os miem6ros, los cuales se encuentran a6oca os a la investi!aci9n a )in e crear nuevos m:to os, esarrollos y tra6a?os e (u6licaci9n cient*)ica (ara revistas, con!resos e or en nacional e internacional. • %omentar, incentivar y investi!aci9n. i)un ir las tareas e

Resultados & O'(eti%os
8os resulta os y o6?etivos e este (royecto investi!aci9n se (ue en enumerar como si!ue@ e

• Seleccionar material 6i6lio!rá)ico y !enerar una 6ase e conocimiento so6re las t:cnicas y m:to os em(lea os en los es=uemas e (articionamiento, re(licaci9n, istri6uci9n e in e;a o e los Sistemas e Bases e Datos ,oS=l. • #nvesti!ar y seleccionar una o varias e las Bases e Datos ,oS=l con c9 i!o a6ierto. D(osi6les@ Oa oo(LO6ase, Cassan ra, CouchDB, 8uceneLSolr, etc.E • #nvesti!ar y seleccionar uno o varios m:to os y len!ua?es e consultas so6re Bases e Datos ,oS=l. D(osi6les@ Ma(Re uce, OA8, S(arA8, GA8, etc.E

• Me?orar la )ormaci9n e recursos humanos altamente cali)ica os, con ca(aci a es e investi!aci9n y esarrollo. 8o!rar la cate!orizaci9n e los ocentes (artici(antes y la ?erar=uizaci9n el e(artamento e in)ormática y e la universi a en to os sus niveles. • Contri6uir a la creaci9n en un )uturo Centro o #nstituto en investi!aci9n in)ormática. • #nteractuar con otros !ru(os e investi!aci9n e las se es e la universi a y e otras universi a es, en tareas con?untas e investi!aci9n y esarrollo, como tam6i:n en la )ormaci9n e recursos humanos.

2012

XIV Workshop de Investigadores en Ciencias de la Computación

WICC 2012

725

• #ncrementar el n<mero e (royectos acre ita os y e tra6a?os (u6lica os (or la universi a y la se e.

H11J Davi Smiley Q Eric Pu!h. BSolr 1./ Enter(rise Search ServerC. Packt Pu6lishin!, '11M. H1'J Erik Oatcher, Ntis Gos(o netiV. B8ucene in $ctionC, 'n . e , Mannin! Pu6lications Co. '11/. H1IJ GhiteOouse.!ov Goes Dru(al, htt(@LL(ersonal emocracy.comLno eL1.1I1 H1/J &hou!hts on the Ghitehouse.!ov sFitch to Dru(al, htt(@LLra ar.oreilly.comL'11ML11LFhitehouse2sFitch2 ru(al2o(ensource.html H1.J Cal Oen erson@ BBuil in! Scala6le Ge6 SitesC, NUReilly Me ia, '11K H1KJ Ricky Oo@ Scala6le System Desi!n Patterns, Pra!matic Pro!rammin! &echni=ues. htt(@LLhoricky.6lo!s(ot.comL'111L11Lscala6le2system2 esi!n2(atterns.html H13J $zza $6ouzei , Tamil Ba? aPaFlikoFski, Daniel $6a i1, $vi Sil6erschatz, $le;an er Rasin@ Oa oo(DB@ $n $rchitectural Oy6ri o) Ma(Re uce an DBMS &echnolo!ies )or $nalytical Gorkloa s. H10J "e))rey Dean an San?ay GhemaFat@ Ma(Re uce@ Sim(lie Data Processin! on 8ar!e Clusters. Goo!le #nc. H1MJ Michael Stone6raker@ &he Case )or Share ,othin!. +niversity o) Cali)ornia, Berkeley, Ca.

Referencias
H1J M.&. Pzsu Q P. Ral uriez. BPrinci(les o) Distri6ute Data6ase Systems, 'n e itionC. Prentice2 Oall, 1MMM. Sitio Fe6@ htt(@LLso)t6ase.uFaterloo.caLStozsuL 6ookLnotes.html H'J Davi &aniar Q Clement O. C. 8eun! Q Genny Rahayu Q Sushant Goel. BOi!h Per)ormance Parallel Data6ase Processin! an Gri Data6asesC. "ohn Giley Q Sons, '110. HIJ P. Ral uriez. BData Mana!ement an Parallel Proessin!C. Cha(man an Oall, 1MM'. H/J M.Cohn, BSuccee in! Fith $!ile@ So)tFare Develo(ment +sin! ScrumC, Pearson E ucation, '111. H.J $hme T. Elma!armi Q Marek RusinkieFicz Q $mit Sheth. BMana!ement o) Oetero!eneous an $utonomous Data6ase SystemsC. Mor!an Tau)mann Pu6lishers, 1MMM. HKJ Tristina Cho oroF Q Michael Dirol). BMon!oDB@ &he De)initive Gui eC. NUReilly, '111. H3J Satnam $la!. BCollective #ntelli!ence in $ctionC. Mannin! Pu6lication, '11M. H0J "ason Renner. BPro Oa oo(C. $(ress, '11M. HMJ &om Ghite. BOa oo(@ &he De)initive Gui eC, NUReilly, '111. H11J Michael McCan less Q Erik Oatcher. B8ucene in $ction, Secon E ition@ Covers $(ache 8ucene I.1C. Mannin! Pu6lication, '111.

2012

XIV Workshop de Investigadores en Ciencias de la Computación

Sponsor Documents

Or use your account on DocShare.tips

Hide

Forgot your password?

Or register your new account on DocShare.tips

Hide

Lost your password? Please enter your email address. You will receive a link to create a new password.

Back to log-in

Close