Buscando a Big Data

Published on June 2016 | Categories: Documents | Downloads: 33 | Comments: 0 | Views: 213
of 27
Download PDF   Embed   Report

Comments

Content


Buscando a Big Data
Diciembre 2013.
Big Probems
• Big Data aglutina una gran
cantidad de tecnologías ya
desarrolladas por Yahoo!,
Google, Facebook.

• En España Big Data no ha
explotado pero hay empresas
y departamentos de grandes
compañías muy bien
posicionados.
Big Data: Apache Hadoop

Hadoop.
Apache Hadoop
• Es un framework que permite el procesamiento
distribuido de gran cantidad de datos a través de
el procesamiento en paralelo.
• Escalable desde varios servidores a miles
• Tenemos una máquina virtual (Ubuntu Server sin las X)
con un Single Cluster Node configurado.
HDFS y Map/Reduce
• Hadoop Distributed File System almacena los
datos de manera distribuida y escalable.
• Fiabilidad mediante el replicado de datos entre nodos

• MapReduce es el modelo de programación en dos
fases para Hadoop.
• Map(); Reduce();
• Soporte para la computación paralela
• Tolerante a fallos
Hadoop AppStore
Apache Pig
• Simplifica el uso de Hadoop, es un lenguaje de
procedimientos de alto nivel para consultar
grandes conjunto de datos semiestructurados. Un
script Pig Latin es automáticamente paralelizado
y distribuido a través de un cluster.
• Ejemplo:
messages = LOAD 'messages'; warns = FILTER
messages BY $0 MATCHES '.*WARN+.*'; STORE
warns INTO 'warnings';
La primera línea simplemente lee el conjunto de datos de prueba (el registro de
mensajes) en una bolsa (bag) que representa una colección de tuplas. Estos
datos se filtran (la única entrada en la tupla, representada por $0o campo 1) con
una expresión regular, buscando la secuencia de caracteres WARN. Por último,
guarda la bolsa, que ahora representa las tuplas de los mensajes que
contienen WARN en un nuevo archivo denominado warnings en el sistema de
archivos de host.
Apache Hive
• Es un sistema de Data Warehouse para Hadoop
que facilita la agregación de los datos. Permite
realizar consultas sobre los datos usando un
lenguaje similar a SQL (HiveSQL).
• Podemos integrarnos con otras herramientas de
Business Intelligence.
• Ejemplo:
hive> ALTER TABLE events RENAME TO 3koobecaf;
hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);
hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');
hive> ALTER TABLE invites REPLACE COLUMNS (foo INT, bar STRING, baz INT COMMENT 'baz replaces new_col2');
Diagrama de trabajo en Hadoop

Hadoop: 1.0 vs 2.0
• Hadoop 1.0:
• HDFS + MapReduce
• Procesamiento Batch de datos

• Hadoop 2.0
• Tiempo real
• Yarn: Nueva implementación mejorada de MapReduce
• Puede implementar múltiples aplicaciones de
procesamiento de datos totalmente personalizadas y
específicas para realizar una tarea en cuestión

La idea de aplicación

Inquietudes personales.
Predecir los indicadores
19/02/2011 José Félix Tezanos

Y recomienda a "los ingenuos y simplistas" que se lean alguno de los
libros en los que varios investigadores, entre los que se incluye, han
avisado de estos riesgos. "Y luego no digan que nadie lo advirtió",
apostilla. De hecho, según dice, los conflictos sociales que han
estallado en Túnez, Egipto y otros países norteafricanos, donde
subyace una "ira social juvenil", han causado sorpresa en Occidente,
pese a que eran "predecibles".
http://www.elconfidencial.com/espana/2011/espana-corre-peligro-sufrir-
revueltas-arabes-20110219-75073.html
Entrevista a Manuel Castells en el programa de LA 2 «Para todos la 2»
De los movimientos sociales a los usos
sociales.
Los movimientos sociales originados en la red o en el móvil pueden mover el mundo.
«Existe una correlación entre ciertos comentarios en blogs y en redes sociales y el
aumento del desempleo. Estamos hablando que se puede predecir subidas en el
desempleo entre 4 y 5 meses antes».

Global Pulse (ONU).
http://www.rtve.es/alacarta/audios/coordenadas/coordenadas-big-data-04-04-13/1748388/
Mediante visualización se pueden detectar patrones con respecto al uso de ciertos medicamentos y
asistencia sanitaria.
http://www.ted.com/talks/lang/es/joel_selanikio_the_surprising_seeds_of_a_big_data_revolu
tion_in_healthcare.html
Sector Financiero
Entre las aplicaciones prácticas que puede tener Big Data en el sector financiero:
• La mejora de las capacidades de venta cruzada de productos financieros o no financieros, a
partir de patrones de compra o de interés.
• El control de fraude, minimizando los riesgos de uso indebido de medios de pago cuando el
titular se encuentra de viaje, incorporando elementos no tradicionales como las interacciones en
redes sociales.
• La fidelización y retención de clientes, ofreciéndoles promociones y ofertas comerciales
adaptadas a sus necesidades y contexto.» h
http://blogs.elpais.com/finanzas-a-las-9/2012/10/big-data-y-la-banca-del-futuro.html




• Ejemplos:
• « Banco Sabadell se sumerge en el Big Data para conocer mejor a sus clientes. »
• « Case study: ING Direct taps big data to understand customers. »
• « PayPal utiliza herramientas Big Data para combatir el fraude en tiempo real. »
(http://bigdata-hadoop.pragsis.com/pages/2/casos_de_uso)

Proyect I: The Proof Of Concept
¿Es posible predecir las tendencias bursátiles
mediante los indicadores socioeconómicos que
se encuentran en la prensa?
Valoración de la propuesta
• Predicción a corto plazo de valores y empresas del IBEX 35.
• ¿Debería invertir en una empresa en concreto?



• Es una idea inicial sin ninguna pretensión
• Es sencillo probar las conclusiones
• ¿Llegaremos a correlacionar algún indicador socioeconómico?
• Como aplicación se encuentra en un mercado muy explotado
• Posibilidad para utilizar datos en tiempo real «Twitter»



HADOOP
Twitter
Datos en
Tiempo Real
BIG DATA
Prensa
Datos socio-
económicos

Datos empresariales
Vídeos
Imágenes
IDEAS
ANALYTICS + MACHINE LEARNING
VISUALIZATION
APLICACIONES
Posible Mapa para la implantación
Idea
Clasificación
de textos
Strategy for parallelization
Store Data
Analytics
Searchs
Visualization
Applications
Project II: Eventos Deportivos
Project III: The Internet of Things.
• Sensores
• Aplicación móvil de interés al
público.
Opportunity

https://www.coursera.org/course/bigdata

Cursos, libros, material para empezar
Hadoop: The Definitive Guide, 3rd
Edition
Storage and Analysis at Internet Scale
By Tom White
Publisher: O'Reilly Media / Yahoo Press
Released: May 2012
Pages: 688

Cursos, libros, material para empezar
Programming Hive
Data Warehouse and Query Language for Hadoop
By Edward Capriolo, Dean Wampler, Jason
Rutherglen
Publisher: O'Reilly Media
Released: September 2012
Pages: 352

Programming Pig
Dataflow Scripting with Hadoop
By Alan Gates
Publisher: O'Reilly Media
Released: September 2011
Pages: 224

HBase: The Definitive Guide
Random Access to Your Planet-Size Data
By Lars George
Publisher: O'Reilly Media
Released: August 2011
Pages: 556

Cursos, libros, material para empezar
• Data Science Starter kit


Cursos, libros, material para empezar
• Machine Learning

• https://www.coursera.org/course/ml
• http://svmlight.joachims.org/
¿Where is Hadoop?
FIN

Sponsor Documents

Or use your account on DocShare.tips

Hide

Forgot your password?

Or register your new account on DocShare.tips

Hide

Lost your password? Please enter your email address. You will receive a link to create a new password.

Back to log-in

Close