Hay una increíble muestra de arquitecturas de referencia para Big
Data, y 2014 puede ser el año en el que estas arquitecturas empiecen a
fusionarese. ¿Se verá en 2014 la aparición de un equivalente en Big Data
a la arquitectura LAMP?
Thor Olavsrud, CIO
Richard Daley, uno de los fundadores y director de estrategia de
Pentaho, cree que tal arquitectura empezará a fusionares este año,
cuando empiece a haber consenso en ciertas arquitecturas de referencia
de Big Data, aunque las capas superiores de la arquitectura puedan tener
más elementos propietarios que tiene LAMP. “Hay miles de arquitecturas
de referencia de Big Data por ahí”, afirma Daley. “La historia se
repite. Vimos ocurrir exactamente lo mismo con el sistema de
infraestructura LAMP. Está impulsado por el sufrimiento. El sufrimiento
es lo que lo va a conducirlo inicialmente, sufrimiento en forma de coste
y escala”.
Pero para Daley, las organizaciones que trabajan con tecnologías de Big data (el 42% de las organizaciones estaban ya abordando alguna iniciativa de Big Data en 2013, según un estudio de CompTIA) empiezan rápidamente a ver los beneficios de esos datos, particularmente las organizaciones que lo utilizan para marketing o para detección de intrusiones en la red.
“En los últimos 12 meses hemos visto más y más gente obteniendo beneficios de Big Data” sostiene. “Hay mucho más que ganar del análisis y utilización de Big Data, que sólo en almacenarlos”.
La explosión de sitios web dinámicos e interactivos en la última parte de los años 90 y primeros 2000, vino motivada, al menos en parte, por la arquitectura LAMP, formada por Linux, Apache HTTP server, MySQL y PHP. Estos componentes gratuitos y de código abierto son todos individualmente potentes herramientas desarrolladas independientemente, pero se unen para formar una plataforma de desarrollo Web que es más potente que la suma de sus partes. Los componentes están disponibles y tienen licencias abiertas con relativamente pocas restricciones. Y, quizá lo más importante, el código fuente está disponible, lo que da a los desarrolladores una tremenda flexibilidad.
Mientras la arquitectura LAMP especifica los componentes individuales (aunque pueda haber sustitutos en ciertas capas), la arquitectura de Big Data que Daley prevé tiene muchas más opciones en cada capa, dependiendo de la aplicación que se tenga en mente.
“D” por la capa de Datos
La capa inferior de la pila, la base, es la capa de datos. Ésta es la capa para las distribuciones Hadoop, bases de datos NoSQL (HBase, MongoDB, CouchDB y muchas otras), incluso bases de datos relacionales y analíticas, como SAS, Greenplum, Teradata y Vertica.
“Cualquiera de esas tecnologías se puede utilizar para aplicaciones de Big Data”, dice Daley. “Hadoop y NoSQL son abiertas, más escalables y más eficaces en coste, pero no pueden hacerlo todo. Ahí es donde entran otras como Greenplum y Vertica que tienen su lugar para aplicaciones analíticas muy rápidas.”
En muchas maneras, esta capa de la arquitectura tiene el mayor trabajo por hacer, dice Daley. Las bases de datos relacionales y analíticas tienen muchos años de desarrollo realizado, pero las tecnologías Hadoop y NoSQL están todavía en una fase relativamente temprana.
“Estamos sobre el abismo en términos de adopción. Estamos más allá de los primeros seguidores, pero hay todavía mucho que hacer en términos de gestión, servicios y capacidades operacionales para ambos entornos. Hadoop es una tecnología muy, muy complicada y todavía con muchas aristas. Y si miras al entorno NoSQL, es como un gran lío. Cada uno de los motores NoSQL tiene su propio lenguaje de consulta.
“I” por la capa de Integración
La siguiente capa es la capa de integración. Aquí es donde ocurre la preparación, limpieza, transformación e integración de datos.
“Rara vez obtenemos datos de una sola fuente”, dice Daley. “Si miramos una aplicación de cliente-360, obtendremos datos de 3, 4 o incluso 5 fuentes. Cuando alguien tiene que hacer una aplicación analítica o incluso una aplicación predictiva, el 70% del tiempo se pasará en esta capa, machacando datos”.
Aunque esta capa es la parte menos glamurosa del big data, es también un área que es relativamente madura, dice Daley, con muchas utilidades (como Sqoop y Flume) y suministradores para llenar las lagunas.
“A” por la capa de Análisis
La siguiente capa es la capa analítica, donde ocurren el análisis y la visualización.
“Ahora tengo los datos, los tengo almacenados y listos para que sean examinados”, explica Daley. “Tomo un Tableau, o Pentaho o Qlikview y visualizo esos datos. ¿Tengo patrones? Aquí es donde la gente, los usuarios de negocio, empiezan a sacar algún valor de todo ello. Aquí es donde yo también incluiría las búsquedas. No son todo tableros de control y cortar y fragmentar datos.
Esta área también es relativamente madura, aunque Daley reconoce que todavía tiene bastante recorrido.
“Todavía tenemos que resolver como industria como sacarle más jugo a Hadoop, métodos para obtener datos más rápido”, indica, “¿quizá reconozcamos que es un entorno batch y necesitamos obtener ciertos datos de otras fuentes de datos? Los suministradores están trabajando contra-reloj para hacer esas integraciones mejor y mejor”.
“P” por Analítica Predictiva/Prescriptiva
La capa superior de esta pila es la analítica predictiva/prescriptiva, dice Daley. Aquí es donde las organizaciones empiezan a reconocer el valor verdadero de Big Data. La analítica predictiva utiliza datos (datos históricos, datos externos y datos en tiempo real), reglas de negocio y aprendizaje de la máquina para hacer predicciones e identificar riesgos y oportunidades.
Un paso más es la analítica prescriptiva, algunas veces considerado el Santo Grial de la analítica de negocio, que toma esas predicciones y ofrece sugerencias para formas de aprovechar las oportunidades futuras o mitigar riesgos futuros, junto con las implicaciones de las diferentes opciones.
“Se tiene que hacer todo el camino y llegar a la fase predictiva para obtener valor de Big Data”, dice. “No es probable que se obtenga un gran valor sólo de cortar y fragmentar datos. Hay que llegar a la parte superior de la pila”.
“Al menos el 70, quizá el 80 por ciento de lo que vemos en las aplicaciones de Big Data son ahora analíticas predictiva o incluso prescriptiva”, añade Daley. “Es la necesidad. Se empieza en la base con la tecnología de datos (almacenamiento, manipulación, transformaciones, analítica básica). Pero lo que ocurre más y más, finalmente, es que ha llegado el momento de la analítica predictiva avanzada. Se está volviendo más y más corriente general”.
Aunque la analítica predictiva es ya de alguna forma madura, hoy es un área donde sólo los científicos de datos están equipados para gestionar.
“Creo que lo predictivo ha avanzado mucho”, dice Daley. “Desde el punto de vista de la tecnología, creo que ya está madura. Pero necesitamos ver como lo podemos poner en las manos de muchos más usuarios. Necesitamos incorporarlo en aplicaciones que los usuarios de negocio puedan acceder, no sólo los científicos de datos”.
¿DIAP o PAID?
Llamémoslo arquitectura DIAP. O quizá, si empezamos desde arriba, llamémoslo PAID. La jugada ahora, comenta Daley, no es sólo añadir más madurez a los componentes tecnológicos como Hadoop y NoSQL, sino proveer la integración de arriba debajo de la pila.
“Ese es un punto clave”, añade. “Hasta ahora todos estos elementos están separados. Un montón de compañías sólo hacen una de estas cosas. Hortonworks sólo le hará la parte de datos, no harán integración, por ejemplo. Pero los clientes quieren obtener una arquitectura integrada. Deberíamos al menos asegurar que nuestros productos de arriba abajo de la arquitectura están realmente integrados. Ahí es donde tenemos que llegar. Para que de verdad sea adoptada, productos y suministradores van a necesitar trabajar arriba y abajo en la arquitectura. Necesito soportar todos los sabores de Hadoop, al menos los más favorables comercialmente. Y lo mismo para NoSQL".
http://www.computerworld.es/sociedad-de-la-informacion/es-2014-el-ano-de-la-arquitectura-big-data
Pero para Daley, las organizaciones que trabajan con tecnologías de Big data (el 42% de las organizaciones estaban ya abordando alguna iniciativa de Big Data en 2013, según un estudio de CompTIA) empiezan rápidamente a ver los beneficios de esos datos, particularmente las organizaciones que lo utilizan para marketing o para detección de intrusiones en la red.
“En los últimos 12 meses hemos visto más y más gente obteniendo beneficios de Big Data” sostiene. “Hay mucho más que ganar del análisis y utilización de Big Data, que sólo en almacenarlos”.
La explosión de sitios web dinámicos e interactivos en la última parte de los años 90 y primeros 2000, vino motivada, al menos en parte, por la arquitectura LAMP, formada por Linux, Apache HTTP server, MySQL y PHP. Estos componentes gratuitos y de código abierto son todos individualmente potentes herramientas desarrolladas independientemente, pero se unen para formar una plataforma de desarrollo Web que es más potente que la suma de sus partes. Los componentes están disponibles y tienen licencias abiertas con relativamente pocas restricciones. Y, quizá lo más importante, el código fuente está disponible, lo que da a los desarrolladores una tremenda flexibilidad.
Mientras la arquitectura LAMP especifica los componentes individuales (aunque pueda haber sustitutos en ciertas capas), la arquitectura de Big Data que Daley prevé tiene muchas más opciones en cada capa, dependiendo de la aplicación que se tenga en mente.
“D” por la capa de Datos
La capa inferior de la pila, la base, es la capa de datos. Ésta es la capa para las distribuciones Hadoop, bases de datos NoSQL (HBase, MongoDB, CouchDB y muchas otras), incluso bases de datos relacionales y analíticas, como SAS, Greenplum, Teradata y Vertica.
“Cualquiera de esas tecnologías se puede utilizar para aplicaciones de Big Data”, dice Daley. “Hadoop y NoSQL son abiertas, más escalables y más eficaces en coste, pero no pueden hacerlo todo. Ahí es donde entran otras como Greenplum y Vertica que tienen su lugar para aplicaciones analíticas muy rápidas.”
En muchas maneras, esta capa de la arquitectura tiene el mayor trabajo por hacer, dice Daley. Las bases de datos relacionales y analíticas tienen muchos años de desarrollo realizado, pero las tecnologías Hadoop y NoSQL están todavía en una fase relativamente temprana.
“Estamos sobre el abismo en términos de adopción. Estamos más allá de los primeros seguidores, pero hay todavía mucho que hacer en términos de gestión, servicios y capacidades operacionales para ambos entornos. Hadoop es una tecnología muy, muy complicada y todavía con muchas aristas. Y si miras al entorno NoSQL, es como un gran lío. Cada uno de los motores NoSQL tiene su propio lenguaje de consulta.
“I” por la capa de Integración
La siguiente capa es la capa de integración. Aquí es donde ocurre la preparación, limpieza, transformación e integración de datos.
“Rara vez obtenemos datos de una sola fuente”, dice Daley. “Si miramos una aplicación de cliente-360, obtendremos datos de 3, 4 o incluso 5 fuentes. Cuando alguien tiene que hacer una aplicación analítica o incluso una aplicación predictiva, el 70% del tiempo se pasará en esta capa, machacando datos”.
Aunque esta capa es la parte menos glamurosa del big data, es también un área que es relativamente madura, dice Daley, con muchas utilidades (como Sqoop y Flume) y suministradores para llenar las lagunas.
“A” por la capa de Análisis
La siguiente capa es la capa analítica, donde ocurren el análisis y la visualización.
“Ahora tengo los datos, los tengo almacenados y listos para que sean examinados”, explica Daley. “Tomo un Tableau, o Pentaho o Qlikview y visualizo esos datos. ¿Tengo patrones? Aquí es donde la gente, los usuarios de negocio, empiezan a sacar algún valor de todo ello. Aquí es donde yo también incluiría las búsquedas. No son todo tableros de control y cortar y fragmentar datos.
Esta área también es relativamente madura, aunque Daley reconoce que todavía tiene bastante recorrido.
“Todavía tenemos que resolver como industria como sacarle más jugo a Hadoop, métodos para obtener datos más rápido”, indica, “¿quizá reconozcamos que es un entorno batch y necesitamos obtener ciertos datos de otras fuentes de datos? Los suministradores están trabajando contra-reloj para hacer esas integraciones mejor y mejor”.
“P” por Analítica Predictiva/Prescriptiva
La capa superior de esta pila es la analítica predictiva/prescriptiva, dice Daley. Aquí es donde las organizaciones empiezan a reconocer el valor verdadero de Big Data. La analítica predictiva utiliza datos (datos históricos, datos externos y datos en tiempo real), reglas de negocio y aprendizaje de la máquina para hacer predicciones e identificar riesgos y oportunidades.
Un paso más es la analítica prescriptiva, algunas veces considerado el Santo Grial de la analítica de negocio, que toma esas predicciones y ofrece sugerencias para formas de aprovechar las oportunidades futuras o mitigar riesgos futuros, junto con las implicaciones de las diferentes opciones.
“Se tiene que hacer todo el camino y llegar a la fase predictiva para obtener valor de Big Data”, dice. “No es probable que se obtenga un gran valor sólo de cortar y fragmentar datos. Hay que llegar a la parte superior de la pila”.
“Al menos el 70, quizá el 80 por ciento de lo que vemos en las aplicaciones de Big Data son ahora analíticas predictiva o incluso prescriptiva”, añade Daley. “Es la necesidad. Se empieza en la base con la tecnología de datos (almacenamiento, manipulación, transformaciones, analítica básica). Pero lo que ocurre más y más, finalmente, es que ha llegado el momento de la analítica predictiva avanzada. Se está volviendo más y más corriente general”.
Aunque la analítica predictiva es ya de alguna forma madura, hoy es un área donde sólo los científicos de datos están equipados para gestionar.
“Creo que lo predictivo ha avanzado mucho”, dice Daley. “Desde el punto de vista de la tecnología, creo que ya está madura. Pero necesitamos ver como lo podemos poner en las manos de muchos más usuarios. Necesitamos incorporarlo en aplicaciones que los usuarios de negocio puedan acceder, no sólo los científicos de datos”.
¿DIAP o PAID?
Llamémoslo arquitectura DIAP. O quizá, si empezamos desde arriba, llamémoslo PAID. La jugada ahora, comenta Daley, no es sólo añadir más madurez a los componentes tecnológicos como Hadoop y NoSQL, sino proveer la integración de arriba debajo de la pila.
“Ese es un punto clave”, añade. “Hasta ahora todos estos elementos están separados. Un montón de compañías sólo hacen una de estas cosas. Hortonworks sólo le hará la parte de datos, no harán integración, por ejemplo. Pero los clientes quieren obtener una arquitectura integrada. Deberíamos al menos asegurar que nuestros productos de arriba abajo de la arquitectura están realmente integrados. Ahí es donde tenemos que llegar. Para que de verdad sea adoptada, productos y suministradores van a necesitar trabajar arriba y abajo en la arquitectura. Necesito soportar todos los sabores de Hadoop, al menos los más favorables comercialmente. Y lo mismo para NoSQL".
http://www.computerworld.es/sociedad-de-la-informacion/es-2014-el-ano-de-la-arquitectura-big-data
No hay comentarios:
Publicar un comentario