143 votos

Ejemplos de Hadoop?

Yo soy el examen de Hadoop como una posible herramienta con la que realizar algún análisis de los registros web. Quiero analizar varios tipos de estadísticas en una sola carrera. Cada línea de mis archivos de registro tiene todo tipo de potencialmente útil la información que me gustaría agregado. Me gustaría obtener todo tipo de datos de los registros en una sola ejecutar Hadoop, pero el ejemplo de Hadoop programas puedo ver online todos parecen hacer exactamente una cosa. Esto puede ser debido a que cada ejemplo de Hadoop programa puedo encontrar solo hace el recuento de palabras. ¿Puedo usar Hadoop para resolver dos o más problemas a la vez?

Hay otros Hadoop ejemplos, o Hadoop tutoriales por ahí, que no se soluciona con la palabra problema de recuento?

112voto

Ryan H Puntos 1369

Uno de los mejores recursos que he encontrado para empezar es Cloudera. Ellos son una empresa compuesta, principalmente, de ex-Google y ex-Yahoo empleados. En su página hay una sección de formación con clases en las diferentes tecnologías aquí. Eso me pareció muy útil en el juego en línea recta Hadoop, Pig y Hive. Tienen una máquina virtual que se puede descargar que lo tiene todo configurado y algunos ejemplos que le ayudarán a sacar de codificación. Todo eso es gratis en la sección de entrenamiento. Lo único que no pude encontrar es un tutorial sobre HBase. He estado buscando uno por un tiempo. La mejor de las suertes.

33voto

Pete Skomoroch Puntos 1861

Estoy terminando un tutorial sobre el procesamiento de los archivos de registro de visitas de página de la Wikipedia, varias partes de las cuales calculan múltiples métricas en una sola pasada (suma de páginas vistas, tendencia durante las últimas 24 horas, corriendo regresiones, etc). El código está aquí: http://github.com/datawrangling/trendingtopics/tree/master

El código de Hadoop en su mayoría utiliza una mezcla de Python en streaming y Hive w / la distro Cloudera en EC2 ...

18voto

cwensel Puntos 1156

Aquí hay dos ejemplos en Cascada (y API a través de Hadoop)

Usted puede comenzar con la segunda y sólo mantenga la adición de métricas.

Cascada sitio del proyecto

13voto

Pavan Yara Puntos 91

Puede consultar el libro Hadoop de Tom White para más ejemplos y casos de uso: http://www.amazon.com/Hadoop-Definitive Guide-Tom-White/dp/1449389732/

10voto

Ilya Haykinson Puntos 520

Con el normal Map/reduce paradigma, se suele resolver un problema en un momento. En el mapa de paso se suele realizar algún tipo de transformación o de la desnormalización, en la reducción de paso que a menudo agregado el mapa de salidas.

Si desea responder a varias preguntas sobre sus datos, la mejor manera de hacerlo en Hadoop es escribir varios trabajos, o una secuencia de trabajos que leer el paso anterior las salidas.

Hay varios más alto nivel de abstracción de los lenguajes y APIs (Pig, Hive, una Cascada) que simplifican algunos de este trabajo, permitiendo a escribir más tradicionales de procedimiento o de estilo de SQL de código que, bajo la cubre, tan sólo crea una secuencia de Hadoop puestos de trabajo.

Iteramos.com

Iteramos es una comunidad de desarrolladores que busca expandir el conocimiento de la programación mas allá del inglés.
Tenemos una gran cantidad de contenido, y también puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X