72 votos

Web con Java

No soy capaz de encontrar alguna buena web raspado Java basado en API. El sitio que tengo que raspar no proporciona cualquier API Quiero a iterar sobre todas las páginas web utilizando algunos pageID y extracto de los títulos HTML / otras cosas en sus árboles DOM.

¿Hay formas que no sean web scraping?

Gracias

99voto

Wajdy Essam Puntos 2215

Extracto de título no es difícil, y usted tiene muchas opciones (buscar aquí en SO analizadores HTML en Java )

uno de ellos es: http://jsoup.org/

Usted puede navegar la página mediante DOM si conoce la estructura de la página: http://jsoup.org/cookbook/extracting-data/dom-navigation

es una buena biblioteca y lo uso en mis últimos proyectos.

22voto

KJW Puntos 2182

Su mejor apuesta es usar selenio Web Driver puesto que

  1. Proporciona comentarios visuales para el codificador (ver su raspado en acción, ver donde se detiene)
  2. Precisa y consistente que controla directamente el navegador que utilizas.
  3. Lento. No golpear las páginas web como HtmlUnit lo hace pero a veces no quieres golpear demasiado rápido.

    HtmlUnit es rápido pero es horrible en el manejo de Javascript y AJAX.

14voto

Beschi Puntos 67

HTMLUnit puede utilizarse para web scraping, soporta invocar páginas, llenado y envío de formularios. He utilizado esto en mi proyecto. Es librería buena java para web scraping. Lea aquí para obtener más información

4voto

user1374041 Puntos 41

mecanizar para Java sería una buena opción para esto, y como Wadjy Essam mencionado utiliza JSoup para la HMLT. mecanizar es un cliente HTTP/HTML stageful que admite navegación, las presentaciones de forma y raspado de la página.

http://gistlabs.com/software/mechanize-for-Java/ (y el GitHub aquí https://github.com/GistLabs/mechanize)

1voto

JavaSlugger Puntos 46

Excursión es un nuevo navegador sin cabeza (libre) API que está orientado para web scraping. Permite analizar HTML/XML y manipular el árbol DOM pero también proporciona componentes de nivel de documento, como formularios e hipervínculos. Tiene un montón de ejemplos cortos y sencillos para empezar.

Sitio web Jaunt-API

Introducción

Iteramos.com

Iteramos es una comunidad de desarrolladores que busca expandir el conocimiento de la programación mas allá del inglés.
Tenemos una gran cantidad de contenido, y también puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X