¿Etiquetas de script y todo su contenido se puede quitar de HTML con BeautifulSoup, o tengo que utilizar las expresiones regulares o algo más?
Respuestas
¿Demasiados anuncios?
SanSS
Puntos
2834
Como se indica en la (documentación oficial) se puede utilizar el extract
método para quitar todo el subárbol que coincide con la búsqueda.
import BeautifulSoup
a = BeautifulSoup.BeautifulSoup("<html><body><script>aaa</script></body></html>")
[x.extract() for x in a.findAll('script')]
Andreas Jung
Puntos
1
Perfectamente documentado en la documentación del BeautifulSoup:
http://www.crummy.com/software/BeautifulSoup/Documentation.html#removing%20elements