¡Advertencia!
Este tema no ha tenido respuestas en más de un mes. Recuerda que si deseas añadir una nueva debes cumplir con las normas de la web.
Hola,

A ver si alguien con más conocimientos en scraping me ayuda.

Me gustaría descargar 1 millón de página (por decir un número alto). Actualmente he estado intentándolo con Python y la librería urlib. Pero descargar 100 páginas me lleva 100 segundos. Es decir, tarea imposible, puesto que 1 millon de página seria 12 días sin parar.

Supongo que lanzando varios threads en paralelo bajaría la velocidad. También está el problema de que te baneen por tantas requests.

¿Algo de experiencia en temas así?
Espera a que llegue el Li-Fi a España y lo haces, o te vas a Mexico y lo coges de allí.

Espera a que llegue el Li-Fi a España y lo haces, o te vas a Mexico y lo coges de allí.

Si no es por conexión, creo que el cuello de botella son las propias peticiones.
es posible que otras operaciones que realices en cada iteracion sea lo que cause el cuello de botella, ejemplo guardarlo en disco cada vez que descargas una o algo asi.

es posible que otras operaciones que realices en cada iteracion sea lo que cause el cuello de botella, ejemplo guardarlo en disco cada vez que descargas una o algo asi.

Creo que es mas lento descargar que guardar en disco.


es posible que otras operaciones que realices en cada iteracion sea lo que cause el cuello de botella, ejemplo guardarlo en disco cada vez que descargas una o algo asi.

Creo que es mas lento descargar que guardar en disco.

eso seguro pero todo se acumula.si lo que toma mayor parte del segundo es la descarga lo de hacer multi threading seria la solucion



es posible que otras operaciones que realices en cada iteracion sea lo que cause el cuello de botella, ejemplo guardarlo en disco cada vez que descargas una o algo asi.

Creo que es mas lento descargar que guardar en disco.

eso seguro pero todo se acumula.si lo que toma mayor parte del segundo es la descarga lo de hacer multi threading seria la solucion

Muchas gracias, me informaré acerca de multi threading a ver que tal va!




Creo que es mas lento descargar que guardar en disco.

eso seguro pero todo se acumula.si lo que toma mayor parte del segundo es la descarga lo de hacer multi threading seria la solucion

Muchas gracias, me informaré acerca de multi threading a ver que tal va!

Ya nos informarás de la solución que encuentres, ya que es algo que me interesa y no se cómo hacer, xd

Ingeniero informático estudiando un Máster en Ciberseguridad.
Anime, videojuegos, pelis, series... casi todo menos estudiar es divertido,
Me encanta gestionar mi propio servidor con apps self-hosted y aportar al mundo open source cuando puedo