目标网址:放在代码注释里面了。
这个网站是动态加载的,一开始想法是根据XHR去获取,但是XHR里对应的网址(.php结尾)无法访问,试了加参数也不好使。
然后的想法就很简单粗暴了:每张图片对应的URL只有数字不同,比如,。直接通过枚举法得到每张图片的URL。当然不是每个数字都对应了一张图片,比如对应的是。那么直接通过statuscode来判断,如果是那就继续到图片网址找到图片对应的链接,否则跳过这个数字即可。
一开始是单线程跑的,每爬一张sleep一秒,亲测没问题。但是后来嫌太慢弄了个进程池,爬了十几张就被网站制裁啦……
直接放上加了进程池的代码,后面可能会考虑探究dai*li池。
importtimeimportrequestsfrombs4importBeautifulSoupimportrandomimportrefromconcurrent.futuresimportThreadPoolExecutorimportrandom#目标地址的前半段url_front="