通过百度搜索抓取最新的电影和热门电影

北京中科白癜风医院怎么样 https://mip.yyk.99.com.cn/fengtai/68389/jianjie.html

之前可以使用豆瓣的API接口来获取数据,但是近年来豆瓣几乎都关闭了所有的API,只能想想其他的办法了,搜索引擎应该是比较新的数据,我们可以抓取百度搜索引擎来实现我们的效果。

我使用的是eggjs作为后台,抓取的数据4小时更新一次,每次访问的时候先从缓存获取数据,如果没有就直接抓取百度的数据。

获取目标HTML

在百度中搜索最新电影,大概是这个样子:

首先使用curl将我们要抓取的页面整个下载下来

lethtml=awaitthis.ctx.curl(baiduUrl);html=html.data.toString();

分析HTML

我们可以直接正则匹配上面截图的html代码,但是我发现如果电影名称长了,会自动转为省略号,并不是完整的名称,这种方式不好。

注意下面的页码翻页,应该是使用的ajax加载数据,我们可以从这里入手抓取我们想要的数据,通过浏览器调试工具:

响应的结果:

正是我们想要的结果,其中还包括了电影的封面和评分等信息,可谓相当的全面。




转载请注明:http://www.aierlanlan.com/tzrz/2884.html