推广 热搜: 行业  机械  设备    系统  教师  经纪  参数    蒸汽 

python爬虫之爬取多篇含有关键词的文章标题和内容

   日期:2024-11-10     移动:http://gzhdwind.xhstdz.com/mobile/quote/67057.html

python爬虫之爬取多篇含有关键词的文章标题和内容

在这里插入图片描述

输入想要搜索的关键字和输入关键字后的前几页页数(即输入关键字后跳转的网页的页数,如下图) 在这里插入图片描述 将包含关键字的文章标题和内容提取出来保存在一个txt文件里面(如下图,输入关键词为高新,前一页) 在这里插入图片描述

获取文章信息需要的库:beautifulsoup4,request

可以到w3cschool了解 打开维科闻网站输入关键词后,按F12开发者工具,或者右键点击查看源,就可以看到网页的源代码。

1.每个网页通过request请求获得网页源代码,再通过bs4(beautifulsoup)来对源代码进行提取信息; 2.先观察每次输入关键字之后网址的变化,如我输入高新,可以发现关键字在keywords=里面,那这样可以用input后,将关键字字符串和前面的网址连接起来。 在这里插入图片描述 在这里插入图片描述 3.观察每一页的网址变化,如第三页,可以发现页数是存在pagenum=里面的(第一页可能忽略了,你可以尝试的输入http://www.ofweek.com/newquery.action?keywords=高新&pagenum=1,发现会跳转第一页),这样就可以将页数和前面2拼接后的网址再拼接起来。 在这里插入图片描述 4.接下来就是看搜索关键词后网页的源代码(F12),可以发现每个文章都是在类名为zx-tl的div块标签里面,就可以通过select提取出里面的文章的标题和链接。 在这里插入图片描述 5.再将每页文章的链接访问一遍,提取出文章的内容,而再次打开每篇文章的链接,发现文章的内容都是在类名为artical-content的div块里面,通过select把文章的内容提取出来。

在这里插入图片描述 6.把文章的内容和标题写入txt文件。

本文地址:http://gzhdwind.xhstdz.com/quote/67057.html    物流园资讯网 http://gzhdwind.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号