推广 热搜： 行业机械设备杯系统教师经纪参数金蒸汽

如何用python爬取公众号文章搜狗微信搜索_基于搜狗微信搜索的微信公众号爬虫 – we......

日期：2024-12-19 移动：http://gzhdwind.xhstdz.com/mobile/quote/84884.html

基于搜狗微信搜索的微信公众号爬虫

项目简介

基于搜狗微信搜索的微信公众号爬虫可以抓取指定公众号的文章信息

项目使用

一、使用说明

1、在mysql数据库中创建数据库，比如Jubang,数据格式为utf8mb4，然后导入jubang.sql文件，创建对应的数据库表

2、修改config.py文件中对应的设置，打码平台配置ruokuai这个一定要设置，否则出现验证码就不能正常工作了

3、python对应的库的安装好，pymysql、request、lxml、PIL、werkzeug等

4、手动或自动在add_mp_list表中增加数据，然后运行auto_add_mp.py文件。比如可以这样用：给auto_add_mp.py设定一个定时任务，5分钟或10分钟，然后前台页面文件让使用者添加待抓取的公众号信息，然后定时任务执行时就可以把这些公众号加入待抓取列表了 add_mp_list中 name字段是模糊抓取，会根据输入的名称模糊加入10个公众号 wx_hao字段是精确抓取，这个是公众号的微信号，只抓取一个这两个字段可以任意填入一个就行

5、执行updatemp.py文件，文件说明看后面。使用中可以给该文件设定定时任务30分钟或其它间隔，每隔一定时间，运行该文件就会抓取已添加的公众号是否有新文章发出来。第一次使用会抓取公众号的最近10条群发数据

6、执行updatewenzhang.py文件，该文件是抓取文章阅读及点攒数的。最新的数据会写入wenzhang_info表中，并且会在表wenzhang_statistics中添加增量记录，可以根据wenzhang_statistics表中的数据生成曲线图使用中可以给该文件添加5分钟或其它时间的定时任务，这样就可以来生成对应的阅读曲线图了

二、文件说明

1、updatemp.py 该文件遍历待抓取列表(数据库表：mp_info)，查询表中的公众号是否有新文章发布，如果有，就抓取新的文章信息并放入数据库表wenzhang_info中

2、updatewenzhang.py 该文件遍历文章表，然后抓取24小时之内的文章阅读数据存入表wenzhang_info和表wenzhang_statistics中

本文地址：http://gzhdwind.xhstdz.com/quote/84884.html 物流园资讯网 http://gzhdwind.xhstdz.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行