相关文章
Python爬虫实战:电影天堂关键词搜索获取片源信息及下载种子
2024-11-03 02:45

根据学习的爬虫视频实战项目,进行的扩展实战

Python爬虫实战:电影天堂关键词搜索获取片源信息及下载种子

原实战实现功能:爬取主页电影排行榜片源信息及下载种子

扩展实现功能:破解反爬策略,根据搜索关键字,获取查找出来的片源信息列表以及下载种子

首先获取搜索的请求链接,查看请求参数

多进行几次请求,发现除了参数,其他的参数每次都是固定的,可知即为我们输入的搜索关键字转码而来,这里使用的是编码的方式

搜索请求返回一个数据,我们采用来进行数据提取,获取以及

点击进入详情页,发现详情页的页面地址就等于:

我们再对每个片源的详情页进行访问,用BeautifulSoup提取出对应的下载种子即可

如果直接用库直接对网页进行请求,每次返回都是

这是因为网站有做反爬,具体的解决方法可以参考破解反爬虫策略 /_guard/auto.js(一) 原理

requests 是一个非常流行且强大的 Python 库,用于发送 HTTP 请求。

请求里面的关键参数主要是headers中的user-agent和cookies中的

当请求返回为时,响应数据中会返回一个的cookie,通过对的加密处理,会返回一个的cookie,带着它再一次进行请求,响应数据中就会返回啦

拿到就可以正常进行网络请求啦,所以主要难点就是对中加密方法的处理

主要是对auto.js文件进行反混淆处理,提取出生成的关键代码,具体操作参考破解反爬虫策略 /_guard/auto.js(一) 原理,反混淆处理后的关键代码如下:

拥有一个获取的方法,剩下就是按照上面获取逻辑来处理cookie啦

ExecJS 是一个 Python 库,它允许你直接在 Python 中执行 Javascript 代码

对于查询的关键字,请求前需要对内容进行转码处理,具体如下:

urllib.parse 是 Python 标准库中的一个模块,专门用于处理 URL 的解析、合成、编码和解码操作。

通过和对页面数据进行分析,获取、、

BeautifulSoup 是一个用于解析 HTML 和 XML 文件的 Python 库,通常用于网页抓取(Web Scraping)
re 是 Python 的正则表达式模块,用于在字符串中执行模式匹配操作。

函数处理了页面查询数据,获取了对应的详情页的路径,通过函数获取详情页的数据,得到每个片源的种子数据

获取了数据,当然要进行保存操作啦,这里用文件对爬取的数据进行保存

csv 是 Python 标准库中的一个模块,用于处理 CSV(逗号分隔值)文件。它提供了方便的工具来读取和写入 CSV 格式的数据,非常适合处理结构化数据。

启动程序,爬虫顺利运行,下面是运行效果:

爬取数据也顺利保存进本地csv文件

    以上就是本篇文章【Python爬虫实战:电影天堂关键词搜索获取片源信息及下载种子】的全部内容了,欢迎阅览 ! 文章地址:http://gzhdwind.xhstdz.com/news/243.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://gzhdwind.xhstdz.com/mobile/ , 查看更多   
最新文章
99%亚马逊运营都不知道的“以图找同款”功能!
亚马逊已与各大社交媒体平台达成了合作,在社媒平台的分享按钮中,多了一个亚马逊图标。大家可以理解为:从社媒平台到亚马逊平台
如何通过百度网站链接提交提升企业在搜索引擎中的知名度与排名
目前,数字化新时代盛行之际,网络的广泛应用使得网站成为企业展现自身、招揽顾客及拓展市场的重要载体。然而,仅有网站并非万能
电脑磁盘分区格式GPT和MBR哪个好 电脑磁盘分区格式GPT和MBR对比【详解】
  最近不少用户在安装电脑的时候经常会安装新的电脑硬盘,在新的电脑硬盘安装的时候,电脑都会提示用户需要进行初始化磁盘,并
百度seo排名优化是什么?
在当今这个数字化和信息化的时代,搜索引擎已经成为人们获取信息、寻找服务的重要工具。百度,作为中国非常大的搜索引擎,其排名
永州SEO优化,企业品牌腾飞的关键策略
永州SEO推广排名,助力企业品牌崛起。通过优化关键词、提升网站质量、布局搜索引擎算法,提高企业网站在搜索引擎中的排名,吸引
百度新网站收录揭秘:内容质量决定速度,SEO优化引爆排名
百度新网站收录情况近期,公众重点关注了百度搜索引擎针对新型网站的收录状况。作为网站主与网络市场推广从业者,网站于搜索引擎
SEO营销咨询,企业互联网转型的高效秘籍
SEO营销咨询,企业互联网转型的得力助手!我们提供专业的SEO策略,提升网站排名,增强网络曝光,助力企业高效转型,抢占市场先机
电商seo做法 电商SEO优化实战技巧揭秘
电商SEO:解锁流量与转化的秘密武器在当今这个数字化时代,电子商务已成为全球经济不可或缺的一部分随着市场竞争的日益激烈,如
2024年最顶尖的AI驱动SEO工具|TodayAI
在当今数字营销的竞争环境中,获得搜索引擎的高排名至关重要,因为它直接关联到网站的有机流量和品牌的在线影响力。
AI在创造还是毁掉音乐?深度学习时代的音乐变革
近一个月来,音乐界迎来了一场由人工智能主导的变革。随着多个音乐大模型的相继亮相,AI技术一举将音乐创作的门槛降