用Python网络爬虫来看看最近电影院都有哪些上映的电影

PHP中文网 • 2025年2月26日 14:14:39 • 编程技术 • 阅读 2

/1 前言/

猫眼电影是淘宝联合打造电影分类最全的电影的平台，能够第一时间告知用户，最新的电影上线时间。今天教大家获取猫眼电影的即将上映的电影详情。

用Python网络爬虫来看看最近电影院都有哪些上映的电影

/2 项目目标/

获取猫眼电影的即将上映的电影详情。

/3 项目准备/

软件：PyCharm

需要的库：requests、lxml、random、time

插件：Xpath

网站如下：

https://maoyan.com/films?showType=2&offset={}

登录后复制

点击下一页的按钮，观察到网站的变化分别如下：

https://maoyan.com/films?showType=2&offset=30https://maoyan.com/films?showType=2&offset=60https://maoyan.com/films?showType=2&offset=90

登录后复制

点击下一页时，页面每增加一页offset=()每次增加30，所以可以用{}代替变换的变量，再用for循环遍历这网址，实现多个网址请求。

/4 项目实现/

1、定义一个class类继承object，定义init方法继承self，主函数main继承self。导入需要的库和网址，代码如下所示。

import requestsfrom lxml import etreeimport timeimport randomclass MaoyanSpider(object):    def __init__(self):      self.url = "https://maoyan.com/films?showType=2&offset={}"    def main(self):        passif __name__ == '__main__':    spider = MaoyanSpider()    spider.main()

登录后复制

2、随机产生UserAgent。

 for i in range(1, 50):    # ua.random,一定要写在这里,每次请求都会随机选择。        self.headers = {            'User-Agent': ua.random,        }

登录后复制

3、发送请求，获取页面响应。

def get_page(self, url):  # random.choice一定要写在这里,每次请求都会随机选择  res = requests.get(url, headers=self.headers)  res.encoding = 'utf-8'  html = res.text  self.parse_page(html)

登录后复制

4、xpath解析一级页面数据，获取页面信息。

1）基准xpath节点对象列表。

 # 　创建解析对象parse_html = etree.HTML(html)# 基准xpath节点对象列表dd_list = parse_html.xpath('//dl[@class="movie-list"]//dd')

登录后复制

2）依次遍历每个节点对象，提取数据。

 for dd in dd_list:    name = dd.xpath('.//div[@class="movie-hover-title"]//span[@class="name noscore"]/text()')[0].strip()    star = dd.xpath('.//div[@class="movie-hover-info"]//div[@class="movie-hover-title"][3]/text()')[1].strip()    type = dd.xpath('.//div[@class="movie-hover-info"]//div[@class="movie-hover-title"][2]/text()')[1].strip()    dowld=dd.xpath('.//div[@class="movie-item-hover"]/a/@href')[0].strip()    # print(movie_dict)    movie = '''【即将上映】

登录后复制

5、定义movie，保存打印数据。

 movie = '''【即将上映】            电影名字: %s主演：%s类型：%s详情链接：https://maoyan.com%s=========================================================                                   ''' % (name, star, type,dowld)print( movie)

登录后复制

6、random.randint()方法，设置时间延时。

time.sleep(random.randint(1, 3))

登录后复制

7、调用方法，实现功能。

html = self.get_page(url)self.parse_page(html)

登录后复制

/5 效果展示/

1、点击绿色小三角运行输入起始页，终止页。

用Python网络爬虫来看看最近电影院都有哪些上映的电影

2、运行程序后，结果显示在控制台，如下图所示。

用Python网络爬虫来看看最近电影院都有哪些上映的电影

3、点击蓝色下载链接, 网络查看详情。

用Python网络爬虫来看看最近电影院都有哪些上映的电影

/6 小结/

1、不建议抓取太多数据，容易对服务器造成负载，浅尝辄止即可。

2、本文基于Python网络爬虫，利用爬虫库，实现爬取猫眼电影。

以上就是用Python网络爬虫来看看最近电影院都有哪些上映的电影的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2229960.html

Python

0 0

关于作者

PHP中文网签约作者

259.9K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

手把手教你使用Flask搭建ES搜索引擎(实战篇)

上一篇 2025年2月26日 14:14:32

php中的选择结构语句是什么意思

下一篇 2025年2月24日 11:12:33

使用Python和百度地图API实现出行费用计算功能的方法

使用python和百度地图api实现出行费用计算功能的方法在现代社会，出行已经成为人们生活中不可或缺的一部分。随着科技的发展，人们对于出行的需求越来越高，不仅仅是追求便利与舒适，还希望在经济方面能够得到更多的保障。因此，出行费用计算功能成…

PHP中文网
编程技术 2025年2月26日
2000
Python 2.x 中如何使用sys模块退出程序

python 2.x 中如何使用sys模块退出程序在 Python 的开发过程中，有时候我们需要在程序中主动退出，无论是因为发生了错误，还是完成了某个任务。Python 的内置 sys 模块提供了一种简单的方法来退出程序。一般来说，Py…

PHP中文网
编程技术 2025年2月26日
2000
Python 2.x 中如何使用urllib.urlencode()函数对参数进行编码

python 2.x 中如何使用urllib.urlencode()函数对参数进行编码在编程过程中，我们经常需要与服务器进行交互并传递参数。而传递参数的过程中，我们需要对参数进行合适的编码，以确保数据的正确传输和解析。Python 提供了…

PHP中文网
编程技术 2025年2月26日
2000
Python 3.x 中如何使用print()函数输出内容到控制台

python 3.x 中如何使用print()函数输出内容到控制台在Python中，print()函数是一个非常常用的函数，它可以将指定的内容输出到控制台。本文将详细介绍如何使用print()函数来实现这一功能，并附上相应的代码示例。首…

PHP中文网
编程技术 2025年2月26日
2000
Python 3.x 中如何使用requests模块进行HTTP请求

python 3.x 中如何使用 requests 模块进行 http 请求概述：在开发和构建现代化的Web应用程序时，经常需要与外部资源进行交互，而 HTTP 是最常用的协议之一。Python 提供了许多库来进行 HTTP 请求，其中最…

PHP中文网
编程技术 2025年2月26日
2000
Python 3.x 中如何使用write()函数向文件写入内容

python 3.x 中如何使用write()函数向文件写入内容在Python编程中，有时我们需要将数据写入文件中，以便以后使用或与其他人分享。Python中的write()函数就是用来实现这个功能的。本文将介绍如何在Python 3.x…

PHP中文网
编程技术 2025年2月26日
2000
Python 2.x 中如何使用paramiko模块进行SSH客户端编程

python 2.x 中如何使用paramiko模块进行ssh客户端编程概述:paramiko是一个用于Python编程语言的SSHv2协议实现。它提供了一个高级别的API，使得编写SSH2协议的客户端和服务器端应用程序变得容易。在本文中…

PHP中文网
编程技术 2025年2月26日
2000
Python 3.x 中如何使用json模块将Python对象转换为JSON字符串

python 3.x 中如何使用 json 模块将 python 对象转换为 json 字符串 JSON（JavaScript Object Notation）是一种常见的数据交换格式，广泛应用于前后端数据传输和存储。Python 提供了 …

PHP中文网
编程技术 2025年2月26日
2000
Python 2.x 中如何使用enum模块定义枚举类型

python 2.x 中如何使用enum模块定义枚举类型引言：枚举是一种数据类型，它将变量的取值限定在一个有限的范围内，使用枚举类型可以使代码更加清晰和可读。在Python 2.x中，我们可以使用enum模块来定义枚举类型。本文将介绍如何…

PHP中文网
编程技术 2025年2月26日
2000
Python 2.x 中如何使用file()函数创建文件对象

python 2.x 中如何使用file()函数创建文件对象 Python 是一种简单而强大的编程语言，广泛用于数据处理、网络编程、自动化脚本等各种应用领域。在 Python 2.x 版本中，我们可以使用file()函数来创建文件对象，并对…

PHP中文网
编程技术 2025年2月26日
2000

发表回复

登录后才能评论

用Python网络爬虫来看看最近电影院都有哪些上映的电影

2、随机产生UserAgent。

3、发送请求，获取页面响应。

4、xpath解析一级页面数据，获取页面信息。

2）依次遍历每个节点对象，提取数据。

5、定义movie，保存打印数据。

6、random.randint()方法，设置时间延时。

7、调用方法，实现功能。

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

AD推荐黄金广告位招租... 更多推荐