Request 和 BeautifulSoup 是可以在线下载任何文件或 PDF 的 Python 库。请求库用于发送 HTTP 请求和接收响应。 BeautifulSoup 库用于解析响应中收到的 HTML 并获取可下载的 pdf 链接。在本文中,我们将了解如何在 Python 中使用 Request 和 Beautiful Soup 下载 PDF。
安装依赖项
在 Python 中使用 BeautifulSoup 和 Request 库之前,我们需要使用 pip 命令在系统中安装这些库。要安装 request 以及 BeautifulSoup 和 Request 库,请在终端中运行以下命令。
pip install requestspip install beautifulsoup4
登录后复制
使用 Request 和 Beautiful Soup 下载 PDF
要从互联网下载 PDF,您需要首先使用请求库找到 pdf 文件的 URL。然后我们可以使用 Beautiful Soup 解析 HTML 响应并提取 PDF 文件的链接。然后将基本 URL 和解析后收到的 PDF 链接结合起来,得到 PDF 文件的 URL。现在我们可以使用request方法发送Get请求来下载文件了。
示例
在下面的代码中,将包含 PDF 文件 URL 的页面的有效 URL 放在“https://example.com/document.pdf”处
立即学习“Python免费学习笔记(深入)”;
import requestsfrom bs4 import BeautifulSoup# Step 1: Fetch the PDF URLurl = 'https://example.com/document.pdf'response = requests.get(url)if response.status_code == 200: # Step 2: Parse the HTML to get the PDF link soup = BeautifulSoup(response.text, 'html.parser') link = soup.find('a')['href'] # Step 3: Download the PDF pdf_url = url + link pdf_response = requests.get(pdf_url) if pdf_response.status_code == 200: with open('document.pdf', 'wb') as f: f.write(pdf_response.content) print('PDF downloaded successfully.') else: print('Error:', pdf_response.status_code)else: print('Error:', response.status_code)
登录后复制
输出
PDF downloaded successfully.
登录后复制
结论
在本文中,我们讨论了如何使用 Python 中的 Request 和 Beautiful Soup 库从互联网下载 PDF 文件。通过 request 方法,我们可以发送 HTTP 请求来验证 PDF 链接。一旦找到包含 PDF 文件链接的页面,我们就可以使用 Beautiful Soup 下载解析页面并获取 PDF 可下载链接。
以上就是使用Python的Requests和BeautifulSoup下载PDF文件的详细内容,更多请关注【创想鸟】其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。
发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2225882.html