百度百科网页爬取结果为空，如何解决HTTP重定向问题？

PHP中文网 • 2025年3月5日 18:27:59 • 编程技术 • 阅读 2

百度百科网页爬取：解决HTTP重定向导致结果为空的问题

本文分析了使用lxml库和xpath表达式爬取百度百科信息时，因HTTP重定向导致结果为空的问题，并提供了解决方案。代码中使用了urllib.request库，但该库的urlopen函数默认不处理重定向，导致爬取失败。

以下代码片段展示了问题所在：

import urllib.requestimport urllib.parsefrom lxml import etreedef query(content):    url = 'https://baike.baidu.com/item/' + urllib.parse.quote(content)    headers = {        'user-agent': 'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/67.0.3396.99 safari/537.36'    }    req = urllib.request.Request(url=url, headers=headers, method='GET') # 使用Request对象    try:        response = urllib.request.urlopen(req)        text = response.read().decode('utf-8')        html = etree.html(text)        sen_list = html.xpath('//div[contains(@class,"lemma-summary") or contains(@class,"lemmawgt-lemmasummary")]//text()')        sen_list_after_filter = [item.strip('') for item in sen_list]        return ''.join(sen_list_after_filter)    except urllib.error.HTTPError as e:        print(f"HTTP Error: {e.code} - {e.reason}")        return Noneif __name__ == '__main__':    while True:        content = input('查询词语：')        result = query(content)        if result:            print("查询结果：%s" % result)        else:            print("查询失败")

登录后复制

如代码所示，当搜索“叶挺”时，由于百度百科链接重定向到/item/%e5%8f%b6%e6%8c%ba/299649，原始代码无法获取正确页面，导致结果为空。

解决方案：

为了解决这个问题，我们需要让代码能够跟随重定向。虽然urllib.request.urlopen可以设置follow_redirects=True，但更稳妥的方法是使用urllib.request.Request对象，并结合异常处理：

import urllib.requestimport urllib.parsefrom lxml import etree# ... (rest of the code remains the same)

登录后复制

改进后的代码增加了错误处理，能够捕获HTTP错误并返回None，避免程序崩溃。使用Request对象可以更清晰地控制请求，并且更易于处理各种HTTP状态码。通过这些改进，爬虫程序就能正确处理重定向，获取到百度百科页面的内容。

以上就是百度百科网页爬取结果为空，如何解决HTTP重定向问题？的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2526274.html

AI baidu red windows

0 0

关于作者

PHP中文网签约作者

362.3K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

如何在PyCharm中轻松运行FastAPI服务器？

上一篇 2025年3月5日 18:27:53

字节跳动用golang吗

下一篇 2025年3月2日 00:37:20

互联网

如何无U盘传输文件

在没有 U 盘的情况下传输文件，可用方法有：网络共享：可通过 Wi-Fi 直连或局域网共享传输文件。云存储服务：可将文件上传到 Google Drive 等云盘，然后在其他设备下载。电子邮件：可将压缩包作为附件发送，最大限度不超过附件大小限…

PHP中文网
2025年3月5日
2000
编程技术

如何在PyCharm中轻松运行FastAPI服务器？

轻松运行PyCharm中的FastAPI服务器！本文介绍两种便捷方法，助您告别命令行，直接在PyCharm中启动FastAPI应用。方法一：直接在代码中启动服务器此方法需要修改您的main.py文件，在代码中直接调用uvicorn.ru…

PHP中文网
2025年3月5日
2000
编程技术

如何便捷地访问和操作Python深层嵌套字典？

高效处理Python深层嵌套字典本文探讨高效访问和操作Python深度嵌套字典的方法，尤其针对处理JSON数据或类似结构数据场景，避免冗余代码。我们将改进和扩展基于属性树访问和路径支持的方案。方法一：属性树访问通过属性访问（例如my_…

PHP中文网
2025年3月5日
2000
编程技术

百度百科网页爬取XPath返回空值：如何解决302重定向问题？

百度百科网页爬取XPath返回空值：302重定向及解决方案在使用XPath爬取百度百科数据时，经常会遇到XPath表达式返回空值的情况。本文将深入分析导致此问题的一个常见原因——302重定向，并提供相应的Python代码解决方案。问题描…

PHP中文网
2025年3月5日
2000
编程技术

Windows系统下Python select模块的IO多路复用：为什么文件句柄会报错？

Python select模块与IO多路复用：Windows系统的兼容性问题在使用Python进行IO多路复用时，特别是使用select模块同时监听套接字和文件句柄，可能会在Windows系统上遇到问题。本文将分析在Windows系统下使…

PHP中文网
2025年3月5日
2000
编程技术

Python下载法兰克福证券交易所Blob URL数据时，如何解决文件大小异常和内容不可读的问题？

从法兰克福证券交易所下载数据：解决Blob URL下载问题许多开发者在使用Python下载网络文件时，常常会遇到Blob URL导致文件大小异常或内容无法读取的问题。本文将以法兰克福证券交易所的Excel文件下载为例，演示如何使用Pyth…

PHP中文网
2025年3月5日
2000
编程技术

macOS下如何高效管理Python环境避免全局Python设置冲突？

macOS系统下Python环境高效管理策略在macOS系统中，尤其是在同时使用Homebrew、conda等多种Python安装方式时，管理Python环境可能变得复杂，全局Python设置冲突也时有发生。本文将针对一个用户在Monte…

PHP中文网
2025年3月5日
2000
编程技术

如何优雅地访问和修改Python中深度嵌套的字典？

高效处理Python深度嵌套字典在处理JSON数据或其他涉及深度嵌套字典的Python程序中，直接访问和修改深层嵌套的值往往繁琐冗长。本文介绍一种更优雅的方法，避免冗余代码，并改进现有的dotdictify解决方案。原始dotdicti…

PHP中文网
2025年3月5日
2000
编程技术

macOS下VS Code为何识别错误的Python全局解释器？

macOS系统下VS Code Python解释器识别问题及解决方案在macOS系统中，尤其是在使用Homebrew、conda等工具安装多个Python版本后，VS Code可能会错误识别Python全局解释器。本文将以Monterey…

PHP中文网
2025年3月5日
2000
编程技术

Python-Binance期货交易：如何避免APIError(code=-1111)精度错误？

Python-Binance期货交易：深度解析并解决精度错误APIError(code=-1111) 使用python-binance库进行Binance期货交易时，经常会遇到APIError(code=-1111): precision …

PHP中文网
2025年3月5日
2000