Python爬虫如何完整提取包含在超链接中的网页文本？

PHP中文网 • 2025年3月31日 09:56:14 • 编程技术 • 阅读 1

Python爬虫：完整提取超链接中的网页文本

在使用Python爬虫抓取网页信息时，经常遇到文本嵌套在标签中的情况。直接使用text()方法会忽略标签内的内容，导致信息丢失。本文提供一种解决方案，确保完整提取所有文本信息。

问题：

爬取新闻网站时，部分文本位于标签内，导致XPath表达式//div[@class=”f14 l24 news_content mt25zoom”]/p/text()无法完整提取文本。“绿色发展”等词语因嵌套在标签中而被遗漏。

立即学习“Python免费学习笔记（深入）”；

原始代码使用//div[@class=”f14 l24 news_content mt25zoom”]/p/text()仅提取文本节点，忽略标签及其内容。

解决方案：

修改XPath表达式并进行节点类型判断，分别处理文本节点和标签节点。

首先，将XPath表达式修改为//div[@class=”f14 l24 news_content mt25 zoom”]/p//node()。//node()提取所有子节点，包括文本节点和标签。

然后，遍历所有节点，判断节点类型。如果是文本节点，直接提取文本；如果是标签节点，提取标签的文本内容。

改进后的代码如下：

import requestsfrom lxml import etreebase_url = "https://www.solidwaste.com.cn/news/342864.html"resp = requests.get(url=base_url)html = etree.HTML(resp.text)# 稳健的编码处理encod = html.xpath('//meta[1]/@content')if encod:    encod = encod[0].split("=")[-1]    resp.encoding = encod    html = etree.HTML(resp.text)content = html.xpath('//div[@class="f14 l24 news_content mt25 zoom"]/p//node()')content_deal = ""for node in content:    if isinstance(node, etree._ElementUnicodeResult):        content_deal += node.strip() + "\n"    elif isinstance(node, etree._Element) and node.tag == 'a':        content_deal += node.text.strip() + "\n"print(content_deal)

登录后复制

通过以上改进，代码能够完整提取标签内的文本内容，避免信息丢失。代码中对编码处理进行了优化，避免了因=号重复出现导致的错误。

以上就是Python爬虫如何完整提取包含在超链接中的网页文本？的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/3170630.html

Python

0 0

关于作者

PHP中文网签约作者

568.5K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

如何用Python高效定位动态网页中隐藏的特定文件？

上一篇 2025年3月31日 09:56:11

Redis集群下，Python客户端该怎么选？

下一篇 2025年3月31日 09:56:16

互联网

AI原生工具编程网站全球前十名盘点（2025更新）

全球知名的AI原生编程工具网站包括：1. GitHub Copilot：由GitHub与OpenAI合作，支持多种语言，生成能力强。2. Amazon CodeWhisperer：亚马逊推出，支持多语言和IDE，集成AWS资源。3. Sou…

PHP中文网
2025年4月30日
0000
互联网

智能编程软件排行榜 2025十大ai智能编程软件推荐

推荐的十大 ai 智能编程软件包括：1. github copilot，2. tabnine，3. replit，4. codeium，5. kite，6. 通义灵码，7. 豆包编程助手，8. 文心一言 – 文心快码，9. 腾讯…

PHP中文网
2025年4月30日
0000
编程技术

怎样在命令行中运行 HTML 文件预览

在命令行中预览 html 文件可以使用浏览器的命令行接口或启动本地服务器。1. 使用 firefox 或 chrome 命令行接口：firefox index.html 或 google-chrome index.html。2. 使用 py…

PHP中文网
2025年4月30日
0000
编程技术

如何在 PyCharm 中运行 HTML 文件

在 pycharm 中运行 html 文件可以通过右键点击文件并选择 “open in browser” 来实现。具体步骤包括：1) 右键点击 html 文件，2) 选择 “open in browser…

PHP中文网
2025年4月30日
0000
互联网

普通人做APP开发有哪些方式？

在当今的数字化时代，app开发不再是专业人士的专利，普通人也能够通过多种途径参与其中。本文将探讨几种适合普通人的app开发方法，帮助更多人实现自己的创意和梦想。 1. 借助低代码/无代码平台低代码/无代码平台为开发者和非开发者提供了通过图…

PHP中文网
2025年4月30日
0000
互联网

Android开发鲜花商城

开发一个android鲜花商城需要多方面的考虑和技术实施。以下是主要步骤和技术的详细说明：需求分析和功能定义：确定应用程序的核心功能，包括用户注册、浏览花卉、购买、支付、订单管理以及推荐系统等。通过用户体验设计，确保应用程序的界面友好且易…

PHP中文网
2025年4月30日
0000
互联网

使用Streamlit快速搭建和共享交互式应用

streamlit 是一个用于快速构建数据驱动的交互式网络应用的python库。它简化了数据应用的创建过程，使得用户能够通过少量python代码快速搭建并共享应用。以下是使用 streamlit 快速搭建和共享交互式应用的一般步骤：步骤：…

PHP中文网
2025年4月30日
0000
互联网

从入门到精通：让你成为软件制作的行家里手

在这个数字化时代，掌握软件开发技能已成为一项重要的能力。如果你曾经望着电脑屏幕，渴望自己也能开发出一款软件，那么你来对地方了。今天，我将带你从零开始，逐步成为apppark.cn/”>软件制作的专家。首先，我们要克服对代…

PHP中文网
2025年4月30日
0000
编程技术

Java、Python和C 的区别是什么？

Java、Python、C 的区别深度解析在选择编程语言时，我们常常会面临Java、Python和C 这三种常见且广泛使用的语言。那么，这三者之间有何不同呢？让我们深入探讨一下。首先，从语言类型来看，Java和C 属于静态类型语言，而P…

PHP中文网
2025年4月30日
0000
互联网

构建成功的手机应用需要哪些技术人才？

构建成功的手机应用需要一系列具有不同技能的技术人才，以满足从前端开发到后端服务、设计和运维等多方面的需求。以下是构建手机应用所需的主要技术人才：移动应用开发人员： iOS开发者：熟练掌握Swift或Objective-C等iOS开发语言。…

PHP中文网
2025年4月30日
0000