如何读取html文件中的文字内容

PHP中文网 • 2025年3月8日 23:38:42 • 编程技术 • 阅读 2

要读取 HTML 文件中的文字内容，请执行以下步骤：加载 HTML 文件解析 HTML使用 text 属性或 get_text() 方法提取文本可选：清理文本（删除空白、特殊字符和转换小写）输出文本（打印、写入文件等）

如何读取 HTML 文件中的文字内容

要从 HTML 文件中提取文字内容，可以使用以下步骤：

1. 加载 HTML 文件

import requestsurl = 'https://example.com'response = requests.get(url)

登录后复制

2. 解析 HTML

立即学习“前端免费学习笔记（深入）”；

from bs4 import BeautifulSoupsoup = BeautifulSoup(response.text, 'html.parser')

登录后复制

3. 提取文字内容

有两种方法可以提取文字内容：

使用 text 属性：提取 HTML 标签内的所有文本，包括标签本身。

text = soup.text

登录后复制使用 get_text() 方法：提取 HTML 标签内的文本，但会忽略标签本身。

text = soup.get_text()

登录后复制

4. 清理文本内容（可选）

如果需要进一步清理文本内容，可以执行以下操作：

删除空白字符：

text = text.replace(' ', '')

登录后复制删除特殊字符：

import stringtext = text.translate(str.maketrans('', '', string.punctuation))

登录后复制转换为小写：

text = text.lower()

登录后复制

5. 输出文本内容

可以通过多种方式输出文本内容：

打印到控制台：

print(text)

登录后复制写入文件：

with open('output.txt', 'w') as f:    f.write(text)

登录后复制

以上就是如何读取html文件中的文字内容的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2812512.html

Python

0 0

关于作者

PHP中文网签约作者

451.4K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

html如何获取数据

上一篇 2025年3月8日 23:38:40

php ajax写法

下一篇 2025年2月23日 11:31:38

编程技术

html文件怎么转换成表格

如何将 HTML 文件转换为表格？直接方法：使用 HTML 转表格转换器（在线或桌面应用程序）手动方法：将 HTML 文件粘贴到电子表格软件中使用“分隔符”功能分隔数据整理数据、添加表头并格式化单元格如何将 HTML 文件转换为表格直接…

PHP中文网
2025年3月8日
2000
编程技术

html属于什么编程语言

HTML 不是一种编程语言，而是一种标记语言，用于定义网页的结构，例如标题、段落和图像，它不控制程序执行，不处理数据或执行计算。 HTML 是什么编程语言 HTML（超文本标记语言）是一种标记语言，而不是一种编程语言。为什么 HTML 不…

PHP中文网
2025年3月8日
2000
编程技术

html前端和后端的区别

HTML前端负责用户界面、交互和样式，使用HTML、CSS和JavaScript，在客户端浏览器中呈现网页。而后端处理业务逻辑、数据管理以及与前端的交互，使用Java、Python和Node.js等技术栈，运行在服务器上，对用户不可见。 H…

PHP中文网
2025年3月8日
2000
编程技术

html怎么上传文件

可以使用 HTML 中的元素上传文件，其 type 属性需设置为 “file”，并可设置 name 和 accept 属性来指定文件名称和接受的文件类型。此外，可以通过 HTML 表单或 JavaScript 来处…

PHP中文网
2025年3月8日
2000
编程技术

html标记怎么去除

有多种方法可以去除 HTML 标记：使用正则表达式，匹配并替换所有 HTML 标记 ()使用 HTML 解析库（如 BeautifulSoup），解析文档并提取文本内容手动删除 HTML 标记，找到并替换所有以结尾的标记> ↩ 如何…

PHP中文网
2025年3月8日
2000
编程技术

批量生成 HTML 页面：为什么 webpack 不是最佳选择？

批量生成 html 页面：webpack 的限制批量生成 HTML 页面时，webpack 并不是理想的选择。它更适用于构建单一的应用程序，而不是生成多个静态页面。相反，有其他工具和技术更适合此任务：替代方案：Gulp 或 Node.j…

PHP中文网
2025年3月8日
2000
编程技术

如何在 HTML 页面中显示 """ 符号？

如何在页面中显示 “” 符号？这个怎么在页面显示出来？回答：为了防止 HTML 解释 “” 符号并将其视为换行符，我们需要使用转译标识。在 Python 中，转译标识是反斜杠 ()，这表…

PHP中文网
2025年3月8日
2000
编程技术

实时流式消息的代码高亮显示：如何使用 highlight.js 在前端实现？

实时流式消息的高亮显示在构建实时通信应用时，前端后端经常通过 WebSocket 等通信协议进行交互。后端可能会以流式方式返回消息，就像 ChatGPT 官网的回答一样。对于前端开发人员来说，一个常见的挑战是如何对后端返回的代码片段进行高…

PHP中文网
2025年3月8日
2000
编程技术

如何解决标签包裹代码时，换行解析到标签外部的问题？

标签如何解决代码解析至外边的text节点问题？在使用标签包裹代码时，浏览器有时会将换行代码解析到标签外，形成text节点。导致代码无法正常高亮或呈现。解决方案问题产生于后端返回的数据是一个包含各行代码的数组。将数组拼接成一个完整的字符…

PHP中文网
2025年3月8日
2000
编程技术

网页源代码与页面内容不一致，如何获取实时更新的动态内容？

如何解决爬虫中网页源代码与页面内容不一致的问题在爬取网页数据时，有时我们会遇到网页源代码与实际页面内容不一致的情况。例如，在爬取 58 同城工作页面时，你发现网页源代码中显示申请人数和浏览人数为 0，但页面上这些数字却在实时更新。造成这…

PHP中文网
2025年3月8日
2000