Java正则表达式如何从文本中提取特定URL？

PHP中文网 • 2025年3月13日 15:47:20 • 编程技术 • 阅读 2

Java正则表达式：高效提取文本中的特定URL

在Java开发中，从大量文本数据中提取符合特定模式的内容是常见需求。正则表达式为此提供了高效的解决方案。本文将通过示例演示如何使用Java正则表达式从HTML文本中提取特定URL。

问题： 从HTML文本中提取所有以”www.”开头，并以”.com”或”.cn”结尾的URL。

示例及解析：

立即学习“Java免费学习笔记（深入）”；

由于提供的HTML文本片段

++++++++++++++++++++++++++++++++++++++++++++
++++++++++++++++++++++++++++++++++++++++++++

不包含目标URL，我们将使用一个更合适的示例：

String html = "www.baidu.comwww.qq.comwww.aaa.cnwww.eee.cn";String regEx = "www\.\w+\.(com|cn)"; //改进后的正则表达式Pattern pattern = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);Matcher matcher = pattern.matcher(html);while (matcher.find()) {    System.out.println(matcher.group());}

登录后复制

这段代码首先定义一个包含多个URL的字符串html。 regEx 是改进后的正则表达式：

www\.：匹配”www.”，\用于转义特殊字符.。\.\w+\.：匹配”.任意字母数字字符+. “，\w+ 匹配一个或多个字母数字字符（更精确地匹配域名）。(com|cn)：匹配”.com”或”.cn”。

Pattern.compile() 编译正则表达式，Pattern.CASE_INSENSITIVE 忽略大小写。 matcher.find() 查找下一个匹配，matcher.group() 返回匹配的字符串。

运行结果：

www.baidu.comwww.qq.comwww.aaa.cnwww.eee.cn

登录后复制

该代码成功提取所有符合条件的URL。通过修改正则表达式，可以灵活地匹配不同模式的文本，展现了Java正则表达式在文本处理中的强大功能。

改进说明: 原示例中的正则表达式www.*?(com|cn) 使用了非贪婪匹配*?，虽然也能工作，但在处理更复杂的URL时可能不够精确。改进后的正则表达式www\.\w+\.(com|cn) 更精确地匹配了以”www.”开头的域名，避免了误匹配。

以上就是Java正则表达式如何从文本中提取特定URL？的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/3045049.html

AI 气球

0 0

关于作者

PHP中文网签约作者

509.4K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

净化HTML，守护网站安全：Mews/Purifier 的应用实践

上一篇 2025年3月13日 15:47:18

XML转换成图片的性能如何优化？

下一篇 2025年3月5日 00:20:35

编程技术

如何高效检索Linux Node.js日志

本文介绍几种高效检索Linux系统Node.js应用日志的方法，助您快速定位问题。一、命令行工具 grep 命令：精准搜索日志。使用正则表达式可实现更复杂的搜索。例如：grep -r “error” /var/l…

PHP中文网
2025年3月13日
2000
编程技术

Java正则表达式如何高效提取特定文本？

Java正则表达式：高效文本提取技巧在Java开发中，经常需要从文本中提取特定格式的信息。正则表达式为此提供了一种高效的解决方案。本文将演示如何使用Java正则表达式从文本中提取目标内容，并附带示例代码。假设我们需要从HTML代码中提取…

PHP中文网
2025年3月13日
2000
高效过滤脏话：arif-rh/profanity-filter 库的使用指南

在构建一个用户评论功能时，我需要一个可靠的方法来过滤掉包含脏话和不当言论的评论。最初，我尝试使用简单的字符串替换，但这很容易被用户利用各种变体绕过。例如，“badword”可以被替换成“b@dword”、“b-a-d-w-o-r-d”等等。…

PHP中文网
编程技术 2025年3月13日
2000
高效提升Drupal 8项目：kgaut/kgaut_tools库的实践

最近我负责一个drupal 8项目，需要处理大量的用户提交数据和多语言翻译。其中，字符串清理和翻译导入成为了主要的痛点。用户提交的数据经常包含各种特殊字符，需要进行规范化处理才能用于数据库存储和页面展示。同时，我们需要一个高效的方式来导入不…

PHP中文网
编程技术 2025年3月13日
2000
编程技术

Go语言正则表达式替换：为什么只替换第一个匹配项？

Go语言正则表达式替换：为何只替换第一个匹配项？详解及解决方案 Go语言的正则表达式功能强大，但其默认的贪婪匹配模式有时会带来困扰。例如，以下代码意图将所有形式的标签替换为”#####”，却仅替换了第一个： pack…

PHP中文网
2025年3月13日
2000
编程技术

正则表达式环视、断言和预查：如何正确理解和使用它们？

深入理解正则表达式环视、断言和预查本文旨在深入探讨正则表达式中环视（Lookaround）、断言和预查的应用技巧，并澄清一些常见的误解，尤其关注位置选择对匹配结果的影响。某些文章中，使用 ^(?!baidu).*$ 来判断非“baidu…

PHP中文网
2025年3月13日
2000
编程技术

TypeORM递归查询：如何高效查找指定节点及其所有子节点？

TypeORM递归查询详解：高效查找节点及其所有子节点本文介绍如何在TypeORM中高效地进行递归查询，以查找指定节点及其所有子节点。假设数据库表结构如下： id | pid———-1 | 02 | 13 | 24 | 3 …

PHP中文网
2025年3月13日
2000
编程技术

如何为JavaScript异步缓存工具函数singlePromise编写正确的TypeScript声明？

TypeScript类型声明与JavaScript工具库集成：singlePromise函数声明在构建JavaScript工具库时，编写对应的TypeScript声明文件(.d.ts)至关重要，它能提供类型安全和代码提示，提升开发效率。本…

PHP中文网
2025年3月13日
2000
编程技术

JS异步代码中try…catch失效：为什么我的try…catch块无法捕获异步函数中的异常？

JavaScript异步代码中try…catch失效分析及解决方案在JavaScript开发中，处理异步操作中的异常是一项常见挑战。本文将通过一个案例分析，解释为什么try…catch语句有时无法捕获异步函数中的异…

PHP中文网
2025年3月13日
2000
JavaScript异步代码中try…catch失效：为什么我的异步函数异常没有被捕获？

关于javascript异步代码中try…catch语句失效的问题在javascript开发中，正确处理异步操作中的错误至关重要。本文将针对一个案例，分析为什么try…catch语句在异步代码中未能捕获异常。问题…

PHP中文网
编程技术 2025年3月13日
2000