高效过滤脏话：arif-rh/profanity-filter 库的使用指南

PHP中文网 • 2025年3月13日 15:46:52 • 编程技术 • 阅读 2

在构建一个用户评论功能时，我需要一个可靠的方法来过滤掉包含脏话和不当言论的评论。最初，我尝试使用简单的字符串替换，但这很容易被用户利用各种变体绕过。例如，“badword”可以被替换成“b@dword”、“b-a-d-w-o-r-d”等等。我甚至尝试编写复杂的正则表达式，但维护起来非常困难，而且容易出现误判。

这时，我发现了arif-rh/profanity-filter这个库。它不仅能进行简单的关键词匹配，还能检测各种变体，例如字符替换、插入标点符号、重复字符等等。更重要的是，它提供了灵活的配置选项，允许我自定义脏词列表，并添加白名单来避免误判。

安装这个库非常简单，只需要使用Composer：

composer require arif-rh/profanity-filter

登录后复制

使用起来也很直观：

use ArifRhProfanityFilterCheck;// 使用默认的脏词列表$check = new Check();$hasProfanity = $check->hasProfanity("This is a badword."); // 检查是否包含脏话$cleanedWords = $check->cleanWords("This is a badword."); // 过滤脏话，用星号(*)替换// 使用自定义的脏词列表 (从数组或文件加载)$badWords = ['badword', 'anotherbadword'];$check = new Check($badWords);$hasProfanity = $check->hasProfanity("This contains anotherbadword.");$cleanedWords = $check->cleanWords("This contains anotherbadword.", "+"); // 使用 "+" 替换脏词// 使用白名单避免误判$whitelist = ['goodword'];$check = new Check($badWords, $whitelist);$hasProfanity = $check->hasProfanity("This is a goodword but contains badword.");// 获取检测到的脏词$check->hasProfanity("This is a badword.");echo $check->getBadWordsFound(); // 输出：badword

登录后复制

arif-rh/profanity-filter库还支持多种过滤模式，可以根据需要选择合适的策略。它新增的cleanWords方法允许只模糊处理脏词，而不会影响句子其他部分，这比原库的全局替换更灵活。此外，getBadWordsFound方法可以方便地获取检测到的脏词，方便进行日志记录和进一步处理。

总而言之，arif-rh/profanity-filter库是一个高效、灵活且易于使用的脏话过滤工具，极大地简化了我的开发工作，提升了评论系统的安全性。它比我之前尝试的各种方法都更加强大和可靠。强烈推荐给需要进行内容过滤的开发者们。

以上就是高效过滤脏话：arif-rh/profanity-filter 库的使用指南的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/3045031.html

AI composer 工具。

0 0

关于作者

PHP中文网签约作者

509.3K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

高效提升Drupal 8项目：kgaut/kgaut_tools库的实践

上一篇 2025年3月13日 15:46:48

php输出数据显示乱码怎么办

下一篇 2025年2月23日 20:51:07

高效提升Drupal 8项目：kgaut/kgaut_tools库的实践

最近我负责一个drupal 8项目，需要处理大量的用户提交数据和多语言翻译。其中，字符串清理和翻译导入成为了主要的痛点。用户提交的数据经常包含各种特殊字符，需要进行规范化处理才能用于数据库存储和页面展示。同时，我们需要一个高效的方式来导入不…

PHP中文网
编程技术 2025年3月13日
2000
编程技术

Go语言正则表达式替换：为什么只替换第一个匹配项？

Go语言正则表达式替换：为何只替换第一个匹配项？详解及解决方案 Go语言的正则表达式功能强大，但其默认的贪婪匹配模式有时会带来困扰。例如，以下代码意图将所有形式的标签替换为”#####”，却仅替换了第一个： pack…

PHP中文网
2025年3月13日
2000
编程技术

Vite 5构建：如何只移除console.log而不影响console.info？

vite 5构建：如何只移除console.log而不影响console.info？许多开发者在Vite 5项目上线后，面临着去除调试信息，同时保留console.info日志用于监控或排错的难题。Vite内置配置无法精确控制，esbui…

PHP中文网
2025年3月13日
2000
如何快速筛选Node.js关键日志信息

要快速筛选 node.js 关键日志信息，可以采用以下方法：使用 console.log() 或其他日志库（如 Winston、Bunyan 等）记录关键信息。在代码中添加日志语句，以便在运行时输出关键变量值、函数调用结果等信息。使用日…

PHP中文网
编程技术 2025年3月13日
2000
编程技术

正则表达式环视、断言和预查：如何正确理解和使用它们？

深入理解正则表达式环视、断言和预查本文旨在深入探讨正则表达式中环视（Lookaround）、断言和预查的应用技巧，并澄清一些常见的误解，尤其关注位置选择对匹配结果的影响。某些文章中，使用 ^(?!baidu).*$ 来判断非“baidu…

PHP中文网
2025年3月13日
2000
编程技术

怎样优化Linux strings命令性能

Linux strings 命令用于从二进制文件中提取可打印字符串，但处理大型文件时速度可能较慢。本文提供一些提升 strings 命令性能的策略：精简输出：使用 -n 选项指定最小字符串长度，例如 strings -n 4 file…

PHP中文网
2025年3月13日
2000
告别字符串处理难题：使用 Composer 和 Zend Framework 1 Markup 提升效率

在开始之前，我面临着几个挑战：效率问题: 直接使用 PHP 内置函数处理 HTML 和特殊字符，效率非常低，尤其当数据量较大时，程序响应速度会明显下降。安全隐患: 用户提交的文本中可能包含恶意代码，例如 JavaScript 代码，直接渲…

PHP中文网
编程技术 2025年3月13日
2000
告别低效字符串处理：使用 Composer 简化 PHP 项目

最近在开发一个内容管理系统时，遇到了一个令人头疼的问题：用户上传的文章内容中包含各种非 ascii 字符，例如各种特殊符号、多种语言的文字，甚至一些乱码。这些字符导致我的 php 程序在处理字符串时效率极低，经常出现超时或报错的情况。我尝试…

PHP中文网
编程技术 2025年3月13日
2000
编程技术

python动态网站成品下载方法

本文介绍了五种应对动态网站数据抓取的策略，涵盖了使用无头浏览器模拟动态加载(Selenium、Playwright、Puppeteer)，直接调用动态数据接口(requests库)，结合静态下载与动态解析(requests和正则表达式/Be…

PHP中文网
2025年3月13日
2000
编程技术

TypeORM递归查询：如何高效查找指定节点及其所有子节点？

TypeORM递归查询详解：高效查找节点及其所有子节点本文介绍如何在TypeORM中高效地进行递归查询，以查找指定节点及其所有子节点。假设数据库表结构如下： id | pid———-1 | 02 | 13 | 24 | 3 …

PHP中文网
2025年3月13日
2000