基于xpath选择器PyQuery正则表达式的格式清理工具详解

SEO优化专员 • 2025年1月4日 01:56:00 • 编程技术 • 阅读 2

这篇文章主要介绍了基于xpath选择器、PyQuery、正则表达式的格式清理工具，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

1，使用xpath清理不必要的标签元素，以及无内容标签

from lxml import etree

def xpath_clean(self, text: str, xpath_dict: dict) -> str:
    ”’
    xpath 清除不必要的元素
    :param text: html_content
    :param xpath_dict: 清除目标xpath
    :return: string type html_content
    ”’
    remove_by_xpath = xpath_dict if xpath_dict else dict()

    # 必然清除的项目除非极端情况一般这些都是要清除的
    remove_by_xpath.update({
      ‘_remove_2’: ‘//iframe’,
      ‘_remove_4’: ‘//button’,
      ‘_remove_5’: ‘//form’,
      ‘_remove_6’: ‘//input’,
      ‘_remove_7’: ‘//select’,
      ‘_remove_8’: ‘//option’,
      ‘_remove_9’: ‘//textarea’,
      ‘_remove_10’: ‘//figure’,
      ‘_remove_11’: ‘//figcaption’,
      ‘_remove_12’: ‘//frame’,
      ‘_remove_13’: ‘//video’,
      ‘_remove_14’: ‘//script’,
      ‘_remove_15’: ‘//style’
    })

    parser = etree.HTMLParser(remove_blank_text=True, remove_comments=True)
    selector = etree.HTML(text, parser=parser)

    # 常规删除操作，不需要的标签删除
    for xpath in remove_by_xpath.values():
      for bad in selector.xpath(xpath):
        bad_string = etree.tostring(bad, encoding=’utf-8′,
                      pretty_print=True).decode()
        logger.debug(f”clean article content : {bad_string}”)
        bad.getparent().remove(bad)

    skip_tip = “name()=’img’ or name()=’tr’ or ” \
          “name()=’th’ or name()=’tbody’ or ” \
          “name()=’thead’ or name()=’table'”
    # 判断所有p标签，是否有内容存在，没有的直接删除
    for p in selector.xpath(f”//*[not({skip_tip})]”):
      # 跳过逻辑
      if p.xpath(f”.//*[{skip_tip}]”) or \
          bool(re.sub(‘\s’, ”, p.xpath(‘string(.)’))):
        continue

      bad_p = etree.tostring(p, encoding=’utf-8′,
                  pretty_print=True).decode()
      logger.debug(f”clean p tag : {bad_p}”)
      p.getparent().remove(p)

    return etree.tostring(selector, encoding=’utf-8′,
               pretty_print=True).decode()

2，使用pyquery清理标签属性，并返回处理后源码和纯净文本

#!/usr/bin/env python
# -*-coding:utf-8-*-

from pyquery import PyQuery as pq

def pyquery_clean(self, text, url, pq_dict) -> object:
    ”’
    pyquery 做出必要的处理，
    :param text:
    :param url:
    :param pq_dict:
    :return:
    ”’
    # 删除pq表达式字典
    remove_by_pq = pq_dict if pq_dict else dict()
    # 标签属性白名单
    attr_white_list = [‘rowspan’, ‘colspan’]
    # 图片链接key
    img_key_list = [‘src’, ‘data-echo’, ‘data-src’, ‘data-original’]
    # 生成pyquery对象
    dom = pq(text)

    # 删除无用标签
    for bad_tag in remove_by_pq.values():
      for bad in dom(bad_tag):
        bad_string = pq(bad).html()
        logger.debug(f”clean article content : {bad_string}”)
      dom.remove(bad_tag)

    # 标签各个属性处理
    for tag in dom(‘*’):
      for key, value in tag.attrib.items():
        # 跳过逻辑，保留表格的rowspan和colspan属性
        if key in attr_white_list:
          continue
        # 处理图片链接，不完整url，补充完整后替换
        if key in img_key_list:
          img_url = self.absolute_url(url, value)
          pq(tag).remove_attr(key)
          pq(tag).attr(‘src’, img_url)
          pq(tag).attr(‘alt’, ”)
        # img标签的alt属性保留为空
        elif key == ‘alt’:
          pq(tag).attr(key, ”)
        # 其余所有属性做删除操作
        else:
          pq(tag).remove_attr(key)

    return dom.text(), dom.html()

3，正则表达清理空格以及换行符内容

#!/usr/bin/env python
# -*-coding:utf-8-*-

import re

def regular_clean(self, str1: str, str2: str):
    ”’
    正则表达式处理数据格式
    :param str1: content
    :param str2: html_content
    :return: 返回处理后的结果
    ”’

    def new_line(text):
      text = re.sub(‘
‘, ‘
‘, text)
      text = re.sub(
        ‘||||’
        ‘||’
        ‘|||’
        ‘|||‘,
        ”,
        text)
      text = re.sub(‘\n’, ”, text)
      text = re.sub(”, ‘

‘, text)
text = re.sub(”, ‘

‘, text)
text = text.replace(‘

‘, ‘

结尾部分，各个方法封装类代码展示

#!/usr/bin/env python
# -*-coding:utf-8-*-
”’
author: szhan
date：2020-08-17
summery: 清理html_conent以及获取纯净数据格式
”’

import re
from lxml import etree
from pyquery import PyQuery as pq
from urllib.parse import urlsplit, urljoin

from loguru import logger

class CleanArticle:

def __init__(
      self,
      text: str,
      url: str = ”,
      xpath_dict: dict = None,
      pq_dict: dict = None
):
    self.text = text
    self.url = url
    self.xpath_dict = xpath_dict or dict()
    self.pq_dict = pq_dict or dict()

@staticmethod
def absolute_url(baseurl: str, url: str) -> str:
    ”’
    补充url
    :param baseurl:scheme url
    :param url: target url
    :return: complete url
    ”’
    target_url = url if urlsplit(url).scheme else urljoin(baseurl, url)
    return target_url

@staticmethod
def clean_blank(text):
    ”’
    空白处理
    :param text:
    :return:
    ”’
    text = text.replace(‘ ’, ”).replace(‘\u3000’, ”).replace(‘\t’, ”).replace(‘\xa0’, ”)
    text = re.sub(‘\s{2,}’, ”, text)
    text = re.sub(‘\n{2,}’, ‘\n’, text)
    text = text.strip(‘\n’).strip()
    return text

def run(self):
    ”’
    :return:处理后的content, html_content
    ”’
    if (not bool(self.text)) or (not isinstance(self.text, str)):
      raise ValueError(‘html_content has a bad type value’)
    # 首先，使用xpath去除空格，以及注释，iframe, button, form, script, style, video等标签
    text = self.xpath_clean(self.text, self.xpath_dict)

    # 第二步，使用pyquery处理具体细节方面
    str1, str2 = self.pyquery_clean(text, self.url, self.pq_dict)

    # 最终的正则处理
    content, html_content = self.regular_clean(str1, str2)

    return content, html_content

def xpath_clean(self, text: str, xpath_dict: dict) -> str:
    ”’
    xpath 清除不必要的元素
    :param text: html_content
    :param xpath_dict: 清除目标xpath
    :return: string type html_content
    ”’
    remove_by_xpath = xpath_dict if xpath_dict else dict()

    # 必然清除的项目除非极端情况一般这些都是要清除的
    remove_by_xpath.update({
      ‘_remove_2’: ‘//iframe’,
      ‘_remove_4’: ‘//button’,
      ‘_remove_5’: ‘//form’,
      ‘_remove_6’: ‘//input’,
      ‘_remove_7’: ‘//select’,
      ‘_remove_8’: ‘//option’,
      ‘_remove_9’: ‘//textarea’,
      ‘_remove_10’: ‘//figure’,
      ‘_remove_11’: ‘//figcaption’,
      ‘_remove_12’: ‘//frame’,
      ‘_remove_13’: ‘//video’,
      ‘_remove_14’: ‘//script’,
      ‘_remove_15’: ‘//style’
    })

    parser = etree.HTMLParser(remove_blank_text=True, remove_comments=True)
    selector = etree.HTML(text, parser=parser)

    # 常规删除操作，不需要的标签删除
    for xpath in remove_by_xpath.values():
      for bad in selector.xpath(xpath):
        bad_string = etree.tostring(bad, encoding=’utf-8′,
                      pretty_print=True).decode()
        logger.debug(f”clean article content : {bad_string}”)
        bad.getparent().remove(bad)

    skip_tip = “name()=’img’ or name()=’tr’ or ” \
          “name()=’th’ or name()=’tbody’ or ” \
          “name()=’thead’ or name()=’table'”
    # 判断所有p标签，是否有内容存在，没有的直接删除
    for p in selector.xpath(f”//*[not({skip_tip})]”):
      # 跳过逻辑
      if p.xpath(f”.//*[{skip_tip}]”) or \
          bool(re.sub(‘\s’, ”, p.xpath(‘string(.)’))):
        continue

      bad_p = etree.tostring(p, encoding=’utf-8′,
                  pretty_print=True).decode()
      logger.debug(f”clean p tag : {bad_p}”)
      p.getparent().remove(p)

    return etree.tostring(selector, encoding=’utf-8′,
               pretty_print=True).decode()

def pyquery_clean(self, text, url, pq_dict) -> object:
    ”’
    pyquery 做出必要的处理，
    :param text:
    :param url:
    :param pq_dict:
    :return:
    ”’
    # 删除pq表达式字典
    remove_by_pq = pq_dict if pq_dict else dict()
    # 标签属性白名单
    attr_white_list = [‘rowspan’, ‘colspan’]
    # 图片链接key
    img_key_list = [‘src’, ‘data-echo’, ‘data-src’, ‘data-original’]
    # 生成pyquery对象
    dom = pq(text)

    # 删除无用标签
    for bad_tag in remove_by_pq.values():
      for bad in dom(bad_tag):
        bad_string = pq(bad).html()
        logger.debug(f”clean article content : {bad_string}”)
      dom.remove(bad_tag)

    # 标签各个属性处理
    for tag in dom(‘*’):
      for key, value in tag.attrib.items():
        # 跳过逻辑，保留表格的rowspan和colspan属性
        if key in attr_white_list:
          continue
        # 处理图片链接，不完整url，补充完整后替换
        if key in img_key_list:
          img_url = self.absolute_url(url, value)
          pq(tag).remove_attr(key)
          pq(tag).attr(‘src’, img_url)
          pq(tag).attr(‘alt’, ”)
        # img标签的alt属性保留为空
        elif key == ‘alt’:
          pq(tag).attr(key, ”)
        # 其余所有属性做删除操作
        else:
          pq(tag).remove_attr(key)

    return dom.text(), dom.html()

def regular_clean(self, str1: str, str2: str):
    ”’
    正则表达式处理数据格式
    :param str1: content
    :param str2: html_content
    :return: 返回处理后的结果
    ”’

    def new_line(text):
      text = re.sub(‘
‘, ‘
‘, text)
      text = re.sub(
        ‘||||’
        ‘||’
        ‘|||’
        ‘|||‘,
        ”,
        text)
      text = re.sub(‘\n’, ”, text)
      text = re.sub(”, ‘

‘, text)
text = re.sub(”, ‘

‘, text)
text = text.replace(‘

‘, ‘

\n’).replace(‘
‘, ‘
‘)
      return text

    str1, str2 = self.clean_blank(str1), self.clean_blank(str2) # TODO 处理空白行问题

    # TODO html_content处理 1，删除多余的无法使用的标签以及影响数据展示的标签 2，换行符问题处理以及更换

    str2 = new_line(text=str2)

    return str1, str2

if __name__ == ‘__main__’:
with open(‘html_content.html’, ‘r’, encoding=’utf-8′) as f:
    lines = f.readlines()
    html = ”
    for line in lines:
      html += line
ca = CleanArticle(text=html)
_, html_content = ca.run()
print(html_content)

总结

到此这篇关于基于xpath选择器、PyQuery、正则表达式的格式清理工具详解的文章就介绍到这了,更多相关PyQuery、正则表达式的格式清理工具内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

来源：脚本之家

链接：https://www.jb51.net/article/194906.htm

发布者：SEO优化专员，转转请注明出处：https://www.chuangxiangniao.com/p/900363.html

正则表达式

0 0

关于作者

SEO优化专员签约作者

34.1K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

正则表达式中的 .*? 或 .*+ 的意思

上一篇 2025年1月4日 01:55:40

Python正则表达式指南推荐

下一篇 2025年1月4日 01:56:19

浅析golang 正则表达式

Go（又称Golang）是Google开发的一种静态强类型、编译型、并发型，并具有垃圾回收功能的编程语言。这篇文章给大家介绍golang 正则表达式的相关知识，感兴趣的朋友跟随小编一起看看吧 Go（又称 Golang）是 Google 的 …

SEO优化专员
编程技术 2025年1月4日
1000
python中使用正则表达式将所有符合条件的字段全部提取出来

这篇文章主要介绍了python中使用正则表达式将所有符合条件的字段全部提取出来,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下问题如标题，使用正则表达式匹配字段目前无非就三种，分别是： re.ma…

SEO优化专员
编程技术 2025年1月4日
1000
编程技术

js正则表达式限1-2位整数，或者至多含有两位小数的写法

这篇文章主要介绍了js正则表达式，限1-2位整数，或者至多含有两位小数,需要的朋友可以参考下测试代码 //1、只能输入数字或者小数点仅整数,整数加小数var reg1=/(^[0-9]{1,2}$)|(^[0-9]{1,2}[\.]{1…

SEO优化专员
2025年1月4日
1000
编程技术

Python正则表达式指南推荐

本文介绍了Python对于正则表达式的支持，包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式，这些主题请查看其他教程。目录 1. 正则表达式基础 1.1.…

SEO优化专员
2025年1月4日
2000
正则表达式中的 .*? 或 .*+ 的意思

正则表达式，又称规则表达式是计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。本文重点给大家介绍正则表达式中的 .*? 或 .*+ 的意思，感兴趣的朋友一起看看吧正则表达式简介正则表达式，又称规则…

SEO优化专员
编程技术 2025年1月4日
1000
linux下关于正则表达式grep的一点总结

正则表达式（Regular Expression）是用于描述一组字符串特征的模式，用来匹配特定的字符串。通过特殊字符＋普通字符来进行模式描述，从而达到文本匹配目的工具正则表达式（Regular Expression）是用于描述一组字符串…

SEO优化专员
2025年1月4日 • 编程技术
2000
JavaScript正则表达式匹配字符串字面量

第一次遇到这个问题, 是大概两年前写代码高亮, 从当时的解决方案到现在一共有三代, 嘎嘎. 觉得还是算越来越好的. 第一代: //那个时候自己正则还不算很精通, 也没有(?:…)这种习惯, 是以寻找结束引号为入口写出的这个正则.…

SEO优化专员
编程技术 2025年1月4日
2000
js正则学习小记之匹配字符串字面量

关于匹配字符串问题，有很多种类型，今天讨论 js 代码里的字符串匹配，因为我想学完之后写个语法高亮练手，所以用js代码当作例子今天看了第5章几个例子，有点收获，记录下来当作回顾也当作分享。关于匹配字符串问题，有很多种类型，今天讨论 js…

SEO优化专员
2025年1月4日 • 编程技术
2000
编程技术

js 正则学习小记之匹配字符串字面量优化篇

昨天在《js 正则学习小记之匹配字符串字面量》谈到 /”(?:\\.|[^”])*”/ 是个不错的表达式，因为可以满足我们的要求，所以这个表达式可用，但不一定是最好的昨天在《js 正则学习小记之匹配字符…

SEO优化专员
2025年1月4日
2000
浅谈js正则之test方法bug篇

其实我很少用这个，所以之前一直没注意这个问题，自从落叶那厮写了个变态的测试我才去看了下这东西下面的代码都是在chrome的F12下调试的，大家可以研究一下先来看个东西吧。 var re = /\d/;console.log( re.te…

SEO优化专员
2025年1月4日 • 编程技术
2000

发表回复

登录后才能评论

基于xpath选择器PyQuery正则表达式的格式清理工具详解

关于作者

SEO优化专员签约作者

发表回复

联系我们

156-6553-5169

基于xpath选择器PyQuery正则表达式的格式清理工具详解

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

联系我们

156-6553-5169

AD推荐黄金广告位招租... 更多推荐