Python计算字符宽度的方法

本文实例讲述了python计算字符宽度的方法。分享给大家供大家参考,具体如下:

最近在用python写一个CLI小程序,其中涉及到计算字符宽度,目标是以友好的方式将一个长字符串截取为等宽的片段。

对于unicode字符,python的len函数可以准确的计算其中所包含的字符个数,但是个数并不代表宽度,如:

>>>len(u'你好a')3

登录后复制

因此无法简单的使用这种方式来计算宽度。

GBK decode

立即学习“Python免费学习笔记(深入)”;

首先我想到GBK编码,00–7F范围内的字符是一字节编码,其余是双字节编码,正好与字符的宽度大体一致,于是有了这样的投机取巧的办法(假设取8个宽度):

>>> a = u'hello你好'>>> b=a.encode('gbk')>>> try:...  print b[:8].decode('gbk')... except:...  print b[:7].decode('gbk')...hello你

登录后复制

如代码所示,首先将unicode的字符串进行GBK编码,然后截取8个字节的宽度后尝试用GBK解码,若解码失败,则少截取一个宽度,截取7个字节后使用GBK解码。

虽然初步解决了问题,但是这样做的硬伤很明显。首先代码不优雅,以试错的方式运行;其次GBK所能表示的字符有限,对于大量GBK编码以外的字符无法支持。

East_Asian_Width

徘徊很久之后,偶然发现 Unicode Character Database 标准中有East_Asian_Width 属性,并有以下可能值:

# East_Asian_Width (ea)ea ; A     ; Ambiguous  不确定ea ; F     ; Fullwidth  全宽ea ; H     ; Halfwidth  半宽ea ; N     ; Neutral   中性ea ; Na    ; Narrow    窄ea ; W     ; Wide     宽

登录后复制

其中除A不确定外,F/H/N/Na/W都能很明确的知道宽度,如果保守起见,将A视为宽度为2的话,则很容易给出单个字符的宽度:

>>> import unicodedata>>> def chr_width(c):...  if (unicodedata.east_asian_width(c) in ('F','W','A')):...   return 2...  else:...   return 1>>> chr_width(u'你')2>>> chr_width(u'a')1

登录后复制

到现在似乎已经可以满足要求了,但是实际使用中发现属性为A的字符真不少见,最典型的就是中文的双引号:

>>> chr_width(u'”')2

登录后复制

在大多数等宽字体中,中文双引号都是只占一位宽的,如果一行里有多个中文双引号,则累加的误判宽度将会使截取效果大打折扣,无疑这也不是最好的办法。

urwid的解决方案

urwid  是一个成熟的python终端UI库,它在curses的基础之上包装了类似HTML的控件用以显示文本内容,如果有这方面的开发需求,非常推荐此库,比直接使用curses库方便很多,非常棒的是它对unicode的文本宽度截取非常准确,让我大为惊讶,于是翻开它的源码一探究竟,文本宽度计算方面其核心代码如下:

widths = [  (126,  1), (159,  0), (687,   1), (710,  0), (711,  1),  (727,  0), (733,  1), (879,   0), (1154, 1), (1161, 0),  (4347,  1), (4447,  2), (7467,  1), (7521, 0), (8369, 1),  (8426,  0), (9000,  1), (9002,  2), (11021, 1), (12350, 2),  (12351, 1), (12438, 2), (12442,  0), (19893, 2), (19967, 1),  (55203, 2), (63743, 1), (64106,  2), (65039, 1), (65059, 0),  (65131, 2), (65279, 1), (65376,  2), (65500, 1), (65510, 2),  (120831, 1), (262141, 2), (1114109, 1),]def get_width( o ):  """Return the screen column width for unicode ordinal o."""  global widths  if o == 0xe or o == 0xf:    return 0  for num, wid in widths:    if o 

如代码所示,首先根据unicode的官方EastAsianWidth  文档整理出字符宽度的范围表,然后使用unicode代码查表。使用之前的例子测试:

>>> get_width(ord(u'a'))1>>> get_width(ord(u'你'))2>>> get_width(ord(u'”'))1

登录后复制

完全准确,而且在实际应用中的表现也比较好,是一个理想的解决方案,更多技巧请查阅urwid的old_str_util.py 源码。

更多关于Python相关内容感兴趣的读者可查看本站专题:《Python图片操作技巧总结》、《Python数据结构与算法教程》、《Python Socket编程技巧总结》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2286466.html

(0)
上一篇 2025年2月27日 22:01:39
下一篇 2025年2月27日 22:04:37

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • sublime怎么输出

    在 Sublime Text 中输出内容有三种方法:在“控制台”面板中使用 print() 语句输出。设置断点并通过调试器的“控制台”选项卡查看输出。重定向 stdout 并通过输出面板查看输出。 如何在 Sublime Text 中输出内…

    2025年3月30日
    100
  • notepad怎么转换为json

    Notepad无法直接将文本转换为JSON。你可以通过检查文本是否符合JSON语法,使用JSON验证器或编程语言进行转换。如果数据是逗号分隔的,可以使用脚本解析数据并转换为JSON格式。 Notepad本身无法直接将文本转换为JSON。No…

    2025年3月30日
    100
  • vscode 和 visual studio 哪个更好

    根据具体需求和项目规模,选择最适合的 IDE:大型项目(尤其是 C#、C++)和复杂调试:Visual Studio,提供强大调试功能和对大型项目的完美支持。小型项目、快速原型开发、配置较低机器:VS Code,轻量级、启动速度快、资源占用…

    2025年3月30日
    100
  • vscode 无法运行 python怎么回事

    最常见的“无法运行 Python”问题源于 Python 解释器路径的错误配置,解决方法包括:确认 Python 安装、配置 VS Code、使用虚拟环境。除此之外,还有断点调试、变量监视、日志输出、代码格式化等高效的调试技巧和最佳实践,如…

    2025年3月30日
    100
  • JSON 差异:比较和识别 JSON 数据中的更改

    JSON(JavaScript 对象表示法)是一种广泛应用于数据传输和存储的结构化数据格式,尤其在Web开发领域。然而,对比两个JSON文件或结构,特别是处理嵌套或复杂数据时,往往充满挑战。JSON差异比较(JSON diff)正是为此而生…

    2025年3月30日
    100
  • Notepad++ 怎么以json格式显示数据

    Notepad++ 无法直接以 JSON 格式显示数据,而是文本编辑器,专注于编程语言语法高亮。查看 JSON 数据的有效方法包括:在线 JSON 格式化工具:简单易用,但可能速度较慢,安全性待考虑。支持 JSON 的代码编辑器:提供语法高…

    2025年3月30日
    100
  • 如何去除JSON数据中外层“other”关键字?

    去除JSON数据外层“other”关键字,保留原始数据 本文介绍如何高效地移除JSON数据中的外层“other”关键字,同时完整保留其内部数据结构。 问题描述: 给定一个JSON数据,其结构如下: { “other”: { “name”: …

    2025年3月30日
    100
  • MongoDB快速入门:从安装到基本操作

    本文介绍了mongodb的快速上手方法。1. 安装mongodb:下载对应版本安装包并运行安装程序,启动mongodb服务;2. 基本操作:使用pymongo驱动程序进行crud操作(插入、查询、更新、删除),注意连接和关闭数据库;3. 性…

    2025年3月30日
    100
  • Python 实现语音识别工具的不同技术方案

    Python 实现语音识别工具的不同技术方案:深度剖析与实践 很多开发者都想过构建一个属于自己的语音识别工具,这听起来很酷,对吧?但实际操作中,你会发现选择合适的技术方案至关重要,它直接影响着你的工具的准确率、效率,甚至最终的易用性。这篇文…

    2025年3月30日
    100
  • 小红书网页源码中多个traceId如何批量替换到指定位置?

    小红书网页源码批量替换traceid方法详解 本文提供一种解决方案,用于批量替换小红书网页源码中多个traceId到指定位置。假设您已获取包含多个traceId的小红书网页HTML源码,且需要将这些traceId替换到特定位置。 核心思路:…

    2025年3月30日
    100

发表回复

登录后才能评论