使用Python转换全角字符串为半角
admin
2023-07-31 01:47:39
0

原文地址:

http://52sox.com/use-python-t…

关于全角转换为半角的问题,其实源自在公司的运营人员在输入法切换的时候选择了全角,结果导致程序有时候没有办法进行解析。
为了避免这样的问题再次出现,于是就有了将全角转换为半角的问题了。
在这里,会对以下内容进行描述:

  • 什么是全角

  • 如何将全角字符转换为半角

  • 使用python实现上述转换操作

我们知道在编码中,存储在计算机中仅仅是1个数字,而编码其实充当的是1种转换的过程,如果将1个字符转换为1个数字而问题。

全角和半角

一般情况下,普通的英文字符只占用1个字节的空间,而1个字节有8位,因此可以存储256个字符。而汉字、日语及朝鲜文字这样CJK的文字很明显不止256个,因此会使用2个字节来存储。
而在使用英文输入法时,我们将1个英文字符所占的位置称为半角。而由于1个汉字占用2个英文字符的位置,因为我们将其称为全角
需要注意的是,只有在支持汉字等语言的计算及上才存在全角和半角的概念。另外,虽然通常情况下的英文字母、数字键及符号键都是半角的,但是为了排列整齐,英文和其他拉丁文的字符和标签也可以使用全角格式。
因此,我们知道全角需要占用2个字节,而半角则占用1个字节。

全角转换为半角

在ASCII编码中,我们知道可以打印的字符只有127-33=94个。在这里,我们需要去除del键及ASCII编码表中前32位。
由于半角和全角只是占用字节个数的不同,因此全角可打印的字符也是94个。因此这2者之间是存在规律的,比如我们假设半角a字符的在计算机中存储的数字为60,而全角的a字符在计算机中存储的数字为1200。而假设a的下1个字符为b,其存储的数字为61, 那么全角的b字符存储的数字应为1201。
因此,这种一一映射的关系就查看各种规范中是如何定义的了。不同的规范定义会有所不同。
由于在Unicode规定中,半角字符是从33开始,到126结束。而Unicode中全角的编码是从65281开始到65374结束。
细心的你们会发现,这里少了1个字符,那就是空格。在半角中,空格是32,而在全角中它是12288。

python的实现转换

现在,我们使用python来实现转换的操作,我们会检查给定的字符是否为全角,只有在全角的情况下才进行转换的操作。

def FullToHalf(s):
    n = []
    s = s.decode(\'utf-8\')
    for char in s:
        num = ord(char)
        if num == 0x3000:
            num = 32
        elif 0xFF01 <= num <= 0xFF5E:
            num -= 0xfee0
        num = unichr(num)
        n.append(num)
    return \'\'.join(n)

在这里,我们对字符串进行遍历,然后判断其字符的大小,如果给定的字符是全角则将其进行减法操作。最后将其组装在一起返回就可以了。
然后我们进行如下的测试:

s = \"张三,是1个帅哥。\"
result = FullToHalf(s)
print result
print \'-\' * 80
print s

其结果如下所示:

张三,是1个帅哥。
-----------------------------------------------------------------------
张三,是1个帅哥。

当然,除了以上的方式外,还有其他的方式将全角转换为半角。比如我隔壁那个搞python的哥们直接就用正则进行匹配然后批量的进行转换。
由于我比较懒和能力比较有限,只好通过上面的方式来简化我的工作量。

参考文章:

http://www.cnblogs.com/kaituo…

相关内容

热门资讯

Mobi、epub格式电子书如... 在wps里全局设置里有一个文件关联,打开,勾选电子书文件选项就可以了。
定时清理删除C:\Progra... C:\Program Files (x86)下面很多scoped_dir开头的文件夹 写个批处理 定...
scoped_dir32_70... 一台虚拟机C盘总是莫名奇妙的空间用完,导致很多软件没法再运行。经过仔细检查发现是C:\Program...
500 行 Python 代码... 语法分析器描述了一个句子的语法结构,用来帮助其他的应用进行推理。自然语言引入了很多意外的歧义,以我们...
小程序支付时提示:appid和... [Q]小程序支付时提示:appid和mch_id不匹配 [A]小程序和微信支付没有进行关联,访问“小...
pycparser 是一个用... `pycparser` 是一个用 Python 编写的 C 语言解析器。它可以用来解析 C 代码并构...
微信小程序使用slider实现... 众所周知哈,微信小程序里面的音频播放是没有进度条的,但最近有个项目呢,客户要求音频要有进度条控制,所...
65536是2的几次方 计算2... 65536是2的16次方:65536=2⁶ 65536是256的2次方:65536=256 6553...
Apache Doris 2.... 亲爱的社区小伙伴们,我们很高兴地向大家宣布,Apache Doris 2.0.0 版本已于...
项目管理和工程管理的区别 项目管理 项目管理,顾名思义就是专注于开发和完成项目的管理,以实现目标并满足成功标准和项目要求。 工...