基于Python的开源模块:pypinyin,支持拼音风格的特性
创始人
2025-11-03 15:05:34
0

汉字转拼音可用于汉字批量注音、文本排序、文本拼音检索等常见场景。

现在网上有很多拼音转换工具,也有很多基于Python的ta发布开源AI工具AudioCraft,帮助用户根据文本提示创作音乐和音频' target='_blank'>开源模块。 明天给大家介绍一个功能和特性最多的模块:pypinyin,它支持以下功能:

1.计划

在开始之前,您需要确保 Python 和 pip 已成功安装在您的笔记本电脑上。 如果没有,您可以访问这篇文章:安装它。

(可选1)如果使用Python进行数据分析,可以直接安装Anaconda:,它有外部Python和pip。

(可选2)据悉,建议大家使用VSCode编辑器,它有很多优点:。

请选择以下任意一种方式输入安装依赖的命令:

1、在Windows环境下打开Cmd(开始-运行-CMD)。

2. 在 MacOS 环境中打开终端(command+space 并输入 Terminal)。

3.如果您使用的是VSCode编辑器或Pycharm,可以直接使用界面底部的Terminal。

pip install pypinyin

2.基本使用

最常见的拼音转换方法如下:

# Python实用宝典
from pypinyin import pinyin, lazy_pinyin, Style
pinyin('中心')
# [['zhōng'], ['xīn']]

识别多音字:

# Python实用宝典
from pypinyin import pinyin, lazy_pinyin, Style
pinyin('中心', heteronym=True) # 启用多音字模式
# [['zhōng', 'zhòng'], ['xīn']]

将输出样式设置为仅识别第一个字母:

# Python实用宝典
from pypinyin import pinyin, lazy_pinyin, Style
pinyin('中心', style=Style.FIRST_LETTER) # 设置拼音风格
# [['z'], ['x']]

改变声调输出位置,在相应字母前面显示声调,或者在拼音末尾显示声调:

# Python实用宝典
from pypinyin import pinyin, lazy_pinyin, Style

# TONE2 在相应字母的后面显示音调
pinyin('中心', style=Style.TONE2, heteronym=True)
# [['zho1ng', 'zho4ng'], ['xi1n']]

# TONE3 拼音的最后显示音调
pinyin('中心', style=Style.TONE3, heteronym=True)
# [['zhong1', 'zhong4'], ['xin1']]

忽略多音字符:

# Python实用宝典
from pypinyin import pinyin, lazy_pinyin, Style
lazy_pinyin('中心') # 不考虑多音字的情况
# ['zhong', 'xin']

不要使用 v 代替 ü:

# Python实用宝典
from pypinyin import pinyin, lazy_pinyin, Style
lazy_pinyin('战略', v_to_u=True) # 不使用 v 表示 ü
# ['zhan', 'lüe']

标签耳语:

# Python实用宝典
from pypinyin import pinyin, lazy_pinyin, Style
# 使用 5 标识轻声
lazy_pinyin('衣裳', style=Style.TONE3, neutral_tone_with_five=True)
# ['yi1', 'shang5']

使用命令行一键识别拼音:

# Python实用宝典
python -m pypinyin 音乐
# yīn yuè

3. 中级使用

自定义拼音显示样式

我们可以使用register()来满足自定义拼音样式的需求:

from pypinyin import lazy_pinyin

from pypinyin.style import register

@register('kiss')
def kiss(pinyin, **kwargs):
    return ' {0}'.format(pinyin)

  
lazy_pinyin('么么', style='kiss')
# [' me', ' me']

正如您所看到的,通过定义 Kiss 函数并使用寄存器装饰器,我们生成了一种新样式。 这种风格可以直接用于拼音转换参数,特别方便。

另外,所有模块都带有样式及其效果如下:

@unique
class Style(IntEnum):
    """拼音风格"""

    #: 普通风格,不带声调。如:中国 -> ``zhong guo``
    NORMAL = 0
    #: 标准声调风格,拼音声调在韵母第一个字母上(默认风格)。如:中国 -> ``zhōng guó``
    TONE = 1
    #: 声调风格2,即拼音声调在各个韵母之后,用数字 [1-4] 进行表示。如:中国 -> ``zho1ng guo2``
    TONE2 = 2
    #: 声调风格3,即拼音声调在各个拼音之后,用数字 [1-4] 进行表示。如:中国 -> ``zhong1 guo2``
    TONE3 = 8
    #: 声母风格,只返回各个拼音的声母部分(注:有的拼音没有声母,详见 `#27`_)。如:中国 -> ``zh g``
    INITIALS = 3
    #: 首字母风格,只返回拼音的首字母部分。如:中国 -> ``z g``
    FIRST_LETTER = 4
    #: 韵母风格,只返回各个拼音的韵母部分,不带声调。如:中国 -> ``ong uo``
    FINALS = 5
    #: 标准韵母风格,带声调,声调在韵母第一个字母上。如:中国 -> ``ōng uó``
    FINALS_TONE = 6
    #: 韵母风格2,带声调,声调在各个韵母之后,用数字 [1-4] 进行表示。如:中国 -> ``o1ng uo2``
    FINALS_TONE2 = 7
    #: 韵母风格3,带声调,声调在各个拼音之后,用数字 [1-4] 进行表示。如:中国 -> ``ong1 uo2``
    FINALS_TONE3 = 9
    #: 注音风格,带声调,阴平(第一声)不标。如:中国 -> ``ㄓㄨㄥ ㄍㄨㄛˊ``
    BOPOMOFO = 10
    #: 注音风格,仅首字母。如:中国 -> ``ㄓ ㄍ``
    BOPOMOFO_FIRST = 11
    #: 汉语拼音与俄语字母对照风格,声调在各个拼音之后,用数字 [1-4] 进行表示。如:中国 -> ``чжун1 го2``
    CYRILLIC = 12
    #: 汉语拼音与俄语字母对照风格,仅首字母。如:中国 -> ``ч г``
    CYRILLIC_FIRST = 13

处理特殊字符

默认情况下,不会对文本中的特殊字符进行任何处理,并返回原始外观:

pinyin('你好☆☆')
# [['nǐ'], ['hǎo'], ['☆☆']]

不过,如果你想处理这样的特殊字符,也是可以的,例如:

忽略:忽略该字符

pinyin('你好☆☆', errors='ignore')
# [['nǐ'], ['hǎo']]

错误:替换为删除 \u 的 unicode 编码:

pinyin('你好☆☆', errors='replace')
# [['nǐ'], ['hǎo'], ['26062606']]

callable 对象:提供接受非拼音字符(字符串)作为参数的反弹函数。 支持的返回值类型:unicode 或 list 或 None:

pinyin('你好☆☆', errors=lambda x: 'star')
# [['nǐ'], ['hǎo'], ['star']]

pinyin('你好☆☆', errors=lambda x: None)
# [['nǐ'], ['hǎo']]

当返回值类型为list时汉字转拼音软件,会手动添加expandlist:

pinyin('你好☆☆', errors=lambda x: ['star' for _ in x])
# [['nǐ'], ['hǎo'], ['star'], ['star']]

# 指定多音字
pinyin('你好☆☆', heteronym=True, errors=lambda x: [['star', '☆'] for _ in x])
# [['nǐ'], ['hǎo'], ['star', '☆'], ['star', '☆']]

自定义拼音库

如果你觉得模块输出效果不是你想要的,或者你想做特殊处理,你可以通过load_single_dict()或load_phrases_dict()以自定义拼音库的形式修改结果:

from pypinyin import lazy_pinyin, load_phrases_dict, Style, load_single_dict
hans = '桔子'
lazy_pinyin(hans, style=Style.TONE2)
# ['jie2', 'zi3']
load_phrases_dict({'桔子': [['jú'], ['zǐ']]}) # 增加 "桔子" 词组
lazy_pinyin(hans, style=Style.TONE2)
# ['ju2', 'zi3']

hans = '还没'
lazy_pinyin(hans, style=Style.TONE2)
# ['hua2n', 'me2i']
load_single_dict({ord('还'): 'hái,huán'}) # 调整 "还" 字的拼音顺序
lazy_pinyin('还没', style=Style.TONE2)
# ['ha2i', 'me2i']

4.最后

让我提醒您,我们的免费图书抽奖活动仍在继续。 您可以参加下面的免费抽奖活动,赢取《Python数据分析从新手到专家》三本书。 结果立即出炉,没有套路!

与您的同学分享,您将获得额外的获胜机会。 抽奖概率约为0.5%:

我们的文章到这里就结束了。 如果你喜欢明天的Python实用教程,请继续关注Python实用指南。

如果您有任何疑问汉字转拼音软件,可以在公众号后台回复:进群,回答红字对应的验证信息,进入互助群提问。

原创并不容易。 希望大家能够点赞并观看下面的内容,以支持我继续创作。 谢谢你!

相关内容

热门资讯

A... 录音音质差一直是新手用户经常遇到的问题。 虽然现在的手机录音还不算太差,但如果真要投入到播客、视频制...
森... 随着大量直播应用的兴起,不少网络红人也因此名声大噪。 这些网红在直播间大显身手,吸引了超过千万的粉丝...
W... Windows系统自带的日历和时间功能非常简单易用,但对于我这样需要关注节假日信息来“延年益寿”的人...
2... 继续教育是职称评审的前提条件。 没有继续教育,就无法评价职称。 继续教育是专业技术人员知识的更新。 ...
免... 2023年12月12日-14日,每晚19:30,安世亚太PERA SIM通用仿真软件三讲专题课程免费...
如... 说起郑州,郑州的交通一直是一个很熟悉的事情。 交通拥堵、路况复杂,导致交通事故随处可见。 汽车保养和...
2... 点击上方“IT分享首页”关注回复“资讯”即可领取免费Python学习福利【我。 介绍】不知道你是否也...
我... 日历太常见了,随处可见,但这么常见的东西,如果运用得巧妙,却能收到事半功倍的效果。 在日历电子化的今...
正... (2021年2月1日起,系统启用“A股市场风险指数”对账户交易头寸进行系统风险管理)(13号小试项目...
手... 手机用过很多清理软件,这些软件都或多或少有一些问题,总觉得手机还是卡,直到我用了这款简洁的清理工具。...
地... 地球科学数据(ERA5、雪深、积雪、海水温度、植被指数、土地利用)加工实践技术应用视频教程视频已录制...
软... 一触即发(自动化点击)&音乐功能:一触即发App会员版中最大的一个亮点就是还有上百个示例,以及其他用...
玩... 说到日历相册,大家都不陌生。 相信每个人家里都有一个。 您用过实体电子日历相册吗? 这次我有幸得到了...
假... 祝大家中秋节快乐!先做广告分享个小福利,中秋节小破群把你打断骨头(34折)72H无理由退款,不用担心...
手... 温馨提醒:公众号推送已改版。 为了不让您错过【众众IT爱好者圈】每天的精彩推送,记得给这个账号加星标...
F... 有一天,我需要将一些 FLAC 格式的音频文件转换为 WAV 格式。 至于原因,当然是因为我正在给一...
自... 在竞争激烈的餐饮行业,如何吸引更多顾客,增加店铺曝光度是每个餐厅老板关注的焦点。 近年来,随着直播技...
五元投资、高额返利?揭开华银A...   上海华通白银国际交易中心有限公司涉嫌严重虚假宣传,通过网络广告大肆诱导普通投资者下载其旗下各类交...
中国白银APP高杠杆、高手续费...   凡是在网络上宣称“小投入、高回报、操作简单就能赚钱”的平台,基本可判定存在严重问题。真正了解资本...
“... 前不久,小编看到一则新闻,浙江宁波一位女士想开网店,做服装生意,但她没有经验,不知道如何进入这个行业...