python3如何提取汉字
发布时间:2025-09-18 14:10:37

字符串采用正则表达式处理。
str1="{我%$是,“速度”$@.中/国,人,度\发"
相关推荐:Python教程
(1)提取汉字
以Unicode为代表的汉字范围为“\u4e00-\u9fa5”。
importre
res1=''.join(re.findall('[u4e00-u9fa5];,str1))
print(res1)输出为:
‘我是速度发中国人’
(2)去除所有符号。采用清理数据,只保留字母、数字和中文的方法。
importre
res1=re.sub("[^a-zA-Z0-9\u4e00-u9fa5",'',str1)
print(res1)输出为:
‘我是速度发中国人’
下一篇 返回列表
