def clean_str(string):
#半角英文特殊字符
string = re.sub(r"[A-Za-z&\*\.;\?!,:\-\'\^\`/\(\)]", "", string)
#去除中文特殊字符
string = re.sub(r"(~)", "", string)
string = re.sub(r"(《)", "", string)
string = re.sub(r"(》)", "", string)
string = re.sub(r"(@)", "", string)
string = re.sub(r"(¥)", "", string)
string = re.sub(r"(%)", "", string)
string = re.sub(r"(·)", "", string)
string = re.sub(r"(~)", "", string)
string = re.sub(r"(、)", "", string)
string = re.sub(r"(:)", "", string)
string = re.sub(r"(()", "", string)
string = re.sub(r"())", "", string)
string = re.sub(r"(ヽ)", "", string)
string = re.sub(r"(メ)", "", string)
string = re.sub(r"(ノ )", "", string)
string = re.sub(r"(#)", "", string)
string = re.sub(r"(【)", "", string)
string = re.sub(r"(】)", "", string)
string = re.sub(r"(:)", "", string)
string = re.sub(r"( )+", "", string)
string = re.sub(r"(。)+", "。", string)
string = re.sub(r"(?)+", "?", string)
string = re.sub(r"(!)+", "!", string)
string = re.sub(r"(;)+", ";", string)
string = re.sub(r"(,)+", ",", string)
#string = re.sub(r"( )+", "", string)
#string = re.sub(r"\s{2,}", "", string)
#中文空格是全角字符
string = re.sub(r"[0-9]{1,}", "N", string)
#所有的数字用N替换
return string.strip()
比较笨的中文预处理 python
最新推荐文章于 2025-03-06 17:13:50 发布
本文介绍了一个用于清理文本中特殊字符的Python函数。该函数能够移除指定的英文及中文特殊符号,并将所有数字替换为统一字符N,适用于预处理文本数据。
1328

被折叠的 条评论
为什么被折叠?



