前言
今日在处理词表用到了python的split方法,结果发现在切分的过程中会遇到一些切分列表中生成了空字符串。以前的时候,也遇到过这个现象,但是从来没有深究过这个问题,通过查阅了一些资料后,今天我们就来讲一讲,为什么python的split方法通常包含空字符串。
Split方法
对于一个字符串a = “\split\split”,如果对它使用split方法按照“\”进行切分,我们会看到如下结果:
a = "/split/split/"
a.split("/")
"""
output:
['', 'split', 'split', '']
"""
可以看到的是,在list的头尾都出现了空字符串,如果我们期望的是获取字符串中的非空元素,那么split方法并不能帮我们实现这一结果。 那么,为什么会出现这样的结果呢?我的理解是,str.split方法是str.join方法的逆方法,我们即可以通过split方式来切割字符串,同样可以通过join方法还原字符串。
a = ['', 'split', 'split', '']
print("/".join(a))
b = ['split', 'split']
print("/".join(b))
"""
output1: /split/split/
output2: split/split
"""
[’’, ‘split’, ‘split’, ‘’],这一列表中,其实就包含了‘/’在原字符串的位置信息,如果此时返回的结果是[‘split’, ‘split’],这时我们将丢失原字符串的信息。 通过上述分析,我们可以的出下面这个结论: 如果字符串中有n个分隔符,调用split方法则可以得到n+1个长度的列表。
如果我们真的需要过滤空字符串,那么使用filter方法,即可高效实现这个需求。
a = "/split/split/"
filter(lambda x: x != "" ,a.split("/"))
|