python collections

2019-07-07

1	for collections import xxx

collections模块在python内置数据类型的基础上，提供了几个额外的好用的数据类型：

namedtuple(): 生成可以使用名字来访问元素内容的tuple子类
deque: 双端队列，可以快速的从两侧加减对象
Counter: 计数器，主要用来计数
OrderedDict: 有序字典
defaultdict: 带有默认值的字典

namedtuple()

namedtuple是一个函数，它用来创建一个自定义的tuple对象，并且规定了tuple元素的个数，并可以用属性而不是索引来引用tuple的某个元素。

这样一来，我们用namedtuple可以很方便地定义一种数据类型，它具备tuple的不变性，又可以根据属性来引用，使用十分方便。

栗子

from collections import namedtuple

Point = namedtuple('Point', ['x','y]')
p = Point(1,2)
print(p.x, p.y)

deque

使用list存储数据时，按索引访问元素很快，但是插入和删除元素就很慢了，因为list是线性存储，数据量大的时候，插入和删除效率很低。

deque是为了高效实现插入和删除操作的双向列表，适合用于队列和栈：

栗子

from collections import deque

q = deque(['a', 'b', 'c'])
q.append('x')
q.appendleft('y')

deque除了实现list的append()和pop()外，还支持appendleft()和popleft()，这样就可以非常高效地往头部添加或删除元素。

defaultdict

使用dict时，如果引用的Key不存在，就会抛出KeyError。如果希望key不存在时，返回一个默认值，就可以用defaultdict。

from collections import defaultdict

dd = defaultdict(lambda: 'N/A')
dd['key1'] = 'abc'

dd['key1'] # key1存在'abc'
dd['key2'] # key2不存在，返回默认值'N/A'

tips: 普通dict也可以用dict.get(‘key’,’N/A’)来实现

OrderedDict

使用dict时，Key是无序的。在对dict做迭代时，我们无法确定Key的顺序。

如果要保持Key的顺序，可以用OrderedDict

OrderedDict的Key会按照插入的顺序排列，不是Key本身排序
在它内部维护了一个双向链表，所以Orderedict的大小是普通字典的2倍多

Counter

Counter是一个简单的计数器，例如，统计字符出现的个数：

from collections import Counter

s = '''A Counter is a dict subclass for counting hashable objects. It is an unordered collection where elements are stored as dictionary keys and their counts are stored as dictionary values. Counts are allowed to be any integer value including zero or negative counts. The Counter class is similar to bags or multisets in other languages.'''.lower()

c = Counter(s)
# 获取出现频率最高的5个字符
print c.most_common(5)


# Result:
[(' ', 54), ('e', 32), ('s', 25), ('a', 24), ('t', 24)]

Counter实际上也是dict的一个子类