完成 hashtale 代码

PegasusWang · PegasusWang · commit 4b084694a2d7 · 2018-04-22T10:58:24.000+08:00
diff --git a/docs/7_哈希表/hashtable.md b/docs/7_哈希表/hashtable.md
@@ -33,7 +33,7 @@ h(226) = 226 % M = 5
 h(903) = 903 % M = 6
 h(388) = 388 % M = 11
 ```
-下边我画个图演示整个插入过程:
+下边我画个图演示整个插入过程(纯手工绘制，原谅我字写得不太优雅):
 
 ![](./insert_hash.png)
 
@@ -112,7 +112,7 @@ h(388) = 388 % M = 1
 # 装载因子(load factor)
 如果继续往我们的哈希表里塞东西会发生什么？空间不够用。这里我们定义一个负载因子的概念(load factor)，其实很简单，就是已经使用的槽数比哈希表大小。
 比如我们上边的例子插入了 8 个元素，哈希表总大小是 13， 它的 load factor 就是 $ 8/13 \approx 0.62 $。当我们继续往哈希表插入数据的时候，很快就不够用了。
-通常当负载因子开始超过 0.8 的时候，就要新开辟空间了并且重新进行散列了。
+通常当负载因子开始超过 0.8 的时候，就要新开辟空间并且重新进行散列了。
 
 
 # 重哈希(Rehashing)
@@ -121,7 +121,31 @@ GROWTH_RATE 这个关键字，你会发现不同版本的 cpython 使用了不
 不为空槽的数据重新插入到新的哈希表里，插入方式和之前一样。这就是 rehashing 操作。
 
 # HashTalbe ADT
-这里我们来实现一个简化版的哈希表 ADT，主要是为了让你更好地了解它的工作原理，有了它，后边实现起 dict 和 set 来就小菜一碟了。
+实践是检验真理的唯一标准，这里我们来实现一个简化版的哈希表 ADT，主要是为了让你更好地了解它的工作原理，有了它，后边实现起 dict 和 set 来就小菜一碟了。
+这里我们使用到了定长数组，还记得我们在数组和列表章节里实现的 Array 吧，这里要用上了。
+
+解决冲突我们使用二次探查法。我们来实现三个哈希表最常用的基本操作，这实际上也是使用字典的时候最常用的操作。
+
+- add(key, value)
+- get(key, default)
+- remove(key)
+
+```py
+class Slot(object):
+    """定义一个 hash 表 数组的槽
+    注意，一个槽有三种状态，看你能否想明白
+    1.从未使用 HashMap.UNUSED。此槽没有被使用和冲突过，查找时只要找到 UNUSED 就不用再继续探查了
+    2.使用过但是 remove 了，此时是 HashMap.EMPTY，该探查点后边的元素扔可能是有key
+    3.槽正在使用 Slot 节点
+    """
+    def __init__(self, key, value):
+        self.key, self.value = self.key, self.value
+
+class HashTable(object):
+    pass
+```
+
+具体的实现和代码编写在视频里讲解。
 
 # 延伸阅读
 - 《Data Structures and Algorithms in Python》11 章 Hash Tables
diff --git a/docs/7_哈希表/hashtable.py b/docs/7_哈希表/hashtable.py
@@ -0,0 +1,166 @@
+# -*- coding: utf-8 -*-
+
+# 从数组和列表章复制的代码
+
+
+class Array(object):
+
+    def __init__(self, size=32):
+        self._size = size
+        self._items = [None] * size
+
+    def __getitem__(self, index):
+        return self._items[index]
+
+    def __setitem__(self, index, value):
+        self._items[index] = value
+
+    def __len__(self):
+        return self._size
+
+    def clear(self, value=None):
+        for i in range(self._items):
+            self._items[i] = value
+
+    def __iter__(self):
+        for item in self._items:
+            yield item
+
+
+class Slot(object):
+    """定义一个 hash 表 数组的槽
+    注意，一个槽有三种状态，看你能否想明白。相比链接法解决冲突，二次探查法删除一个 key 的操作稍微复杂。
+    1.从未使用 HashMap.UNUSED。此槽没有被使用和冲突过，查找时只要找到 UNUSED 就不用再继续探查了
+    2.使用过但是 remove 了，此时是 HashMap.EMPTY，该探查点后边的元素扔可能是有key
+    3.槽正在使用 Slot 节点
+    """
+
+    def __init__(self, key, value):
+        self.key, self.value = key, value
+
+
+class HashTable(object):
+
+    UNUSED = None    # 没被使用过的槽，作为该类变量的一个单例，下边都是is 判断
+    EMPTY = Slot(None, None)     # 使用过但是被删除的槽
+
+    def __init__(self):
+        self._table = Array(7)
+        self.length = 0
+
+    @property
+    def _load_factor(self):
+        # load factor 超过 2/3 就重新分配空间
+        return self.length / float(len(self._table))
+
+    def __len__(self):
+        return self.length
+
+    def _hash1(self, key):
+        """ 计算key的hash值"""
+        return abs(hash(key)) % len(self._table)
+
+    def _hash2(self, key):
+        """ key冲突时候用来计算新槽的位置"""
+        return 1 + abs(hash(key)) % (len(self._table) - 2)
+
+    def _find_slot(self, key, for_insert=False):
+        """_find_slot
+
+        :param key:
+        :param for_insert: 是否插入，还是仅仅查询
+        :return:  slot index or None
+        """
+        index = self._hash1(key)
+        step = self._hash2(key)
+        _len = len(self._table)
+
+        if not for_insert:  # 查找是否存在 key
+            while self._table[index] is not HashTable.UNUSED:
+                if self._table[index] is HashTable.EMPTY:
+                    index = (index + step) % _len
+                    continue
+                elif self._table[index].key == key:
+                    return index
+                index = (index + step) % _len
+            return None
+        else:
+            while not self._slot_can_insert(index):  # 循环直到找到一个可以插入的槽
+                index = (index + step) % _len
+            return index
+
+    def _slot_can_insert(self, index):
+        return (self._table[index] is HashTable.EMPTY or self._table[index] is HashTable.UNUSED)
+
+    def __contains__(self, key):   # in operator
+        index = self._find_slot(key, for_insert=False)
+        return index is not None
+
+    def add(self, key, value):
+        if key in self:    # key 相同值不一样的时候，用新的值
+            index = self._find_slot(key, for_insert=False)
+            self._table[index].value = value
+            return False
+        else:
+            index = self._find_slot(key, for_insert=True)
+            self._table[index] = Slot(key, value)
+            self.length += 1
+            if self._load_factor >= 0.8:    # 注意超过了 阈值 rehashing
+                self._rehash()
+            return True
+
+    def _rehash(self):
+        old_table = self._table
+        newsize = len(self._table) * 2 + 1   # 扩大 2*n + 1
+        self._table = Array(newsize)
+
+        self.length = 0
+
+        for slot in old_table:
+            if slot is not HashTable.UNUSED and slot is not HashTable.EMPTY:
+                index = self._find_slot(slot.key, for_insert=True)
+                self._table[index] = slot
+                self.length += 1
+
+    def get(self, key, default=None):
+        index = self._find_slot(key, for_insert=False)
+        if index is None:
+            return default
+        else:
+            return self._table[index].value
+
+    def remove(self, key):
+        assert key in self, 'keyerror'
+        index = self._find_slot(key, for_insert=False)
+        value = self._table[index].value
+        self.length -= 1
+        self._table[index] = HashTable.EMPTY
+        return value
+
+    def __iter__(self):
+        for slot in self._table:
+            if slot not in (HashTable.EMPTY, HashTable.UNUSED):
+                yield slot.key   # 和 python dict 一样，默认遍历 key，需要value 的话写个 items() 方法
+
+
+def test_hash_table():
+    h = HashTable()
+    h.add('a', 0)
+    h.add('b', 1)
+    h.add('c', 2)
+
+    assert len(h) == 3
+    assert h.get('a') == 0
+    assert h.get('b') == 1
+    assert h.get('hehe') is None
+
+    h.remove('a')
+    assert h.get('a') is None
+
+    assert sorted(list(h)) == ['b', 'c']
+
+    for i in range(50):
+        h.add(i, i)
+
+    for i in range(50):
+        assert h.get(i) == i