应用场景：

1、cache存储，以query的参数为key，存储一天有效期的结果；（query的参数往往很多，字符串很长，不可直接存储）

2、数据的增量更新（爬虫等等）

背景

有时候爬虫爬过的url需要进行指纹核对，比如Scrapy就是进行指纹核对，如果是指纹重复则不再爬取。当然在入库的时候我还是需要做一次核对，否则如果爬虫有漏掉，进入数据库就不合适了。

思路

根据Scrapy的指纹生成方式，这次的指纹生成方式也是用hash的MD5对目标URL进行加密，生成固定长度的字符串，然后在数据库里面将字段设置成unique，这样的话在保证url固定长度的情况下还能够保证入库后的唯一性，进最大努力避免出现重复的数据。

指纹生成代码

新建一个文件，然后在里面编写指纹生成的方法，在使用的时候from import进来，调用方法即可。代码为：

import hashlib

def get_md5(url):

"""

由于hash不处理unicode编码的字符串（python3默认字符串是unicode）

所以这里判断是否字符串，如果是则进行转码

初始化md5、将url进行加密、然后返回加密字串

"""

if isinstance(url, str):

????????url = url.encode("utf-8")

????????md = hashlib.md5()

????????md.update(url)

????????return md.hexdigest()

if __name__ == "__main__":

? ? ? ? # 测试可用性：

????????urls = "http://www.baidus.com"

????????print(get_md5(urls))