五、提问:如何找出大数据量中的重复数据?
大约 1 分钟
五、提问:如何找出大数据量中的重复数据?
场景:表1有50w+条数据;在这50W+数据中找出其中重复的数据。重复数据的条件是:表1中的字段1、字段2、字段3、字段4的值与其他数据的这几个字段值相等(其中表1中有20+字段),请问有什么合适的方案从这50W条数据中筛选出重复的数据(重复数据大概有5000条)。
方案一:通过sql在内存中比对
通过row number,group by having写sql语句进行查询,对数据库性能要求高,耗时。
方案二:
对重复的数据判定条件进行冗余一个hash字段,然后拿这个字段判断比较是否有相同的。
拓展:另外做拉链表可以使用md5值来判断一个数据是否被更新过。