以mysql为例。
遇到这个问题的时候最先想到的方法就是先从各个表中查询出相应的数据后使用程序循环遍历组装后在插入到数据库中。这是最直观的解决办法,但是这个方法处理超大结果集的时候就出现问题,例如:超出内存限制,运行时间过长等等。。。
这时使用另外一种方法应该会有帮助,那就是使用mysql的on duplicate key update方法来分步骤组合数据。
现在有3张表a,b,c。每个表的结构如下:
a表包含字段:id,a,b,c;
b表包含字段:aID,d,e,f;字段aID对应表a中的id
c表包含字段:aID,a,b,c,d,e,f;字段aID对应表a中的id
现在要把a表和b表中的数据组合后插入到c表中,其中a和b均包含1000W+的数据,如果采用查询-》组装-》插入数据库的方式,在查询步骤和组装步骤均会超出内存限制。
这是可以采用如下步骤:
INSERT INTO c (c.aID,c.a,c.b,c.c) SELECT a.id,a.a,a.b,a.c FROM a WHERE a.id<5000000
执行完成大约用时40秒
INSERT INTO c (c.aID,c.d,c.e,c.f) SELECT b.aID,b.d,b.e,b.f FROM b WHERE b.aID<5000000 ON duplicate KEY UPDATE c.d=VALUES(c.d),c.e=VALUES(c.e),c.f=VALUES(c.f)
执行完成大约用时50多秒
这样就把a和b中的数据组合插入到了c中。