单张 mongo 表记录上亿条，需要根据时间正序查询出来，没有任何条件，使用 Java 来操作，性能如何把控

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐工具

› RoboMongo

Related Blogs

› Snail in a Turtleneck

这是一个创建于 2110 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前想到的是用批量的方式，就是分页的那种操作来查，还有什么好的思路么。

mongo

单张

Java

把控

23 条回复 • 2019-02-19 13:09:42 +08:00

Ehco1996

2019-02-18 11:49:23 +08:00

有 index?没有就加，但感觉就算加了也扛不住
全部 dump 进 es?

楼下大牛来出个好主意吧

lhx2008

2019-02-18 11:51:24 +08:00

在 mongo 内部聚合，或者导出用别的软件做聚合，直接查出来不现实，前端也不需要

rrfeng

2019-02-18 11:52:49 +08:00 via Android

没看懂查询是什么意思，建议仔细描述。

只按一个字段（时间）顺序查的话性能不会有任何问题。

Caskia

2019-02-18 11:53:10 +08:00

没有分页？前端直接展示上亿？
如果有分页，时间加 index 没问题啊.

zxxufo008

2019-02-18 11:56:04 +08:00

MongoDB 本身的 ObjectId 是能获取时间戳的，按时间查询没什么问题

wysnylc

2019-02-18 11:57:33 +08:00

跟 java 没有什么关系,java 能做的就一个查询分页参数
问题在 mongo

Inside

2019-02-18 12:34:01 +08:00

假设一条记录 5k 大小，1 亿条就是 500G，确定内存、带宽真的够？
分页是必选项。

Debiancc

2019-02-18 12:50:45 +08:00

全部查询出来不太现实，如果想做 aggregation 可以直接压到 mongo 上，MongoDB MapReduce 了解一下。

alienx717

2019-02-18 13:49:23 +08:00

@Ehco1996 @Caskia @Debiancc @Inside @lhx2008 @rrfeng @wysnylc @zxxufo008
是这样的，没有前端页面的需求，这个功能可能只用一次，也不需要聚合，时间字段已经有 index 了。
需求是需要把 mongo 表中的历史数据逐一发送到一个指定的服务器上，使用 mina 做的发送这块已经搞定了，问题是数据量太大，读取发送程序和 mongo 都在同一个服务器上。
我目前想的是按照分页的方式批量查询出来然后逐一发走，发完再按照分页的方式继续查，不知道我这样是不是想的太简单了。没发送一条会往 redis 中做一个记录（存一个时间），一旦程序崩了，再次启动时先去 redis 里面找看看有没有内容，如果有，把那个时间拿出来，这时候就要加上查询条件了，把大于这个时间的内容分页查出来，再操作。

Debiancc

2019-02-18 14:03:31 +08:00

如果只是数据搬砖，可以找找生态系统里面配套的迁移工具。先迁移过去，再清洗。
如果消费端不可控，建议做 Queue。这个数据量还要逐一发送，不做容错有点难受。

alienx717

2019-02-18 14:07:53 +08:00

@Debiancc 因为对方只能发送 tcp 自定义的报文，其他的方式不行。

Debiancc

2019-02-18 14:16:27 +08:00

@alienx717 用游标吧，无限 Next。当进入 Exception，记录下当下的 criteria。下次重启继续撸，但这样并行支持不太友好。