V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ysn2233
V2EX  ›  Hadoop

有什么好的办法可以用 Flink/Spark 高效率并行处理大量大小不一的压缩数据

  •  
  •   ysn2233 · 2020-03-11 13:30:18 +08:00 · 2947 次点击
    这是一个创建于 1723 天前的主题,其中的信息可能已经有所发展或是发生改变。

    数据格式都是 gzip 压缩,都没法切分,只能一个线程读一个文件,很多时候小文件早就处理完了,但大文件会非常慢。有没有什么好的办法可以让 gzip 变得 splittable

    2 条回复    2020-03-12 09:33:25 +08:00
    alya
        1
    alya  
       2020-03-11 15:13:13 +08:00
    换 snappy
    kex0916
        2
    kex0916  
       2020-03-12 09:33:25 +08:00
    可以先将大文件解压缩后放到 hdfs 上后再做计算,或者可以试试 https://github.com/nielsbasjes/splittablegzip 这种
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5410 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 07:48 · PVG 15:48 · LAX 23:48 · JFK 02:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.