V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
qwert_solo
V2EX  ›  程序员

项目中有对大量dump出来的邮件文件(PST、EML)进行内容索引和查询的需求,由于可能有多人同时进行查询和建档工作,所以需要实现一个类似搜索引擎的查询平台,各位有没有推荐的实现方案?

  •  
  •   qwert_solo · 2013-03-14 18:51:49 +08:00 · 4639 次点击
    这是一个创建于 4281 天前的主题,其中的信息可能已经有所发展或是发生改变。
    比如用户在搜索接口中搜索“mentos”,在反馈回来的结果中应该包含如下展示:
    1、“mentos”所在的上下文(一句话就行);
    2、该单词出现所在的入库的原始文件地址(比如/home/data/library/wak.pst);
    3、如果邮件中包含附件(如pdf、doc等),也需要对其进行索引查询。
    数据量很大,几十个T吧,所以基本排除了查询时copy一份然后google desktop之类的方案。
    11 条回复    1970-01-01 08:00:00 +08:00
    qwert_solo
        1
    qwert_solo  
    OP
       2013-03-15 16:55:12 +08:00
    为啥没人理我呢?
    是不是我没说清楚问题。。。。
    热盼各位解答:)
    vibbow
        2
    vibbow  
       2013-03-16 07:54:06 +08:00
    这又是哪家邮箱服务要做全文搜索了么?
    Tianpu
        3
    Tianpu  
       2013-03-17 13:37:58 +08:00 via iPhone
    哎呀 这几天刚做了个邮件列表的归档 才加到一天2000多封 你们邮件真多

    可以看看www.xunsearch.com
    sun1991
        4
    sun1991  
       2013-03-17 17:01:40 +08:00
    如果需要解析PST文件的程序, 可以联系我. 纯.Net实现, 不依赖额外组件. 抽取邮件正文, 附件.
    [email protected]
    Actrace
        5
    Actrace  
       2013-03-17 17:26:58 +08:00
    总是有人闲着蛋疼。。。又是一个做搜索的。。。
    jimmy2010
        6
    jimmy2010  
       2013-03-17 18:49:36 +08:00
    @Tianpu xunsearch我不会用。。我已经按照教程安装好了,但是不知道怎么使用,XS.php文件也包含在了web可访问的一个php中,但是打开之后是空白,是不是一定要二次开发之后才能使用?
    要是能有使用的例子就好了,比如:从安装到最后能对服务器上某一文件夹下的超大文本文件做全文搜索..
    Tianpu
        7
    Tianpu  
       2013-03-17 20:13:44 +08:00
    @jimmy2010 如果不确定 最好找商业的支持 因为可能甚至是环境因素什么的
    qwert_solo
        8
    qwert_solo  
    OP
       2013-03-17 20:16:06 +08:00
    @Actrace 看来是我没说清楚,不是做搜索,是自己项目中的数据需要整理
    qwert_solo
        9
    qwert_solo  
    OP
       2013-03-17 20:18:26 +08:00
    @Tianpu 很好的建议,不过xunsearch是不是支持对诸如pst等的支持?没看到例子。。。@jimmy2010我也觉得要是有能使用的例子就好了:)
    Tianpu
        10
    Tianpu  
       2013-03-17 20:27:45 +08:00   ❤️ 1
    @qwert_solo 额外库的支持自己找啊 比如 http://www.five-ten-sg.com/libpst/

    我觉得 海量的数据应该就是搜索的概念了 只是搜索的字段很少而已

    不然把所有信息读到文本文件 或者 sql什么的 然后正则 或者 like也是解决的办法 只是性能上就不行了吧
    qwert_solo
        11
    qwert_solo  
    OP
       2013-03-19 02:22:43 +08:00
    @Tianpu thanks!我去试试看
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5672 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 03:35 · PVG 11:35 · LAX 19:35 · JFK 22:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.