V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
noblevil
V2EX  ›  Python

把 AAAI 和 ICML 等顶级会议近三年的所有作者邮箱爬一下出来,我只需要邮箱信息,不需要作者名字和单位,这个难度大不大?

  •  
  •   noblevil · 2020-03-11 17:11:16 +08:00 · 3486 次点击
    这是一个创建于 1723 天前的主题,其中的信息可能已经有所发展或是发生改变。
    beimenjun
        1
    beimenjun  
       2020-03-11 17:15:27 +08:00
    虽然说这种问题本质上是小马过河,但我觉得对于有这种疑问的人,这种需求难度很大。
    Showfom
        2
    Showfom  
       2020-03-11 17:23:17 +08:00   ❤️ 1
    然后你群发尼日利亚王子?
    noblevil
        3
    noblevil  
    OP
       2020-03-11 17:25:32 +08:00 via Android
    @Showfom 8 懂这个梗
    noblevil
        4
    noblevil  
    OP
       2020-03-11 17:26:39 +08:00 via Android
    @beimenjun 哈哈 确实 我直接把导师复制过来了
    bububububiu
        5
    bububububiu  
       2020-03-11 17:48:15 +08:00
    虽然我觉得这个需求很简单,但我觉得问出难度大不大的,那难度肯定很大
    bububububiu
        6
    bububububiu  
       2020-03-11 17:48:38 +08:00
    dblp 应该可以下载 content list
    lxk11153
        7
    lxk11153  
       2020-03-11 18:13:28 +08:00
    大 [滑稽] 外包给我~ Contact: UVEgNDQzOTc0MTU5IC0vXy8uLS4uLy4uLy4tLy0uLy0tLg==
    jimmyismagic
        8
    jimmyismagic  
       2020-03-11 18:15:40 +08:00
    网站上直接拉一下不就好了,邮箱,姓名,摘要,基本都能看到的
    crella
        9
    crella  
       2020-03-11 18:20:22 +08:00 via Android
    静态网页和能直接下载 json 的网站都挺好爬的吧……
    noblevil
        10
    noblevil  
    OP
       2020-03-11 18:42:41 +08:00 via Android
    @bububububiu 只要是我没看到哪些网页上有给邮箱信息的 只有打开论文链接查看论文 PDF 才有邮箱 我到是想把所有 PDF 下载下来 处理一下 PDF 就好
    noblevil
        11
    noblevil  
    OP
       2020-03-11 18:45:28 +08:00 via Android
    @lxk11153 我干活都没钱 还外包给别人 我才不干赔钱的买卖 哈哈哈
    noblevil
        12
    noblevil  
    OP
       2020-03-11 18:45:49 +08:00 via Android
    @jimmyismagic 我也想这么跟我导师讲
    noblevil
        13
    noblevil  
    OP
       2020-03-11 18:46:13 +08:00 via Android
    @crella 就是没看到这样的信息...
    xupefei
        14
    xupefei  
       2020-03-11 18:52:21 +08:00 via iPhone
    要邮箱干啥,群发代发论文广告?
    代发 ccf 和 sci 论文的邮件最近我每天都能收到三封,不过全被系统识别出来进垃圾箱了
    noblevil
        15
    noblevil  
    OP
       2020-03-11 18:53:24 +08:00 via Android
    @xupefei 导师让我做什么 我就做什么呗 上面的事我哪里过问
    noblevil
        17
    noblevil  
    OP
       2020-03-11 21:09:47 +08:00
    @Showfom 有点意思... 长见识了 不过我是导师需要 我也不管他想干什么...
    Showfom
        18
    Showfom  
       2020-03-11 21:25:37 +08:00
    @noblevil 他可能想做尼日利亚王子
    rurishi
        19
    rurishi  
       2020-03-11 21:28:51 +08:00
    你把文件都爬下来然后 pdf 随便处理一下提取 email 地址就可以了
    按不同站分析
    写爬虫
    处理 pdf
    网站不乱搞什么动态验证的话写起来很快的。。。
    plutoQ
        20
    plutoQ  
       2020-03-11 22:33:57 +08:00 via Android
    @xupefei #14 我怎么收不到,我还挺想找人代发 ccf
    TransAM
        21
    TransAM  
       2020-03-11 22:42:22 +08:00 via Android
    @plutoQ 我也想(笑)
    yangzhezjgs
        22
    yangzhezjgs  
       2020-03-11 22:51:12 +08:00
    只要邮箱,是要群发邮件?我感觉这样不好吧
    ljpCN
        23
    ljpCN  
       2020-03-11 22:53:53 +08:00
    dblp / 会议论文集 -> doi -> 出版社网页 -> 作者邮箱
    TransAM
        24
    TransAM  
       2020-03-12 13:33:17 +08:00 via Android
    其实这跟从简历里批量提取邮箱是一样一样一样的,一搜就能搜到好多轮子。。

    @xupefei 你注册了啥网站,或者在什么地方留了邮箱?
    @noblevil
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1065 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:28 · PVG 04:28 · LAX 12:28 · JFK 15:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.