V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
cqcn1991
V2EX  ›  问与答

跑在客户端的分布式爬虫?

  •  
  •   cqcn1991 · 2018-12-18 21:48:40 +08:00 · 3010 次点击
    这是一个创建于 2184 天前的主题,其中的信息可能已经有所发展或是发生改变。

    自己有一个小爬虫网站 ( http://learnbyreading.herokuapp.com/)

    但感觉 Amazon 的数据太难爬了,容易被封

    所以,有没有可能把爬虫的一部分写到客户端,通过用户的浏览器去爬,然后返回一部分数据给我,这样我就不用去买 IP 了。。。。。

    20 条回复    2019-08-08 14:53:36 +08:00
    chwhsen
        1
    chwhsen  
       2018-12-18 23:09:51 +08:00
    木马爬虫?
    chengxiao
        2
    chengxiao  
       2018-12-18 23:12:55 +08:00
    兄弟 你这个跟肉鸡有什么区别?
    哪天 high 了 一波 DDOS 带走~
    kruskal
        3
    kruskal  
       2018-12-18 23:18:29 +08:00
    醒醒,把用户当肉鸡是违法行为
    freed
        4
    freed  
       2018-12-18 23:18:47 +08:00
    你能做到这个肯定有比较大的控制权限了,还靠他来爬东西?

    啥时候开始了告诉一声啊.我看看有没有达到量刑标准,要判几年
    cqcn1991
        5
    cqcn1991  
    OP
       2018-12-18 23:39:23 +08:00
    @chwhsen
    @chengxiao
    @kruskal
    我想的是跑在 js 里面...然后浏览器去爬某个网页,把数据返回给我。。。
    orangeade
        6
    orangeade  
       2018-12-18 23:43:40 +08:00
    不如先爬免费的 IP 代理池
    gamexg
        7
    gamexg  
       2018-12-18 23:51:03 +08:00
    感觉比价插件是一个很好的分布式爬虫。
    用户打开商品页面显示价格历史时自动将商品当前价格上传。
    t6attack
        8
    t6attack  
       2018-12-18 23:52:37 +08:00
    浏览器的 跨域限制 就是针对你的。
    Trim21
        9
    Trim21  
       2018-12-18 23:56:39 +08:00
    你想问的是无头浏览器吗, 还是真的像楼上说的那样想用某些正常用户的浏览器爬数据
    westoy
        10
    westoy  
       2018-12-18 23:57:07 +08:00
    不可能, 但是可以让用户通过类似 yahoo YQL 的方法给你提供数据, 问题是验证数据真实性的成本可能比多搞一个 IP 池高......
    freed
        11
    freed  
       2018-12-19 00:08:11 +08:00
    @gamexg 不一样,比价插件是用户自己打开某些网页读取到了数据的,楼主是想控制用户打开他指定的网页爬取数据再回传给服务器..
    chinafeng
        12
    chinafeng  
       2018-12-19 00:10:08 +08:00 via iPhone
    楼主大概需要什么量级的代理池呢?
    agdhole
        13
    agdhole  
       2018-12-19 01:03:00 +08:00
    京价保插件不就是这个原理吗
    onedayoneapple
        14
    onedayoneapple  
       2018-12-19 07:02:52 +08:00 via iPhone
    @orangeade 这个怎么爬
    cqcn1991
        15
    cqcn1991  
    OP
       2018-12-19 07:17:23 +08:00 via Android
    @Trim21 对,我以为在浏览器里的 console 里写爬虫就行,类似在浏览器里挖矿
    wly19960911
        16
    wly19960911  
       2018-12-19 08:25:31 +08:00 via Android
    js 的话浏览器跨域怎么解决
    woshipanghu
        17
    woshipanghu  
       2018-12-19 09:03:04 +08:00
    electron nightmare 你去看看 可能是你要的
    没什么浏览器跨域的问题,直接往页面里面注入你的 js 都行
    zhchyu999
        18
    zhchyu999  
       2018-12-19 09:30:21 +08:00
    有 refer 的
    gamexg
        19
    gamexg  
       2018-12-19 10:10:14 +08:00
    @freed #11 浏览器插件也能做到后台悄悄的按照楼主需求去爬,不过这么做会不会被下架就不知道了....
    boweixiaobang
        20
    boweixiaobang  
       2019-08-08 14:53:36 +08:00
    小帮软件机器人,是做客户端软件数据的自动采集和写入的。
    CS 的采集和写入小帮都有优势。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4927 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 08:03 · PVG 16:03 · LAX 00:03 · JFK 03:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.