V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zhangsan
V2EX  ›  问与答

想深入的学习爬虫相关的技术,哪位前辈给点指点,该学点啥?

  •  
  •   zhangsan · 2014-08-15 22:16:51 +08:00 · 3902 次点击
    这是一个创建于 3759 天前的主题,其中的信息可能已经有所发展或是发生改变。
    先自我介绍下,做.NET开发4年了,ASP.NET,winfrom都搞过。
    一直有个进大公司的梦想,众所周知做c#很难进到大公司工作,加上又是专科毕业。
    看了某个稍微大点的公司,只有个爬虫岗位跟c#能沾点边。所以就盯上了这个岗位。
    工作这4年也接触过一些抓取的工作,都只是用正则抓一些文章、图片、模拟登录什么的,感觉有些小儿科。

    现在想深入、专业的学习下爬虫技术。

    求推荐路线、书籍、教程等

    同求专科程序员进大公司方法

    万分感谢!
    12 条回复    2014-08-16 03:52:39 +08:00
    jptanggordon
        1
    jptanggordon  
       2014-08-15 22:32:53 +08:00
    男神拉扎尔0 0
    em70
        2
    em70  
       2014-08-15 22:35:24 +08:00 via Android
    用尽你的所有办法,去把豆瓣电影,图书数据抓下来,存到数据库里。遇到实在无法逾越的困难再上来问人
    Heavytiger
        3
    Heavytiger  
       2014-08-15 22:40:20 +08:00
    爬虫和采集是一个意思么?怎么都推崇这个呢?
    zhangsan
        4
    zhangsan  
    OP
       2014-08-15 22:44:42 +08:00
    @jptanggordon thk 只是喜欢图上那句话,我还真不知道头像上这是谁。
    @em70 变相的技术提升过程,好建议,感谢!这就去抓。



    一定是夜深了,也没人来看帖子~
    bengol
        5
    bengol  
       2014-08-15 22:45:24 +08:00
    去百度
    zhangsan
        6
    zhangsan  
    OP
       2014-08-15 22:46:24 +08:00
    @Heavytiger 没有专业的学过,请原谅 概念不清与用词拙略~
    MarioLuisGarcia
        7
    MarioLuisGarcia  
       2014-08-15 22:46:44 +08:00 via Android
    楼主能整站抓取知乎就牛逼了,上面好多删答案的
    binux
        8
    binux  
       2014-08-15 23:02:52 +08:00
    学一遍怎么做网站,前后端一起,然后你就会爬了。
    zhangsan
        9
    zhangsan  
    OP
       2014-08-15 23:07:52 +08:00
    @MarioLuisGarcia 之前抓过58,OCR过验证码,但是感觉不是很专业,想专业的学学爬虫。
    @binux 网站还是会写点,能写个符合Web标准的页面。
    no13bus
        10
    no13bus  
       2014-08-15 23:26:37 +08:00
    @zhangsan 队列服务和定时爬取 这些都做了吗?可以试试celery框架。最近我一直在用。非常棒。
    zhangsan
        11
    zhangsan  
    OP
       2014-08-15 23:40:43 +08:00
    @no13bus 框架还真没用过,任务队列单机版的用消费者模式实现过(.net下异步实现比较简单),分布式的没用过,现在确实想看看分布式的爬虫实现。
    iannil
        12
    iannil  
       2014-08-16 03:52:39 +08:00
    http://v2ex.com/t/127220
    之前回答过,楼主移步查看。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1527 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 00:01 · PVG 08:01 · LAX 16:01 · JFK 19:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.