V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Ewig
V2EX  ›  Python

爬虫拉勾网的反爬

  •  
  •   Ewig · 2018-10-22 11:40:43 +08:00 · 5171 次点击
    这是一个创建于 2231 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近在爬拉勾网 ,但是在爬的过程中遇到好像是滑动验证码
    res = requests.get(companyLink, headers=header, cookies=get_cookies(cookies_str))
    这是请求带的参数

    https://passport.lagou.com/login/login.html?msg=validation&uStatus=2&clientIp=47.105.103.225 请求的时候回偶尔跳转这个登陆页面
    所以我猜是反爬 有人遇到过吗?

    我试过本地稳定 ip 和动态代理,都会有这种情况发生
    12 条回复    2018-10-23 10:18:13 +08:00
    PulpFunction
        1
    PulpFunction  
       2018-10-22 11:45:01 +08:00
    login 不就是登录吗

    这种网站应该有反爬吧
    violence123456
        2
    violence123456  
       2018-10-22 11:51:48 +08:00
    依稀记得当年被拉勾禁了一段时间 ip23333
    Ewig
        3
    Ewig  
    OP
       2018-10-22 11:53:01 +08:00
    @PulpFunction 我知道有反爬,所以才来问大家最近有人爬过没有
    cuzfinal
        4
    cuzfinal  
       2018-10-22 14:34:29 +08:00
    拉钩的反爬应该挺难弄的,毕竟拉钩好多数据就是自己爬的。
    wersonliu9527
        5
    wersonliu9527  
       2018-10-22 14:43:53 +08:00
    我们公司爬烂了,长期爬最好用代理 ip,一次的话本地 ip 加 cooki 就行
    post 请求 'https://www.lagou.com/jobs/positionAjax.json?px=new&needAddtionalResult=false' 这个接口
    参数下面自己循环变换
    data = {
    'first': 'true',
    'pn': 页码,
    'kd': 关键字)
    }
    LeungV2
        6
    LeungV2  
       2018-10-22 15:16:46 +08:00
    爬虫 爬虫,听起来很像很好玩
    571726193
        7
    571726193  
       2018-10-22 15:55:29 +08:00
    谁能给我详细解释一下爬虫 ,干什么用的 ,通俗易懂的
    zxcvsh
        8
    zxcvsh  
       2018-10-22 16:04:34 +08:00 via iPhone
    @571726193 用代码替代浏览器手动访问网页,并将目标网页元素 down 下来
    Loooom
        9
    Loooom  
       2018-10-22 16:49:51 +08:00
    @wersonliu9527 低调低调...
    Ewig
        10
    Ewig  
    OP
       2018-10-22 17:23:19 +08:00
    @wersonliu9527 我用本地 ip 会 302 跳转 验证码这是咋回事
    ppi
        11
    ppi  
       2018-10-23 09:56:53 +08:00
    "success": false,
    "msg": "您操作太频繁,请稍后再访问",
    Ewig
        12
    Ewig  
    OP
       2018-10-23 10:18:13 +08:00
    @ppi 你发的这是啥意思
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2883 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 06:46 · PVG 14:46 · LAX 22:46 · JFK 01:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.