V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
luzhizheng
V2EX  ›  Python

最近遇到棘手的 Python 爬虫问题,爬取国外 octopart 网站的时候,总弹出 403 页面

  •  
  •   luzhizheng · 2020-01-08 20:07:46 +08:00 · 2750 次点击
    这是一个创建于 1787 天前的主题,其中的信息可能已经有所发展或是发生改变。

    不管程序怎么请求,总是会弹出 403 页面,出现谷歌验证码,切换请求头和代理,都没用,已经试过各种请求头和 cookie 参数,它的 cookie 感觉总是时刻变换,不知道从何下手. 期间我研究过他的 cookie 中一个参数的生成方式,也就是_px 参数,我发现他多次请求了链接,应该是收集了浏览环境参数,然后返回的_px 参数,尝试过直接拿下来请求,但也没用,最多请求个几次就又不行了 利用浏览器请求也试过了,一样报 403,也用过了 puppeteer 等一切的渲染浏览器,也注入了 js 代码,获取到了 cookie 参数也都没起作用,还是日常报 403,出现谷歌验证码,点图片的那种. 有哪位大佬遇到过类似的问题吗,求解!!

    1 条回复    2020-01-13 16:52:46 +08:00
    Jerry1112
        1
    Jerry1112  
       2020-01-13 16:52:46 +08:00
    你这个爬取的具体页面是那个
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2798 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 07:46 · PVG 15:46 · LAX 23:46 · JFK 02:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.