V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Northxw
V2EX  ›  Python

某多多爬虫

  •  
  •   Northxw · 2019-04-22 09:46:20 +08:00 · 8515 次点击
    这是一个创建于 2049 天前的主题,其中的信息可能已经有所发展或是发生改变。

      某多多爬虫,anti_content 参数破解参考网上教程(因侵权问题,此处不公开链接),主要是通过是商品 API 完成商品信息的抓取,分析,存储,可视化等功能。

      Github: https://github.com/Northxw/Pinduoduo 欢迎提交 issue

    第 1 条附言  ·  2019-04-22 14:10:20 +08:00
    注意:这里抓取的站点是拼多多移动端链接。
    16 条回复    2024-02-06 12:33:11 +08:00
    yepinf
        1
    yepinf  
       2019-04-22 11:38:46 +08:00 via iPhone
    请教下,pdd 除了参数加密,还有什么注意点
    有闲置服务器,想稳定爬它几个月看看
    showHand043
        2
    showHand043  
       2019-04-22 12:19:39 +08:00
    没有反爬措施嘛.比如汽车之家,大众点评那种
    AnjingJingan
        3
    AnjingJingan  
       2019-04-22 13:02:30 +08:00
    pdd.txt 不存在
    Northxw
        4
    Northxw  
    OP
       2019-04-22 14:06:58 +08:00
    @AnjingJingan 跑一边程序就生成了,不可能把大文件放到 github 上啊。
    Northxw
        5
    Northxw  
    OP
       2019-04-22 14:07:58 +08:00
    @yepinf 目前还未发现其他反爬措施,不过大规模抓取的时候建议上代理。你先试试。
    Northxw
        6
    Northxw  
    OP
       2019-04-22 14:09:14 +08:00
    @showHand043 反爬措施就是参数加密啊(注意:注意看我的抓取链接),汽车之家和大众点评是网页字体反爬。
    AnjingJingan
        7
    AnjingJingan  
       2019-04-22 14:44:20 +08:00
    @Northxw 跑程序报了这个错
    Northxw
        8
    Northxw  
    OP
       2019-04-22 14:52:23 +08:00
    @AnjingJingan ???贴代码,我看看什么错误。
    Northxw
        9
    Northxw  
    OP
       2019-04-22 15:00:11 +08:00
    @AnjingJingan 或者你加我 QQ:2443498314, 密保问题:佩奇(备注来意)
    luanguang
        10
    luanguang  
       2019-04-22 15:00:21 +08:00
    原本想 star 的,看到这么多有趣的爬虫,还是 follow 吧。
    Northxw
        11
    Northxw  
    OP
       2019-04-22 15:00:48 +08:00
    @luanguang 哈哈 都行的, 互相学习
    stcasshern
        12
    stcasshern  
       2019-04-22 15:07:37 +08:00
    露珠下步计划是啥,感觉下步分析比较有趣
    Northxw
        13
    Northxw  
    OP
       2019-04-22 15:21:13 +08:00
    @stcasshern ???哈哈,你想要什么
    ricky0603
        14
    ricky0603  
       2020-05-21 11:57:49 +08:00
    楼主的账号问题是怎么解决的?我一个账号抓 300+条数据就被 ban
    funtanstic
        15
    funtanstic  
       299 天前
    大佬问题解决了么?账号很容易被 ban
    Northxw
        16
    Northxw  
    OP
       298 天前
    @funtanstic 兄弟,几年前的问题了,我现在已经不搞爬虫了,账号被 ban 就挂代理(真实代理,贵一点的,或者自己维护 ip 池)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2837 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 06:52 · PVG 14:52 · LAX 22:52 · JFK 01:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.