V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  wc110302  ›  全部回复第 3 页 / 共 4 页
回复总数  65
1  2  3  4  
富士拍立得 /雷蛇( Razer )萨诺狼蛛专业游戏薄膜键盘 /绿联 Type-c 转 HDMI/VGA 扩展坞 三选一,我选拍立得。
2018-10-24 16:02:11 +08:00
回复了 ihaveobj 创建的主题 推广 1024 程序员节日快乐,只能给大家送点币以表祝福了
1024
万一中奖了呢 略略略~
1024
2018-10-19 13:38:31 +08:00
回复了 CharlieBrown 创建的主题 Python 爬虫工程师这个岗位是否对新手很不友好
@zidian9 --! 先不说目前一部分网站的反爬已经能识别 headless,光是资源耗占以及抓取效率大部分公司都是不会采用的,一部分网站的思路倒是可以通过浏览器拿到 cookie,然后再抓包进行操作
2018-10-19 11:14:37 +08:00
回复了 CharlieBrown 创建的主题 Python 爬虫工程师这个岗位是否对新手很不友好
现在爬虫真的是好难搞啊,我最近在公司里面也是很苦难,面对对方频繁更换反爬策略无从下手,一会儿更换验证码,一会儿更换封 ip 频率,从 PC 端搞到 APP 端,不过说实话现在 APP 的反爬还没 PC 那么严重,得会一些反编译手段,脱壳,逆向,有 JAVA 功底应该不难。现在我也是很苦恼,到底是在 PC 端一路走到底,把 JS 给弄透吃透,还是去好好搞 APP 端,把反编译,逆向这些给弄明白,又或者是在验证码机器学习识别上下功夫
2018-10-17 16:08:56 +08:00
回复了 wc110302 创建的主题 Python 最近准备爬取的一个网站遇到的瓶颈
@stephen2018 可以尝试下 pyqt
2018-10-08 14:31:41 +08:00
回复了 wc110302 创建的主题 Python 最近准备爬取的一个网站遇到的瓶颈
@locoz 现在是在尝试 app 了,pc 端的搞不定--!
2018-10-08 09:32:21 +08:00
回复了 wc110302 创建的主题 Python 最近准备爬取的一个网站遇到的瓶颈
@angkee 可以啊 留下你的 v
2018-09-29 17:47:15 +08:00
回复了 wateryessence 创建的主题 Python 如何用爬虫爬取猫眼等网站上的电影信息?
自学,写了很多小网站爬虫,可以看一下 --> https://github.com/wc110302/My-spider
2018-09-28 11:56:42 +08:00
回复了 wc110302 创建的主题 Python 最近准备爬取的一个网站遇到的瓶颈
@xiaozizayang 尝试了一下--! 会被反爬虫识别 出现验证码
Pardon Our Interruption
['//cdn.distilnetworks.com/images/anomaly-detected.png']
2018-09-27 18:17:12 +08:00
回复了 wc110302 创建的主题 Python 最近准备爬取的一个网站遇到的瓶颈
@valord577 感谢分享。 但是 selenium 效率确实是太低了 并且消耗资源较多 抓取数据的量又比较大 单一个 cookie 只能使用 4-5 次 所以暂时不考虑走 selenium 实在不行的话就只能走 app 端了
2018-09-27 17:49:24 +08:00
回复了 wc110302 创建的主题 Python 最近准备爬取的一个网站遇到的瓶颈
2018-09-27 15:17:01 +08:00
回复了 wc110302 创建的主题 Python 最近准备爬取的一个网站遇到的瓶颈
@richieboy cookie 是动态生成的没错 我用相同的 P 参数每次从 response headers 里面拿到的 cookie 都不一样 然后我将这些 cookie 拼接之后和正常生成的 cookie 对比了一下 是一模一样的 但是用这个 cookie 就无法拿到数据 而真实的 cookie 就可以 并且有趣的是 我如果用该 ip 去真实访问了这个网站 这个 cookie (我自己 requests 伪造生成的)也可以用了
2018-09-27 13:47:27 +08:00
回复了 wc110302 创建的主题 Python 最近准备爬取的一个网站遇到的瓶颈
@vegetta selenium 就是效率太低了 并且该网站会检测无头 无 js 这样也加大了服务器的负载
2018-09-27 13:46:18 +08:00
回复了 wc110302 创建的主题 Python 最近准备爬取的一个网站遇到的瓶颈
@exip 参数应该没有遗漏 我在使用某一个 ip 拿到所有 cookie 之后 如果我使用这个 ip 真实地用浏览器访问了该网站 那么我之前拿到的那个 cookie 就能使用一段时间 具体原理我也不太明白 也许是他们记录在了服务器上
2018-09-27 13:43:12 +08:00
回复了 wc110302 创建的主题 Python 最近准备爬取的一个网站遇到的瓶颈
@nooper 是尝试过的 但是效率太低了 不符合预期 并且并发的情况也不太理想
2018-09-27 13:40:37 +08:00
回复了 wc110302 创建的主题 Python 最近准备爬取的一个网站遇到的瓶颈
@ericgui 是挺费劲的 啥都要学一点 js 要学 接口要会做 app 端 wechat 端 pc 端得会抓包 偶尔还得做个 GUI 什么的
2018-09-27 10:48:16 +08:00
回复了 wc110302 创建的主题 Python 最近准备爬取的一个网站遇到的瓶颈
https://i.loli.net/2018/09/27/5bac44a20e9c0.png 这是一直关于 distil networks 的 fiddler 跟踪图片 p 参数记录的是浏览器指纹 我现在多次使用这个 p 参数 是能拿到返回值的 但是这个返回值拿不到正确的数据
2018-08-29 09:04:52 +08:00
回复了 wc110302 创建的主题 Python 关于一个 selenium 被反爬虫识别的问题
@xiaoyu233 感谢老铁提供的方法。 这里统一回复一下 使用 pyqt5 可以绕过该网站的反爬服务。 模拟操作需要全程注入 js
1  2  3  4  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2717 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 08:58 · PVG 16:58 · LAX 00:58 · JFK 03:58
Developed with CodeLauncher
♥ Do have faith in what you're doing.