V2EX › wc110302 的所有回复 › 第 3 页 / 共 4 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4

❮

❯

2018-10-24 16:11:19 +08:00

回复了 lyver 创建的主题 › 推广 › 10.24 程序员日，送福利理由就这么简单粗暴！！ [这次的礼品使我非常嫉妒]

富士拍立得 /雷蛇（ Razer ）萨诺狼蛛专业游戏薄膜键盘 /绿联 Type-c 转 HDMI/VGA 扩展坞三选一，我选拍立得。

2018-10-24 16:02:11 +08:00

回复了 ihaveobj 创建的主题 › 推广 › 1024 程序员节日快乐，只能给大家送点币以表祝福了

1024

2018-10-24 16:00:59 +08:00

回复了 BearyChat 创建的主题 › 推广 › 一个非常随意的活动--随机抽奖送抱枕+程序员周历+戏精贴纸+互怼 T 恤！快上车！！！

万一中奖了呢略略略~

2018-10-24 15:07:54 +08:00

回复了 lyver 创建的主题 › 推广 › 10.24 程序员日，送福利理由就这么简单粗暴！！ [这次的礼品使我非常嫉妒]

1024

2018-10-19 13:38:31 +08:00

回复了 CharlieBrown 创建的主题 › Python › 爬虫工程师这个岗位是否对新手很不友好

@zidian9 --！先不说目前一部分网站的反爬已经能识别 headless，光是资源耗占以及抓取效率大部分公司都是不会采用的，一部分网站的思路倒是可以通过浏览器拿到 cookie，然后再抓包进行操作

2018-10-19 11:14:37 +08:00

回复了 CharlieBrown 创建的主题 › Python › 爬虫工程师这个岗位是否对新手很不友好

现在爬虫真的是好难搞啊，我最近在公司里面也是很苦难，面对对方频繁更换反爬策略无从下手，一会儿更换验证码，一会儿更换封 ip 频率，从 PC 端搞到 APP 端，不过说实话现在 APP 的反爬还没 PC 那么严重，得会一些反编译手段，脱壳，逆向，有 JAVA 功底应该不难。现在我也是很苦恼，到底是在 PC 端一路走到底，把 JS 给弄透吃透，还是去好好搞 APP 端，把反编译，逆向这些给弄明白，又或者是在验证码机器学习识别上下功夫

2018-10-17 16:08:56 +08:00

回复了 wc110302 创建的主题 › Python › 最近准备爬取的一个网站遇到的瓶颈

@stephen2018 可以尝试下 pyqt

2018-10-08 14:31:41 +08:00

回复了 wc110302 创建的主题 › Python › 最近准备爬取的一个网站遇到的瓶颈

@locoz 现在是在尝试 app 了，pc 端的搞不定--！

2018-10-08 09:32:21 +08:00

回复了 wc110302 创建的主题 › Python › 最近准备爬取的一个网站遇到的瓶颈

@angkee 可以啊留下你的 v

2018-09-29 17:47:15 +08:00

回复了 wateryessence 创建的主题 › Python › 如何用爬虫爬取猫眼等网站上的电影信息？

自学，写了很多小网站爬虫，可以看一下 --> https://github.com/wc110302/My-spider

2018-09-28 11:56:42 +08:00

回复了 wc110302 创建的主题 › Python › 最近准备爬取的一个网站遇到的瓶颈

@xiaozizayang 尝试了一下--！会被反爬虫识别出现验证码
Pardon Our Interruption
['//cdn.distilnetworks.com/images/anomaly-detected.png']

2018-09-27 18:17:12 +08:00

回复了 wc110302 创建的主题 › Python › 最近准备爬取的一个网站遇到的瓶颈

@valord577 感谢分享。但是 selenium 效率确实是太低了并且消耗资源较多抓取数据的量又比较大单一个 cookie 只能使用 4-5 次所以暂时不考虑走 selenium 实在不行的话就只能走 app 端了

2018-09-27 17:49:24 +08:00

回复了 wc110302 创建的主题 › Python › 最近准备爬取的一个网站遇到的瓶颈

@handan @onexpiece @dapengzhao https://www.flyscoot.com/zh

2018-09-27 15:17:01 +08:00

回复了 wc110302 创建的主题 › Python › 最近准备爬取的一个网站遇到的瓶颈

@richieboy cookie 是动态生成的没错我用相同的 P 参数每次从 response headers 里面拿到的 cookie 都不一样然后我将这些 cookie 拼接之后和正常生成的 cookie 对比了一下是一模一样的但是用这个 cookie 就无法拿到数据而真实的 cookie 就可以并且有趣的是我如果用该 ip 去真实访问了这个网站这个 cookie （我自己 requests 伪造生成的）也可以用了

2018-09-27 13:47:27 +08:00

回复了 wc110302 创建的主题 › Python › 最近准备爬取的一个网站遇到的瓶颈

@vegetta selenium 就是效率太低了并且该网站会检测无头无 js 这样也加大了服务器的负载

2018-09-27 13:46:18 +08:00

回复了 wc110302 创建的主题 › Python › 最近准备爬取的一个网站遇到的瓶颈

@exip 参数应该没有遗漏我在使用某一个 ip 拿到所有 cookie 之后如果我使用这个 ip 真实地用浏览器访问了该网站那么我之前拿到的那个 cookie 就能使用一段时间具体原理我也不太明白也许是他们记录在了服务器上

2018-09-27 13:43:12 +08:00

回复了 wc110302 创建的主题 › Python › 最近准备爬取的一个网站遇到的瓶颈

@nooper 是尝试过的但是效率太低了不符合预期并且并发的情况也不太理想

2018-09-27 13:40:37 +08:00

回复了 wc110302 创建的主题 › Python › 最近准备爬取的一个网站遇到的瓶颈

@ericgui 是挺费劲的啥都要学一点 js 要学接口要会做 app 端 wechat 端 pc 端得会抓包偶尔还得做个 GUI 什么的