V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  tikazyq  ›  全部回复第 22 页 / 共 44 页
回复总数  876
1 ... 18  19  20  21  22  23  24  25  26  27 ... 44  
闭门造车一般是死路一条,我这边开源转付费已经几十个客户了,要多问反馈,多优化,这是很重要的
gitlab, jenkins, github actions
2020-08-11 14:20:08 +08:00
回复了 cangxiao 创建的主题 职场话题 请大家帮忙看下简历~
可能是 2 年经验比较浅,如果是大数据方向 java 功底不能差吧。另外楼主还年轻,可塑性高,可以尝试一下其他技术,没必要给自己设限,大数据本身对算法和工程要求比较高,都是苦逼的活儿
2020-08-11 14:12:25 +08:00
回复了 plusDiscuss 创建的主题 奇思妙想 独立开发者交流群(扶持互助,吹水勿入)
群里没啥讨论正事儿的,早就退了
2020-08-11 14:08:20 +08:00
回复了 wensonsmith 创建的主题 分享创造 试试能不能收到开源的第一笔打赏 🌚
比我多,开源 1 年半,收到 5 元钱
2020-08-11 14:05:43 +08:00
回复了 smallgoogle 创建的主题 Python 你们是如何使用 redis 来监听任务的?
选 redis 没错,这个方案也可行,内存溢出一般是程序本身的问题,检查一下哪里写了 bug 了
2020-08-11 14:04:49 +08:00
回复了 smallgoogle 创建的主题 Python 你们是如何使用 redis 来监听任务的?
上代码
2020-08-11 14:03:43 +08:00
回复了 j0shfan 创建的主题 Python Selenium 爬网页的问题, css selector
用 puppeteer,直接 js 操作,比 selenium 简单很多
2020-08-11 14:00:54 +08:00
回复了 Hlianbobo 创建的主题 Python 编写爬虫程序有多少轮子必须自己造?
一个生产可用的爬虫程序包括抓取、解析、入库、定时任务、增量抓取、监控、日志、数据统计等模块,真正要实现一套完备稳定的解决方案真的不是写几个 requests+BeautifulSoup 这么简单。

如果你的爬虫程序只是为了临时性的采集一些数据,那么可能八爪鱼这种 to 小白工具就可以满足,或者简单的用 scrapy/requests 编写个简单爬虫即可。但如果爬虫是你的核心业务,例如搜索引擎、内容聚合、尽职调查等对爬虫有大量要求的应用场景,那么你可能需要考虑爬虫程序的规模性和可扩展性,例如定时任务、爬虫部署、任务调度、日志监控、结果去重,这些通常都需要自己实现一遍,比起写几个 xpath 抓取逻辑要麻烦很多,真的就是工程类问题了。不过好在我们有一些开源项目可以帮你处理这些繁琐的逻辑,例如我开发的轮子,分布式爬虫管理平台 Crawlab ( https://github.com/crawlab-team/crawlab ),可以运行任何语言和框架的管理平台,就是帮爬虫开发者维护管理生产可用的爬虫程序的。

当然,爬虫领域现在比较高阶的技术例如逆向、反爬,这些属于比较偏 hack 的方向,需要长期的经验累积,有兴趣可以自行百度。另外爬虫的道德法律规范也是比较重要的,玩得不好就容易进去了。

总而言之,爬虫从简单到复杂到生产可用是一个逐渐工程化的问题,需要的技术种类繁多,需要很多实战经验,不是调一些 API 就可以完成的。
2020-08-11 10:00:41 +08:00
回复了 shawngao 创建的主题 Go 编程语言 求助:使用 Go 莫名 Panic 的问题
感觉是 cast 了 nil 值变量导致的
2020-08-10 17:12:15 +08:00
回复了 fengwei23 创建的主题 程序员 如何提升自己,不包括写代码
做引体向上
2020-08-10 09:58:43 +08:00
回复了 vcw 创建的主题 分享创造 [开源] FastWeGo - Go 语言开发的微信服务快速开发框架
repo 在哪儿?
2020-08-08 11:56:41 +08:00
回复了 BlueJewel 创建的主题 Python Flask 博客收录平台开源啦,带爬虫功能
之前用过 celery,虽然方便,但问题挺多的,后来放弃了,转 go 了
2020-08-08 11:55:38 +08:00
回复了 chibupang 创建的主题 程序员 Golang 开发如何进阶?
从阅读其他项目的源码开始,顺便自荐一个自己的开源项目: https://github.com/crawlab-team/crawlab
2020-08-08 11:50:56 +08:00
回复了 az22c 创建的主题 Vue.js vue2 源码修改这 3 行,有啥用?
可读性
2020-08-07 22:10:41 +08:00
回复了 jinmingjian 创建的主题 程序员 今天开源了一个自己写的数据仓库原型
为国争光,先从开源中国开始,在 Gitee 上建个项目吧,免得被美帝哪天把 Github 给禁了

btw,看起来挺有潜力的,已 star
1 ... 18  19  20  21  22  23  24  25  26  27 ... 44  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5694 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 39ms · UTC 02:57 · PVG 10:57 · LAX 18:57 · JFK 21:57
Developed with CodeLauncher
♥ Do have faith in what you're doing.