V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
leihongjiang
V2EX  ›  程序员

有没有开源爬虫能提取到标题跟页面的 url 实现入库

  •  
  •   leihongjiang · 2020-07-08 03:24:47 +08:00 · 1924 次点击
    这是一个创建于 1609 天前的主题,其中的信息可能已经有所发展或是发生改变。

    可以自己写规则 每天要浏览大量的页面 确实太累了啊。 希望可以找到一款工具可以聚合浏览。 因为每天都需要浏览好多个网站的最新文章 所以希望能找个工具代替一下 也希望能够通过自己搜索关键字 来展现爬取到的内容。 不需要爬取内容,只需要 url 跟标题就可以了,然后根据自己的需求浏览

    9 条回复    2020-07-08 13:47:45 +08:00
    tangtaorong
        1
    tangtaorong  
       2020-07-08 08:54:56 +08:00
    其实你要的就是 gg 或者百度
    nightwitch
        2
    nightwitch  
       2020-07-08 10:32:30 +08:00
    开源的框架不太清楚,商业的实现我知道一个,八爪鱼,鼠标点点点设立规则就行。
    iamverylovely
        3
    iamverylovely  
       2020-07-08 10:48:51 +08:00
    你蛮懒耶。
    renmu123
        4
    renmu123  
       2020-07-08 10:57:38 +08:00
    你需要 rss
    leihongjiang
        5
    leihongjiang  
    OP
       2020-07-08 11:52:43 +08:00 via iPhone
    @renmu123 找了很久都没有
    leihongjiang
        6
    leihongjiang  
    OP
       2020-07-08 11:53:01 +08:00 via iPhone
    @iamverylovely 不是懒 是工作量太大了啊
    leihongjiang
        7
    leihongjiang  
    OP
       2020-07-08 11:53:32 +08:00 via iPhone
    @renmu123 有些站点没有 rss 啊
    iamverylovely
        8
    iamverylovely  
       2020-07-08 11:56:17 +08:00
    @leihongjiang 看你的描述,感觉自己写出来不难啊
    lemonEssence
        9
    lemonEssence  
       2020-07-08 13:47:45 +08:00
    Web Scraper
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5628 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 01:32 · PVG 09:32 · LAX 17:32 · JFK 20:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.