V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
beryl
V2EX  ›  程序员

网页结构化内容提取方式

  •  
  •   beryl · 2020-12-03 20:44:46 +08:00 · 1591 次点击
    这是一个创建于 1462 天前的主题,其中的信息可能已经有所发展或是发生改变。

    例如提取页面的:

    正文、发布时间、图片、作者信息等

    进一步分析摘要,关键词,行业

    查了下,类似印象笔记的剪藏模式识别主体内容,但是没有具体找到这种更结构化的思路

    能想到的就是正则,但是不够通用,有没有通用算法,然后结构正则做特殊 case 修复

    请教下有哪些开源的工具或者思路么,我自己慢慢折腾一个也 OK

    5 条回复    2020-12-04 09:02:44 +08:00
    svipchao
        1
    svipchao  
       2020-12-03 22:06:12 +08:00   ❤️ 3
    绝大部分网站是不会按照标准来开发的,至少大部分网站没有 Author 标识的
    另外,随着搜索引擎算法更新,大部分网站是没有关键词的
    提取正文等信息建议参考 https://github.com/kingname/GeneralNewsExtractor
    tikazyq
        2
    tikazyq  
       2020-12-03 22:11:46 +08:00
    GNE,青南大佬的作品,智能识别一哥没得说
    beryl
        3
    beryl  
    OP
       2020-12-03 22:22:24 +08:00
    @svipchao
    @tikazyq 感谢推荐,研究下先
    Austin2035
        4
    Austin2035  
       2020-12-03 23:40:55 +08:00   ❤️ 1
    二楼提到的 GNE 框架是《基于文本及符号密度的网页正文提取方法》这篇论文的一个 Python 版实现,如果你想进阶的提取你想要的信息,也许可以参考这篇论文。
    panda421
        5
    panda421  
       2020-12-04 09:02:44 +08:00 via iPhone
    Jsoup
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1030 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 20:56 · PVG 04:56 · LAX 12:56 · JFK 15:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.