V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Yohann97
V2EX  ›  问与答

让人崩溃的需求!从网页中爬取地址信息, Java

  •  1
     
  •   Yohann97 · 2018-09-29 15:49:51 +08:00 · 3179 次点击
    这是一个创建于 2252 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我现在的做法,用 jsoup 去标签,然后在得到的字符串里面找地址

    可是!!! 地址没什么规律啊

    有的在一个标签里,有的在多个标签里,还有的中间有逗号

    无语。。。。。

    所以大佬们有什么建议能帮帮我这只小菜鸡么

    示例: 湖北省武汉市武昌区东湖西路特 2 号平安财富中心(东湖大厦正对面) B 座 7 楼 桂林市公共资源交易中心 4 号 柳州市柳江新城区,北接柳江大道(原堡隆路),南至南一路(原广场北路) 江苏省淮安市高教园区科技路 山东省淄博市张店区北西五路 68

    26 条回复    2018-09-30 00:15:04 +08:00
    Aoang
        1
    Aoang  
       2018-09-29 16:07:16 +08:00 via Android
    xx 省 xx 市
    Yohann97
        2
    Yohann97  
    OP
       2018-09-29 16:20:44 +08:00
    @Aoang 明显不行呦
    lhx2008
        3
    lhx2008  
       2018-09-29 16:24:43 +08:00 via Android
    找地址提取的轮子
    lithium4010
        4
    lithium4010  
       2018-09-29 16:28:01 +08:00
    具体什么网页?
    mhycy
        5
    mhycy  
       2018-09-29 16:46:34 +08:00
    关键字分割后重组
    lyusantu
        6
    lyusantu  
       2018-09-29 16:56:17 +08:00
    人为开发的都是有一定的规则的
    Yohann97
        7
    Yohann97  
    OP
       2018-09-29 17:17:26 +08:00
    @lhx2008 地址是给定的,不用爬
    Yohann97
        9
    Yohann97  
    OP
       2018-09-29 17:22:53 +08:00
    @mhycy 嗯嗯,想过,但是关键字不好确定,可以看下我放的那两个网址。而且比如“地址”的话是很常见的关键字,后面跟的不一定是地址,比如“单位地址:_____________________________”,这样的
    Yohann97
        10
    Yohann97  
    OP
       2018-09-29 17:23:56 +08:00
    @lyusantu 说实话,我感觉要么是好几个人开发的,要么是机器生成的
    xycool
        11
    xycool  
       2018-09-29 17:44:20 +08:00
    @Yohann97 这难道是不是 cms 发布出来的吗。。。
    zhuangjia
        12
    zhuangjia  
       2018-09-29 17:56:04 +08:00
    没有头绪。。。
    EvilCult
        13
    EvilCult  
       2018-09-29 18:04:34 +08:00
    我觉得这事儿需要 py 大佬的人工智能.........
    cccssss
        14
    cccssss  
       2018-09-29 18:06:01 +08:00
    你找找发快递时候,app 里粘贴一段文本就能识别地址的轮子
    kokutou
        15
    kokutou  
       2018-09-29 18:07:37 +08:00 via Android
    看看顺丰和圆通的微信小程序?
    地址自动识别,但是提供对话框让用户查错修改。
    ClutchBear
        16
    ClutchBear  
       2018-09-29 18:17:18 +08:00
    ![]( https://ww1.sinaimg.cn/large/005YhI8igy1fvqkuamd34j313k0fggp5)
    用 foolnltk 大该能处理成这样的.
    ClutchBear
        17
    ClutchBear  
       2018-09-29 18:20:37 +08:00
    ClutchBear
        18
    ClutchBear  
       2018-09-29 18:21:39 +08:00
    foolnltk 基本上能满足,
    不满足就需要手动调整了.
    ClutchBear
        19
    ClutchBear  
       2018-09-29 18:24:18 +08:00
    代码
    ```
    import fool
    text = """七、采购人联系方式

    采购单位:湖北省梁子湖管理局

    地 址:鄂州市梁子湖区梁子镇广场大道 1 号

    联 系 人:袁主任

    电 话:0711-2473006

    八、代理机构联系方式

    单 位:武汉渤正项目管理有限公司

    地 址:武汉市中北路楚河汉街同成富苑 A 座 2706

    邮 编:430077

    联 系 人:刘工

    电 话:027-86615324"""
    words, ners = fool.analysis(text)
    print(ners)
    ```
    <script src="https://gist.github.com/playbear/c89115a6905d9f346ffeb70c5543fc62.js"></script>
    ClutchBear
        20
    ClutchBear  
       2018-09-29 18:24:37 +08:00
    结果
    [[(16, 34, 'location', '湖北省梁子湖管理局\n\n 地 址'), (34, 55, 'location', '鄂州市梁子湖区梁子镇广场大道 1 号\n\n'), (60, 64, 'person', '袁主任'), (63, 67, 'person', '\n\n 电'), (66, 70, 'person', ' '), (105, 118, 'company', '武汉渤正项目管理有限公司'), (126, 147, 'location', '武汉市中北路楚河汉街同成富苑 A 座 2706'), (169, 173, 'person', '刘工\n')]]
    arerec
        21
    arerec  
       2018-09-29 18:29:28 +08:00
    用一些自然语言处理的 命名实体识别的轮子,提取地址类的实体
    ClutchBear
        22
    ClutchBear  
       2018-09-29 18:30:16 +08:00
    ClutchBear
        23
    ClutchBear  
       2018-09-29 18:32:56 +08:00   ❤️ 2

    贴图再试试
    Yohann97
        24
    Yohann97  
    OP
       2018-09-29 19:28:06 +08:00
    @xycool 嗯嗯,不太懂这些,刚刚看了下,对于这种 cms 发布的东西有什么好的处理方法么
    ccnccy
        25
    ccnccy  
       2018-09-30 00:04:53 +08:00 via iPhone
    看你两个网址爬
    址: 后面的信息不就行了
    Yohann97
        26
    Yohann97  
    OP
       2018-09-30 00:15:04 +08:00
    @ccnccy 哈哈,思路清奇,早点睡,明天去试试。不过存在 地址冒号空格加分段地址的情况
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3415 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 11:25 · PVG 19:25 · LAX 03:25 · JFK 06:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.