V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
powtop
V2EX  ›  问与答

问下 AI 深度学习问题,谢谢!

  •  
  •   powtop · 2017-08-29 16:51:50 +08:00 · 1840 次点击
    这是一个创建于 2651 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本人产品狗,想问下目前深度学习的应用,比如人脸识别,采用的数据源是经过人工筛选标记的图片才能用来训练么

    还有:比如我们现在应用产生的大量数据能在以后用于训练我们的算法么?因为目前团队无 AI 团队,但是每天会有很多数据产生包括语料和图片。这种数据我们有占硬盘的意义么?

    13 条回复    2017-08-30 14:28:59 +08:00
    davy1995
        1
    davy1995  
       2017-08-29 16:55:30 +08:00 via Android
    建议搜索下监督学习和无监督学习
    davy1995
        2
    davy1995  
       2017-08-29 16:59:29 +08:00 via Android
    机器之心 - 从自编码器到生成对抗网络:一文纵览无监督学习研究现状(分享自知乎网) https://zhuanlan.zhihu.com/p/26751367?utm_source=qq&utm_medium=social
    XinLake
        3
    XinLake  
       2017-08-29 17:00:41 +08:00
    图像识别是提取了图像的特征,用一些数据(计算机能理解的数据)去表达一些图像,比如人脸。
    具体的技术算法 OpenCV 里有。

    可以人工筛选出各种正常人脸拿去训练,得到的数据当然就比较容易识别。如果拿一堆鬼脸,带帽子人脸去训练那估计你也要做鬼脸或带帽子才更容易识别。

    现在普通的应用与其说 “人脸识别”,不如说 “人脸检测” 更准确,因为只有人脸就判定 OK。
    如果拿特定某一个人各种情况下的脸来训练,那识别出来的可能就是这个人,这才到了真正 “人脸识别” 即通过一张图认出你这个人。
    timetolo
        4
    timetolo  
       2017-08-29 17:02:30 +08:00
    入门级 ML\DL 从业人员前来回答

    1.不是
    2.1 可以
    2.2 有
    powtop
        5
    powtop  
    OP
       2017-08-29 17:07:59 +08:00
    @davy1995 好的,多谢,我在与 CTO 讨论时候,他说目前积累的数据没有任何用处,所以我来问下
    cqcn1991
        6
    cqcn1991  
       2017-08-29 17:15:53 +08:00
    对的,建议了解一下监督学习的概念
    推荐看 andrew ng 的这个视频, https://www.douban.com/note/618193191/
    应该算是一个对非专业人士不错的介绍
    wzha2008
        7
    wzha2008  
       2017-08-29 18:15:32 +08:00
    对你们没用不一定对比别人没用啊,可以把不敏感的拿出来卖
    st2udio
        8
    st2udio  
       2017-08-29 18:17:58 +08:00
    数据很重要,也许现在没想好怎么用。不过可能以后就有用了。留好。占点硬盘罢了
    marenight
        9
    marenight  
       2017-08-29 18:23:52 +08:00 via iPhone
    对于第一个问题,你了解一下聚类算法,根据生成的 embedding 计算图片之间的距离,自动分类。
    zetary
        10
    zetary  
       2017-08-29 19:29:18 +08:00
    还是个学生,不过听说对于大部分 AI 创业公司来说技术都差不多是用论文能读到的那些,最有价值的部分就是数据和人才.数据不是一定要标注,这样会有半监督学习和无监督学习的方法可以用,但是目前最成熟的都是监督学习的.标注数据这件事情,有一段时间众包很火,但是现实中似乎很多大公司不缺钱都是用外包的形式去标注数据.
    neosfung
        11
    neosfung  
       2017-08-29 19:33:55 +08:00
    我举个很取巧的例子吧,如果你们经常登录 Google 或者 Facebook
    他们的验证码就是让你填写一些他们扫描书籍中的识别出来但是 confidence 不高的单词,或者点击图片中含有汽车的方格
    lightening
        12
    lightening  
       2017-08-29 19:40:29 +08:00
    1. 不是,但有人工筛选的数据难度远远低于没有人工筛选
    2. 能。有。
    TuSDK
        13
    TuSDK  
       2017-08-30 14:28:59 +08:00
    首先并不是经过人工筛选标记的图片才能用来训练,但是难度会降低。之前我们在做实时鉴黄的时候,训练的图片就是经过人工标记的,我们会把涉黄的部位分裸露的等级来进行标记,然后用于机器训练。
    其次平常产生的大量数据都是可以拿来训练的,甚至在像我们这样的公司,平常在进行市场活动的时候,产品经理会希望我们能拿回更多的人脸图片,这都是非常宝贵的资料,所以把这些资料都留存下来吧,很有意义!
    PS:楼主也可以了解下我们哦,传送门→https://tutucloud.com/docs/face/features
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2654 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 09:44 · PVG 17:44 · LAX 01:44 · JFK 04:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.