V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Liu6
V2EX  ›  问与答

各位 大佬们 关于机器学习 数据集中特征少

  •  1
     
  •   Liu6 · 2019-10-10 08:47:21 +08:00 · 2167 次点击
    这是一个创建于 1877 天前的主题,其中的信息可能已经有所发展或是发生改变。
    数据集中 只有一列 id 和 comment 然后 comment 全是中文 这个怎么进行处理??? 加特征吗 ? 那应该加什么特征呢???? 第一次接触文本数据集
    25 条回复    2019-10-10 16:57:19 +08:00
    Liu6
        1
    Liu6  
    OP
       2019-10-10 08:48:39 +08:00
    我是萌新 !!! 求各位大佬 解答!!!
    Liu6
        2
    Liu6  
    OP
       2019-10-10 09:01:55 +08:00
    QAQ 么大佬解答吗? QAQ
    SeaRecluse
        3
    SeaRecluse  
       2019-10-10 09:08:15 +08:00   ❤️ 1
    并没有看出哪里特征少,也不知道你是要做 NLP 的什么任务。情感分析?分类?自动回复?
    Liu6
        4
    Liu6  
    OP
       2019-10-10 09:12:51 +08:00
    这里好像不能发图片 就是一列 iD   一列 评论  类似 商店评论  然后 在预测
    e3kiq0
        5
    e3kiq0  
       2019-10-10 09:18:46 +08:00
    是不是应该有个具体点的预测目标?
    vsitebon
        6
    vsitebon  
       2019-10-10 09:23:07 +08:00
    发图片的方法: https://www.v2ex.com/t/408727?p=2
    Liu6
        7
    Liu6  
    OP
       2019-10-10 09:23:15 +08:00
    @e3kiq0 一列  ID  一列 label一列  comment    label  只有0或1  0 代表 comment 中的好评论 1反之    comment  全是中文评论 上面是训练集   对这个训练集 操作  然后对 test 集中的 comment 预测2000条评论 看是0 还是1
    Liu6
        8
    Liu6  
    OP
       2019-10-10 09:31:04 +08:00
    @vsitebon 看了 但是 还是云里雾里的 不会 QAQ 不知道怎么把电脑上的 图片 上传
    Liu6
        9
    Liu6  
    OP
       2019-10-10 09:32:04 +08:00
    数据包含 2 个 csv 文件:

    train.csv:训练集,共 10000 条,使用 UTF-8 编码,comment 和 label 用 Tab 分隔。

    字段名称 字段说明
    comment comment 即用户评论
    label label 是评论的类别,有 0 和 1 两个值
    test.csv:测试集,共 2000 条,使用 UTF-8 编码。id 与 comment 用“,”分割。

    字段名称 字段说明
    id 行的唯一标示,提交时需要一一对应提交结果文件
    comment comment 即用户评论
    e3kiq0
        10
    e3kiq0  
       2019-10-10 09:34:18 +08:00
    直接用 comment 学习效果怎么样?
    Liu6
        11
    Liu6  
    OP
       2019-10-10 09:34:52 +08:00
    比赛链接 www.datafountain.cn/competitions/370 发链接要手机验证 HTTP 我删了
    duanxian1hao
        12
    duanxian1hao  
       2019-10-10 09:35:37 +08:00
    萌新说一下自己的想法,对 comment 进行分析,提取基础的特征,比如说字数;对 comment 按照词粒度生成 embedding,将 comment 转为向量表示;
    e3kiq0
        13
    e3kiq0  
       2019-10-10 09:39:58 +08:00
    [email protected] 能不能分享一下数据?学习一下。感谢 。
    Eleutherios
        14
    Eleutherios  
       2019-10-10 09:52:27 +08:00 via iPad   ❤️ 1
    等等……#11 的意思是,比赛题不会做了,请外援出出主意?

    It is unfair (
    Liu6
        15
    Liu6  
    OP
       2019-10-10 10:06:54 +08:00
    @Eleutherios 不是 我做出来了 但是精度不高 想问下大佬们的 思路 只有 0.57 数据处理 我现在还在优化
    lv2016
        16
    lv2016  
       2019-10-10 10:15:32 +08:00
    之前做过类似的文本情感分类,当时主要定义了一些负样本里常见的特征比如中英文混杂、特定词出现频率等
    TimePPT
        17
    TimePPT  
       2019-10-10 10:22:57 +08:00
    这不就是典型的二分类问题么……题目已经很简单了😂
    Liu6
        18
    Liu6  
    OP
       2019-10-10 10:39:36 +08:00
    @TimePPT en 是的 我用的 svm 但是 我数据处理的不是很好 精度不高 主要是 一列是中文 加特征 或者 其他方法 我不知道 怎么选择 萌新 没什么经验 面对中文 应该怎么办
    TimePPT
        19
    TimePPT  
       2019-10-10 10:43:58 +08:00   ❤️ 2
    @Liu6 算力足够试试 RoBERTa 中文预训练模型? https://www.jiqizhixin.com/articles/2019-09-05-6
    Liu6
        20
    Liu6  
    OP
       2019-10-10 10:47:30 +08:00
    @TimePPT 感谢! 我去瞅瞅
    misaki321
        21
    misaki321  
       2019-10-10 10:49:16 +08:00
    svm 已经不适合这类题目了
    用词向量+神经网络
    Liu6
        22
    Liu6  
    OP
       2019-10-10 11:11:36 +08:00
    @misaki321 神经网络一开始有考虑 但是 我 个人觉得 最根本的原因是 数据处理的不好 我把中文 进行了 label 编码 了 我觉得这个是主要原因 我就一直不知道 中文 应该怎么处理
    xwhxbg
        23
    xwhxbg  
       2019-10-10 15:46:57 +08:00
    bert 中文,把最后一层替换输出就行了,既不用分词也不用手动词向量,更不用手工提取特征
    xwhxbg
        24
    xwhxbg  
       2019-10-10 16:50:07 +08:00
    首先震惊于这个比赛奖励居然是 100w,其次发现这是个训练赛,不知所以。。。
    我用 bert 随便跑了一个 epoch,validation acc 0.91 看排行榜基本能进前 50 了。。。
    https://colab.research.google.com/drive/1j9cBSsitjm2igaj50u9pwtu56XY3uBYg
    Liu6
        25
    Liu6  
    OP
       2019-10-10 16:57:19 +08:00
    @xwhxbg 我没有接触过 Bert 今天下午 也看了一下 Bert 但是 有点懵!!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5773 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 01:44 · PVG 09:44 · LAX 17:44 · JFK 20:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.