RaftingPoint

RaftingPoint

V2EX 第 667034 号会员,加入于 2023-12-14 17:50:26 +08:00
根据 RaftingPoint 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
RaftingPoint 最近回复了
谢谢大家的建议, 昨天分析了下,导致转换失败的原因大致有几个:
1. 输出的 json 里有注释语句之类的废话,里面的内容可能会导致歧义
2. value 是列表时,里面的符号也会产生歧义,比如 冒号逗号分号 的中英混用,
3. 还有转义符的问题

整理了下大家的一些解决方案:
1. 明确 json 格式的情况,可以用 function call , 这是最严谨稳定的方式,但是如果爬的内容不确定,灵活度就不够;
2. 用可以声明 response_format 的模型,贴中提到的有 openai 系列,Gemini 1.5 flash/pro,c4ai-command-r 模型系列。
3. langchain 等第三方工具
4. 重试与 finetune

我为了方便尝试了第三个方法,设置了 3 次重试,并且在对话中记录上一次成功的最长 json 串,在重试时加入 prompt 中作为参考 finetune ,这样下来一万条数据出错次数降低到了 3 条。这是我的解决方案,仅供参考
@varxo 我也加了,返回的 json 字符串是放在 markdown 格式里的,不知道是否和编码有关系
@matrix1010 谢谢!我看了下我的文本并不复杂,按理模型转成 json 难度应该不大,prompt 的关系估计比较小,或许我换个模型试试
@maocat 谢谢,我也看到这个,打算试一下
@NoobNoob030 格式不太固定,每一条抓取的键值对可能有不同程度的嵌套关系,好像不太适合这种方式
@shentt715 是直接工作签过去吗
确实,面向就业读研。之前很想去德国,但德国毕业难度大,读下来可能代价比较大
@hanzijinjin 好牛,全栈云架构肯定好找很多。我是 AI 专业,半路出家做的 C++开发,感觉都是半桶水
@WildDonkey 也不年轻啦,得抓紧推进了。问下老哥您申请什么方向
@WildDonkey 老哥好牛!祝福顺利。我打算今年把语言搞定和把申请材料定下来,先动身再说
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3679 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 10:39 · PVG 18:39 · LAX 02:39 · JFK 05:39
Developed with CodeLauncher
♥ Do have faith in what you're doing.