总感觉现在 AI 的能力和现在它的普及程度不匹配

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 34 天前的主题，其中的信息可能已经有所发展或是发生改变。

以我的个人经历为例：最近需要处理几张图片。图片基本是一个棋盘格子，每个格子的中心部位有一些不多的杂点，对图片的第一步操作就是把杂点去除。

我用的工具是 Windows 画图，一个格子一个格子的去抠除。简直太麻烦了。

我就在想，现在的 AI 完全有能力做到按我的指令，一步一步的去操作这张图片（比我自己写脚本要快的多），比如，
1.清除每个格子中的杂点
2.给每个格子着色
3.使用某个框，裁剪这些格子
4.。。。

可我现在看到的只是文生图、图片修复这些应用。

24 条回复 • 2024-11-10 18:54:08 +08:00

zfyStars

34 天前

还没有这么智能吧

Majeriot

34 天前

AI 学习能力远没有人类那么强，现在这波 AI 落地主要限于搜索场景，而且用到大模型的功能也不过是总结文本，就这还会出现幻觉问题等等，想让它听懂指令并执行对应操作还是很难的

sillydaddy

34 天前

@zfyStars 这点智能对现在的 AI 来说太简单了。

sillydaddy

34 天前

@Majeriot 「想让它听懂指令并执行对应操作还是很难的」，以它在辅助编程中的表现，我觉得这不是一个事实。

lw10645

34 天前

我记得 ps 好像有 ai 了吧

sillydaddy

34 天前

@lw10645
看了一下，还真是。https://www.adobe.com/hk_zh/products/photoshop/ai.html
不过仅限于 Adobe 支持的有限的几种操作，渗透还不深。还没做到直接响应用户的指令。

lw10645

34 天前

@sillydaddy #6 是可以的，你看链接里面第 6 项宣传

sillydaddy

34 天前

@lw10645
「想像、鍵入、立即創作」这条吗？
这个以我的理解，是自己插入一些“根据「文」字「生」成的「图」片”，还是没有离开“文生图”的范畴。
我在主题里表达的是那种，按照用户的指令去操作图片这种。比如「删除每个棋盘格子中的噪点」。

lw10645

34 天前

@sillydaddy #8 你这个需求可以的，你可以搜搜这个功能的视频，很强大

hanqian

34 天前

其实包括文生图，据我的了解那些通用文生图大模型精确跟随指令（比如我指定人物做出什么什么肢体动作）的能力至今也是非常差的，要么画不出来，要么画出来了也不符合空间逻辑。当然 lora 这种 finetune 技术是可以做到。但 lora 本质上不是文生图，而是图生图。所以如果我们说文生图=智能，那现在这些 AI 根本就不智能

sillydaddy

34 天前

@lw10645
我知道我想表达的是什么了。刚才我看了「 photoshop ai generative fill 」的几个视频（总时长 2 小时），确实感觉很强大。但是跟我表达的还是不是一个类型，关键的区别点在于「精确」。我需要 AI 精确的按照我的指令去执行操作。以我看的视频的展示，它目前是做不到这点的。比如我需要它精确的识别某些像素（棋盘格子中央的噪点），然后精确的移除它们。这些操作跟目前展示的「文生图」还是不太一样的。感觉跟辅助编程更接近，辅助编程可以得到精确执行某个功能的程序，虽然也有幻觉吧。但是「文生图」的结果是用户自己不能控制的，也就是不精确的。

sillydaddy

34 天前

@hanqian 对，其实就是欠缺了精确性。可你说大模型不精确吧，但「 AI 辅助编程」又在一定程度一定范围可以做到精确——得到执行某个精确功能的程序。

foolishcrab

33 天前 via iPhone

@sillydaddy 所谓的精确只是你的需求有无数人写过了而已，你试着让它写一个 bug free 的 snake game 就知道这东西的边界在哪了

june4

33 天前

@foolishcrab 但是 op 的这个要求也不复杂，换到文字/代码形式的就显得很容易，比如给大模型一串数字，让它挑出满足给定条件的数，它基本能完成。现在只差把文字/代码搞成图片信息而已，感觉还在目前 ai 的能力范围内。
而且你说的写个东西，它能做到的地步也很大程度和你的提示完善度相关。

agagega

33 天前 via iPhone

就我使用 GPT 生图功能的体会，它更多只会绘画而不是设计，精确点的操作还是得依赖文字描述或者代码

Donahue

33 天前

ai 是 21 世纪最伟大的发明

qiniu2025

33 天前

模型能力够了,但基础设施建设还需要时间,claude 刚出那个能直接操作电脑的模型就能完成你说的事,明年就能普及了

Pteromyini

33 天前

[格子去除填充中的噪点] 这个需求由一些 CV 的小工具很容易实现，比如简单的可以通过滤波、阈值分割、连通域分隔的方法处理，复杂的上 CNN 做边缘检测轮廓提取实现。在我看来如果用 VLM 这类方法是本末倒置了，自然语言交互可以加一个 LLM 做路由调用 CV 工具（ oai 、claude 很多计算就是通过先生成代码然后用代码运行输出结果）。不过这是个复杂的工作，一个是本身 LLM 做路由还处于探索阶段，鲁棒性不足，另一方面是工作很繁琐，目前没有统一的接口规范，所以都是做一个是一个的分散状态。

acorngyl

33 天前

做过两年 ERP 结合 AI 自动化项目。根据我现在对主流算法的理解，OP 的需求，无法“直接”实现。
我了解到的算法，就说图像方面的，两大类，一类传统 CV ，一类大模型。
传统 CV 都是些目标检测，就是用聚类模型，把图片里的目标做分割、分类，还有一些是图像上的算法，拉对比度找目标特征之类的。这些只能做工具，比如 ps 里的滤镜、抠图。
大模型就只能自己画自己的，比如，拿一张 128*128 的白噪音，根据提示词，往里像素里加近似值，完了输出还是拿 128*128 的图做放大，这也是为什么不管 sd 还是多模态出来的东西，画面都特别圆滑的原因。这种机制，就算给它纯棋盘，让它照着抄，它都抄不出来，更别说给你 ps 了。
所以说无法直接实现。生产上这种复杂工作，得拆工作流了，比如先用目标检测把原图拆成小图，用多模态识别小图语意，找到目标小图，用 cv 把目标 p 掉，再把素材拼回。

foolishcrab

33 天前

@june4
OP 的这个需求我认为 AI 是完全适合的。

我只是顺便吐槽了下写代码的问题，不是做不做的了的问题，是投入产出比、能力边界的问题，我的 prompt 都跟 psuedo code 一样了我还要他提示什么？

目前业界代码辅助比较让人印象深刻的产品
一类是 bolt\cursor 一类，稍微大段的初始需求 prompt ，然后出一个大差不差能用的模板
一类是 copilot 一样，根据 context 变化不断自动给出新的提示

其实本质上都是 one shot ，稍微涉及到当前上下文的 iteration 基本都不尽人意，这个学术界的 benchmark 其实都是有反映的，只不过工业界需要东西一直 hype 而已。

lloovve

33 天前 via iPhone

现在 ai 都是特定场景应用，这些特定场景都是收益率比较高的，楼主这种场景就是小众场景，没人研究的，要实现 ai 覆盖通用场景，才能覆盖这种小众场景，可惜目前所谓 ai 没有一个支持这种通用任意场景的

maemolee

33 天前

要不，试试看文生代码，然后代码处理图片？我没有这么做过，但是直觉认为可行。

nzbstn

21 天前

应该是无法满足一种拥有详细设定及要求的、某个细分领域的中实际问题的能力
感觉像文生图这类的能力，强调的是泛用和能力展示，比如 AI 能文生图，能写小说。但要说让 AI 写一个《三体》级别的、长篇的科幻小说，我感觉多半是给不出比较好的结果
写代码也一样，提出问题 AI 只能给出泛用的代码示例，具体逻辑怎么实现，还要看业务逻辑如何运作，这可能就需要更详细的提示词 or 边界设定之类的对 AI 进行引导
还有一点我觉得是大多数人可能接触不到一定需要 AI 来辅助完成的作业的情况，同时上手难度也是问题，这应该是互联网普及留下的问题

sillydaddy

21 天前

@acorngyl #19 >“这种机制，就算给它纯棋盘，让它照着抄，它都抄不出来，更别说给你 ps 了。”
这个不一定吧。如果用过 github copilot ，你让它修改之前给出的大段代码里面的一个很小的细节，保持其他的代码不动，它是能够做到的。

@maemolee #22 感觉应该是可以。但如果通过大模型的组合可以做到这样的效果，那没道理一个单独的大模型做不到。

@nzbstn AI 写代码并不是给出「泛用的代码示例」吧？它给出的是可以执行精确功能的代码。