GPT 更新多模态,支持图片和语音输入,会带来哪些新体验和影响?
AI工具评测

识图能力是亮点,语音的话就是转文字而已不算新技术。

SD和MD(Stable diffusion 和 Midjourney)两个AI绘图软件近期非常火爆,chatGPT反其道而行之,逆向过来,它的识图能力,是从图片中提取信息转换为文字。

GPT 更新多模态,支持图片和语音输入,会带来哪些新体验和影响?

官方自行车这个例子不是很有代表性,有待进一步测试其能力强度

因为提问时候都用文字说了“调低座椅”,那有没有图片,真的关系不是很大,没有体现出太多的识图功能。

GPT 更新多模态,支持图片和语音输入,会带来哪些新体验和影响?

识别出螺栓,不算是很难的技术,估计百度识图也可以识别。

期待更多的测试结果。

Midjourney图生文功能

今年4月份左右md这边就已经更新了类似功能,Describe命令,传入自己的图片,它就可以识别出一些信息。

GPT 更新多模态,支持图片和语音输入,会带来哪些新体验和影响?
GPT 更新多模态,支持图片和语音输入,会带来哪些新体验和影响?
GPT 更新多模态,支持图片和语音输入,会带来哪些新体验和影响?

可以看出它提取出的信息是比较全面的,相机、单反、中国人、肤色、背景等等都有了。

图片来自视频

不用找咒语了!Midjourney图生文功能特征解析,玩转Describe命令,快速搞定AI绘画_哔哩哔哩_bilibili​www.bilibili.com/video/BV1Xj411c7W8/

展望

图片提取文字得功能,应用前景非常广阔,以后视力障碍、盲人们便可以借助AI来“看到”图片、“听到”图片。

分享到:
0
0

发表回复

猜你喜欢
近期文章
生成式AI看起来很美,ROI怎么算
利用生成式AI推动创新 美国本田这样做
东方Project-个人AI绘画合集-8(更新至2024-2-14)
AI绘画(动物科普)—兔狲
12.28乾坤AI日报 — 2023年度十大科技名词发布
近期评论
ai-world发表在
AI赛博机车—借助SD技术赚取第一桶金
mulei77发表在
AI赛博机车—借助SD技术赚取第一桶金
An Vũ( CEO AGBIG GROUP)发表在
12.25乾坤AI日报 — 苹果正购买新闻采集权用于训练生成式 AI