生成式AI拼应用时代 要注意避开这六大雷区
AI工具评测

生成式AI已经进入应用爆发期。

在国内,“百模大战”后接下来的重心,正在从研发转向应用,生成式AI的巨大应用潜力可谓毋庸置疑。当前大部分CIO和CEO都对生成式人工智能跃跃欲试,或多或少地都PPT中准备了几页来讨论生成式AI将如何改变他们的业务。但是,毕竟生成式AI术尚处于起步阶段,在尝试采用生成式AI的同时也要注意规避雷区。

应用决定生死存亡

赛迪顾问统计显示,截至2023年7月,我国已累计发布130个大模型。“百模大战”真可谓名副其实。有数据显示,在130多个的大模型中,通用大模型就有78个。而业界普遍的观点认为,我们只需要少数几个通用大模型即可,因此大部分通用大模型终将消失在我们视野中。而决定通用大模型存亡的关键之一,就是应用。

百度董事长兼CEO李彦宏强调,模型本身不直接产生价值,基于基础大模型开发出来的应用才是模型存在的意义。因此他对创业者建议,“卷大模型没有意义,卷应用机会更大”,并期望创业者在文心大模型之上做出AI时代的爆款应用。

腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生也认为,人工智能发展的根本目标是落地于产业,服务于人;“能真正解决用户需求、距离场景和数据更近的企业,将拥有大模型的未来。”

麦肯锡中国区主席、全球资深董事合伙人倪以理在2023外滩大会上表示, 生成式AI的技术风暴有望开启一场关系到未来8至10年的新一轮技术和产业变革。

更多的证据,则体现在各大巨头的具体行动上。

百度在9月5日举办的2023百度云智大会宣布,千帆大模型平台上月活企业数已近万家,覆盖金融、制造、能源、政务、交通等行业的400多个场景。

腾讯在9月7日举办的2023腾讯全球数字生态大会上发布混元大模型,并宣布通过腾讯云对外开放。混元大模型将作为腾讯云MaaS服务的底座,客户不仅可以直接通过API调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。

企业服务领域的厂商也已经行动开来。7月27日,业界首个企业服务大模型用友YonGPT横空出世。底层适配业界主流的通用语言大模型和开源模型YonGPT被认为是更加贴近应用的大模型。

如此看来,生成式AI 的应用浪潮即将袭来。企业和机构或多或少地都可能将尝试应用生成式AI。

需要规避的六个雷区

生成式AI应用的理想是丰满的,但是回归到现实,就会发现很多炒作的功能可能无法实现。不仅如此,生成式AI 本身的特性,会带来新的问题。产业数字化加油站总结认为,企业在采用生成式AI的过程中,应该规避以下六个雷区:

雷区一:凭空出错

大型语言模型的神奇之处在于可以用晦涩的主题写出千字文,如沙鹤的交配仪式或17世纪东欧建筑中小褶皱的重要性。但他们同样有魔力无中生有地变出错误。这看起来像是他们用大学语言专业毕业的能力遣词造句,且许多事实是完全正确的,但是有时他们又以小学四年级学生那样编造一些内容,还会进行掩饰。

大语言模型的结构使得这种现象不可避免,因为他们用概率来学习如何将单词组合起来,而不是真正拥有那些知识。因而我们获取的内容有时就像掷骰子那样,全凭运气。所以说,我们可能认为我们正在与一个全新的高精尖技术融合,但实际上我们与拉斯维加斯的赌徒在掷骰子的序列中寻找信号没有什么不同。

雷区二:信息泄露

生成式AI需要依赖大量的数据和模型,任何一个环节的安全疏漏,如使用不安全的模型训练及微调等,都可能会导致企业自身数据及隐私的泄露,或者产生不准确甚至错误的结果。

人类试图创建一个复杂的知识层次结构,其中一些是保密的,而另一些则是公开的。这种情况等级制度分明的军队表现最为突出。许多企业的情况也是这样。在这样的企业,维护这些层次结构IT 部门和CIO 来说通常是一个真正的麻烦。

大语言模型并不擅长进行这类分类。虽然计算机是最终的规则遵循者,它们可以保留超级复杂的目录,但从大语言模型的结构来看,让某些信息保密,而某些信息公开并不可行。

甚至还让人惊悚的是,大语言模型会利用其概率将机密和公开的事实结合在一起,推断出一些本该保密的事实。事实上,人类甚至也会做出同样的事情。

也许有一天大语言模型会做好这一切。但就目前而言,企业最好使用可公开的数据进行训练,以免信息泄露引起轰动。事实上,大语言模型领域已经出现过多起数据泄露的案例。一些公司正试图将人工智能变成阻止数据泄漏的工具,但是这一目标的最终实现还有待时日。在那之前,CIO们最好还是严格控制需要训练的数据。

雷区三:扩散惰性

人类非常善于信任机器,特别是在发现机器真正让人类少做了一些工作时。当人们发现大语言模型大部分时间都正确时,就开始倾向于始终信任他们。

按理说,即便使用人工智能来完成某些工作,也应该工作完成后进行检查。在习惯了人工智能通常都是正确的之后,人们就开始渐行渐远,不再进行该有的检查。逐渐地,这种惰性可能在整个组织中扩展开来,而不去主动思考,最终使得企业缺乏活力。这种无压力的轻松状态能会持续一段时间,直到惨烈的竞争出现。也许,那已经为时太晚。

雷区四:成本未知

没有人知道使用大语言模型的确切成本。尽管当前企业在选择生成式AI服务时都能清晰明了地看到单价,这在一定程度上代表了生成式AI的应用成本,但有一些迹象表明,这些价格是相关供应商获取风险投资后的进行大量补贴的结果,不能代表市场的真实价格。如果我们回想一下以往滴滴等共享服务的价格就会预测到,当前相对的低价是很难延续的,等到投资者的钱用完后,价格就很有可能飙升。所以CIO或企业的IT领导者,在选择生成式AI时还要考虑未来可能面临的成本压力。

当然,实力强劲的企业也可能选择本地化部署。但是这一方面会面临巨大的初始成本,特别是要配置价格昂贵的GPU,同时还会无法获得托管服务所具有的所有优势,比如说,按需付费,无需运维。

雷区五:版权噩梦

当前,大语言模型的能力已经显现,一些大语言模型已经可以轻松处理一般的杂务,如完成高中生的家庭作业,或撰写大学入学论文。

但对于大多数企业来说,没有那么多让人工智能来承担的类似杂务。他们需要为其特定业务定制,需要大量的训练和微调。随之而来的,是训练的数据问题。

有些幸运的企业拥有可控的大型数据集。然而,大多数企业都没那么幸运,如何解决训练数据的版权问题成为一个棘手问题。从全球范围来看,一些作者已经因为大语言模型提供商未经许可就将他们的作品用于训练人工智能而提出起诉,一些艺术家则认为他们的作品被抄袭。此外,隐私问题仍然悬而未决。

雷区六:供应商锁定

从理论上讲,人工智能算法是通用的工具,它抽象化了用户界面的所有复杂性,能够独立处理人类抛给他们的问题。从理论上讲,生成式AI不会像API那样僵化和不灵活,在切换供应商时也无需程序员团队重写绑定代码,也不用像使用其他软件那样切换供应商后要处理很多麻烦的事情。

但是实际情况并不那么简单,因为要想真正用好生成式AI,编写提示词非常关键,甚至由此已经产生了一个新兴的职业——提示词工程师。这种职业要求了解大模型特质并编写更好的提示以获取更好的答案。提示词结构的差异成为用户快速切换供应商的障碍。也就是说,企业在采用大语言模型时不可怀着“先用着再说,看到更好的切换就是了”的心理。

Newsweek不久前的一项调查显示,ChatGPT的用户数量已经比今年年初高峰时期下降了近95%,因为“ChatGPT对工作的促进能力没有想象那么强”。如此看来,保持良好的心态,防患于未然,才是采用生成式AI的正确姿势。

分享到:
1
1

发表回复

猜你喜欢
近期文章
利用生成式AI推动创新 美国本田这样做
东方Project-个人AI绘画合集-8(更新至2024-2-14)
AI绘画(动物科普)—兔狲
12.28乾坤AI日报 — 2023年度十大科技名词发布
12.26乾坤AI日报 — OpenAI公布2024年计划
近期评论
ai-world发表在
AI赛博机车—借助SD技术赚取第一桶金
mulei77发表在
AI赛博机车—借助SD技术赚取第一桶金
An Vũ( CEO AGBIG GROUP)发表在
12.25乾坤AI日报 — 苹果正购买新闻采集权用于训练生成式 AI