数据是企业在生成式AI时代取得成功的关键
8个月前 (05-08) 11 0
“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。”近日,亚马逊云科技大中华区产品部总经理陈晓建在接受记者采访时表示,数据是企业在生成式 AI 时代取得成功的关键。
在他看来,每个公司都能访问相同的基础模型,但那些能够利用自己的数据构建具有真正商业价值的生成式人工智能应用的公司,将会是未来能够取得成功的公司。
从AI大模型训练角度来看,生成式AI基础模型诞生于大规模、高质量数据集。如果一本书按500KB算,现在的500T参数的模型已经有332亿本,相当于现存每个人类拥有4本书。
在这一情况下,数据的质量直接决定生成式AI大模型的价值。例如,2022年成立的搜索引擎公司Perplex就是将传统搜索、客户数据与大型语言模型的推理和文本转换能力结合,形成了独特的价值主张。这种结合传统搜索技术的成熟与新兴AI技术的融合,加上企业独有的用户数据,也是其成功的关键因素。
这也为AI时代下,企业如何运用数据影响AI大模型提供了新的发展思路。
陈晓健分析,Perplex的业务成功展示了在不依赖大规模数据驱动AI应用的潜力,不仅在于模型本身,更在于如何结合和使用数据创造差异化应用。企业需要高效管理飞速发展的生成式 AI 应用产生的新数据。
因此,从亚马逊云科技云服务商的角度来看,用企业自身的数据去差异化生成式AI应用,通过数据定制基础模型的方式主要分为三大类:检索增强生成(RAG)、微调和持续预训练,这三种方式适用不同的应用场景。
其中,在检索增强生成(RAG)方面,企业可以将自身的知识库、数据库等与生成式AI模型相结合,在生成过程中实时检索和利用企业内部的相关数据,从而提高生成结果的准确性、一致性和信息量。这个 *** 相对简便。适用场景包括知识时效性、控制幻觉、用户隐私数据保护、企业私域知识等。
需要了解的是,生成式AI基础模型的局限性之一在于无法及时拥有企业专有数据,因此通过技术手段加速数据与模型的结合,成为企业打造数据技术的关键能力之一。检索增强生成(RAG)技术被普遍认为是实现数据与模型结合的主要途径之一,它通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。现代应用程序需精准理解用户需求并正确关联产品或内容,这一需求广泛存在于搜索、评论、购物车及产品推荐等交互框架中,这些框架又依赖于功能各异的数据库,这使得数据库成为实施RAG技术的理想平台。
微调是使用与目标任务相关的数据对模型进行进一步训练,以提高其在特定任务上的性能。
而持续预训练是企业利用自身专有数据(如内部文档、客户记录等)对模型进行持续预训练。这种持续预训练门槛较高,成本较大,但是可以得到一个企业自身定制的行业大模型。适用场景包括理解行业领域知识/术语,以及用于严控数据合规等。
需要关注的是,RAG、微调和持续预训练需要的数据规模、数据来源和技术要求各不相同,企业在具体应用层面需要具体情况具体分析。
从原始数据集到训练出基础模型需要解决三个主要问题,找到合适的存储来承载海量数据;清洗加工原始数据为高质量数据集以及对整个组织内数据的发现编目治理。
同时,企业需要将现有数据快速结合模型产生独特价值的能力。以图数据库为例,它擅长处理复杂关联,在社交 *** 、推荐系统、欺诈检测、知识图谱等领域被广泛应用。以知识图谱为例,它被广泛应用于制造业当中,用于建设跨产品生命周期集成的数字主线。知识图谱擅长结构化知识,并能够确保数据准确,劣势在于不能理解自然语言,只能做严格推理。基础模型和知识图谱正好相反,能理解自然语言但缺乏专业知识。两者结合可以获得更精确专业的信息以减少幻觉,也可以对不准确的回答进行溯源和纠偏。
因此,云服务提供商也会根据不同的情况提供不同的解决方案,如亚马逊云科技专门构建了图数据库Amazon Neptune,并为其推出了分析数据库引擎,能够提升80倍的图数据分析速度,使用内置算法可在几秒钟分析数百亿个连接。通过将图和向量数据一直存储能够实现更快的向量搜索。
对生成式AI应用程序而言,基础模型频繁调用将会导致成本的增加和响应的延迟。相对于此前数据库调用通常毫秒级甚至微秒级的响应时间,基础模型每次调用时长往往达到秒级。此外,每次调用基础模型也会增加成本。
很多企业反映,终端用户绝对大部分问题是类似甚至重复的。因此可以通过将之前问答生成的新数据存入缓存,从而在面对类似问题时,可以不调用模型,而直接通过缓存给出回答,这不但能够减少模型调用,还可以节约成本。
从目前的情况来看,不可否认的是数据是AI大模型成功的关键原料,是创造差异化的核心,决定了模型的性能和应用的精准度。
“企业应结合无服务器的速度和生成式AI的力量快速占领市场。无服务器的速度加上生成式AI的力量,能够让企业快速交付以创新为重点的更智能的应用程序和功能。”陈晓健说道:“我们希望每一个企业在生成式AI时代借助亚马逊云科技的服务打造坚实的数据基础。这样企业就可以高效安全地将海量的多模态数据和各种基础模型结合在一起,创建出一系列具有独特的价值的生成式AI应用程序并受到终端用户的欢迎,进而产生更多的数据。这些新数据又会继续提升模型的准确度,创造更好的用户体验,从而实现生生不息的正向生成式AI数据飞轮,带动我们企业的业务走向成功。”
本文转载自互联网,如有侵权,联系删除