谷歌与OpenAI正在输掉人工智能战争 谁将获胜?
“我们一直在关注 OpenAI,想知道谁将是下一个获胜者?接下来将发生什么?但残酷的事实是,我们无法赢得军备竞赛,OpenAI 也不会获胜,当我们一直在争吵的时候,第三个派别已经悄悄地吃掉了我们的午餐,当然,我所说的是开源社区。”
谷歌公司高级软件工程师卢克·塞尔瑙(Luke Sernau) 用上述言论开启了其内部报告,他在这份内部报告中批评了谷歌在最近的生成式人工智能战争中与OpenAI 的斗争,他并强调,这种冲突导致他们忽视了另一个激烈的竞争者,即开源社区。
据彭博社报道,塞尔瑙于 4 月初在谷歌的一个内部平台上发布了这份报告,然后在过去几周内,该报告在公司内部传播并被数千名员工分享。然后,5 月 4 日,该报告被泄露到互联网上,并由咨询公司 SemiAnalysis 发布在其博客上,这引发了硅谷关于提供基础人工智能模型和开源的争论,谁应该拥有和控制这些新的强大模型!在这方面最重要的问题是:是否真得出现了一支危险的新军队,加入了已经持续多年的人工智能战争?
我们没有护城河!
谷歌工程师的内部报告标题为“谷歌:我们的城堡周围没有护城河,OpenAI 也没有。”过去,挖护城河环绕城堡、要塞或城市,作为第一道防线过去,而在商业和技术公司的语境中,该术语指的是领先公司在其领域中拥有的竞争优势,这使得竞争对手难以赶超。
这条护城河可能是财务、后勤或独特的技术实力,例如,苹果和三星等大型智能手机制造商拥有后勤和财务竞争优势,这使得该领域的新玩家很难与他们形成重大而真实的竞争,但当谈到生成式人工智能领域,尤其是大型语言模型时,报告称谷歌不再有护城河来保护其堡垒。
“Open AI”在 2020 年发布的 GPT-3 语言模型的发布,预示着该领域的巨大规模和发展,因为该模型拥有1750亿个参数,这是一个可以衡量模型的规模及其学习能力的单位,以及执行许多以前未训练过任务的可能性。
GPT 模型的后续发展已经表明,如果企业继续构建越来越大的语言模型,并在更大的数据集上对其进行训练,他们最终将能够生产出更强大、能力更强的模型,因此,人工智能研究实验室竞相创建这种模型,其中最著名的有2800亿模数的“Gopher”、1370亿模数的“LaMDA”、5400亿模数的“PaLM”和5300亿模数的“Megatron-Turing”。
这些巨大模型的主要问题是开发和培训它们的成本高昂,以及需要强大的功能和设备来操作它们,所有,这些都耗资数百万美元,这就是像 OpenAI 这样的实验室需要大量资金来源的原因,因此,它演变成一个营利性组织,并面临越来越大的压力,要求将其技术货币化并创造可以销售和货币化的产品,但与此同时,它需要围绕这些产品建立护城河,以便能够抵御像谷歌这样规模的强大竞争对手。
在大型语言模型的情况下,可以保护公司的主要渠道有三个,即模型的训练数据、模型或交易量,最后是训练成本。科技巨头实际上享有第三个优势,因为他们是唯一有能力在如此巨大的规模上训练和运行基础语言模型的相关方,之前有 GPT-3 模型的开源替代品,例如 BLOOM 模型,但对于资金不多的组织和初创企业来说,它们几乎无法使用,而且这些组织和企业无力购买或租用数千个功能强大且昂贵的 GPU。
但是,对于要在城堡周围建造第一条和第二条护城河的公司来说,它们已将该领域推向保密、更隐蔽和更少的技术信息,但这些战壕似乎不会坚持太久。
基础模型泄漏
近年来,随着生成式人工智能模型能力的飞速发展,出现了“基础模型”一词,这个词在该领域是一个相对较新的术语,而且还有些模糊,但有些人通过参数的数量来定义它,从而定义神经网络本身的大小,而另一些人则通过该语言模型可以执行的不同或独特且困难的任务的数量来定义它。
简而言之,我们可以将本构模型定义为预先格式化的语言模型,该模型在许多不同的文本数据上进行训练,并构成设计和训练较小语言模型以执行特定任务(例如回答问题)的基础,通过这种方式,可以准确地构建语言模型,而不必每次都使用现有的基础模型从头开始,其中最著名的例子之一是“GPT-4”模型,“ChatGPT”机器人就是基于该模型。
大家从二月底开始关注这个基础模型的问题,随着Meta的大型语言模型“LLaMA”的发布,这是其中一个庞大的基础模型(650亿模数),该公司将其作为开源包提供给大学和人工智能研究实验室,而不是用于商业目的,可视为原材料,它没有接受过执行特定任务的纪律或培训,例如回答问题,这是创建易于日后使用的产品的必要且通常困难的步骤,虽然它具有与大型语言模型相同的特性,但它需要非常强大和昂贵的硬件能力来测试、修改和运行。
然后,在 3 月 3 日,整个模型被泄露到互联网上,并连同其所有技术细节传遍了整个领域,这就是非常快速的修改和开发过程开始的地方,最重要的是,研究人员能够通过使他们能够在硬件较少的设备上运行模型的技术来克服体积庞大的问题,这些设备可以在没有显卡的情况下使用苹果笔记本电脑“MacBooks”,有些人甚至设法让它在 Pixel 6 手机上使用该模型的最小功能。总之,任何人只要拥有一台硬件强大的计算机,就可以在几个小时内训练出个人语言模型,而且成本很低,这在以前只有大型研究机构才能做到。
开源模型
谷歌泄露的报告指出了这一发展的重要性,这被称为大型语言模型的低秩适应,或 LoRA,正是这项技术使研究人员能够配置和调整模型,而不需要功能强大且昂贵的硬件或巨大的显卡,只需要花费数百美元,而不是数百万美元,并且在几天内完成,更重要的是,无需为他们想要执行的特定任务重新完全重新培训它们。
如果新数据有限,这种机器学习技术用于使用新训练数据提高现有语言模型的准确性和效率,其背后的基本思想是将模型矩阵分解为两个低阶矩阵,分别用于表示当前数据和新数据,例如,假设您有一个用于图像识别的预训练模型,并且您想要更新它以使其识别一组新图像,您可以使用“LoRA”技术将模型矩阵分解为两个低阶矩阵,一个代表现有图像,另一个代表新图像,而不是从头开始重新训练整个模型,然后您可以通过修改仅属于新图像的数组来更新表单。
塞尔瑙在他的报告中认为,到目前为止,大公司拥有的大型语言模型在质量上存在差异,但是更简单的模型开始接近实现这种质量,至于生成人工智能的实际应用,他认为谷歌或“Open AI”的海量模型不具备强大的竞争优势,无法证明选择客户而不是竞争和免费的开源模型是合理的,特别是当涉及到小型的、预定义的任务时,例如客户服务机器人、总结大型文档、机器翻译和其他此类简单任务。
换句话说,谷歌和 OpenAI 需要花费数月和数年时间构建和训练其庞大的模型,并花费数百万美元,从开源社区花费几天时间,仅花费数百美元,改进和开发这些模型以在简单而具体的任务中从中受益。
市场走势转变
简单地说,塞尔瑙认为市场开始从关注巨大的规模转向寻找更简单、更便宜、易于调整和定制的语言模型,而不需要巨大的硬件和功能,OpenAI首席执行官奥特曼(Sam Altman)证实了这一点,他指出海量模型的时代即将结束,开发此类模型的战略已经结束,未来人工智能发展的步骤将需要新的思路。
报告援引了人工智能图像生成模型的对比,特别提到了AI初创公司Stability AI于去年8月免费向公众发布的开源Stable Diffusion模型,并将其与闭源模型进行了对比,即一年半前由“Open AI”公司开发并推出的闭源模型“Dali”,具体时间是2021 年 1 月,这种开源模型尤其在该领域带来了快速而广泛的繁荣,因为在过去的一年里,它成为了所有想要开发自己的应用程序或模型以使用人工智能编辑和创建图像的人的避难所。
最后,塞尔瑙得出结论,这件事的赢家是“Meta”公司,因为所有这些开发和修改都发生在他们自己的模型上,因此,数百名研究人员和程序员免费为它工作,并且没有什么能阻止它将所有这些集成到它的人工智能产品中,这就是为什么他建议他的公司谷歌改变其目前在该领域的想法,采用开源人工智能模型,参与正在进行的讨论,并向技术社区提供其巨大的平台,就像您在他们各自的操作平台上所做的那样,比如安卓和 Chrome,这样一来,它就可以保留领先地位,为自己确定该领域的方向和未来的新发展,因为它有自己的基础运营平台。
更加含糊不清
该报告并非谷歌内部的官方战略,此类内部报告定期在员工中发布,它们通常是基于对情况的分析的个人意见,然而,这份报告具体表明,谷歌内部对其目前在生成人工智能领域的战略存在严重分歧,到目前为止,正如我们在其年度 Google I/O 大会上看到的那样,该公司的重点主要是试图与微软竞争,后者将生成人工智能技术引入其必应浏览器,以及 Office 程序和 Windows 11操作系统。
这种对当前竞争的关注导致谷歌完全转向一个更加封闭的系统,这与其之前与技术界共享人工智能研究的战略相矛盾,《华盛顿邮报》的一篇报道证实了这一点,该报道称,该公司人工智能负责人杰夫·迪恩告诉员工其政策的新转变,他们不会与外界分享他们的研究成果,至少要等到谷歌拥有可以销售的真正人工智能产品。
多年前,杰夫·迪恩像大学一样管理着谷歌的人工智能部门,他鼓励研究人员大量发表学术论文, 自 2017 年以来,该公司甚至发表了研究论文,帮助启动了当前的生成式人工智能革命, 这就是工程师卢克·塞尔瑙在他的内部报告中提到的内容,批评谷歌试图对其技术保密的新政策,而公司的员工可以很容易地离开并转移到竞争对手那里,并与他们一起转移他们认为是机密的关于公司技术的知识和信息。
这与 OpenAI 在自己的研究中使用的策略相同,它与竞争对手争辩说,为什么它没有披露有关其新语言模型 GPT-4 的训练数据的任何信息或细节,甚至它是如何开发的,该公司首席研究员伊利亚·索茨基弗在接受 《The Verge》 采访时解释说,这样做是为了在市场上保持竞争优势,当被问及公司改变方向而不是遵循开源模式时,伊利亚·索茨基弗强调,过去他们分享他们的研究是“错误的”,人工智能领域的这种研究不应该开源。
同样,公司总裁格雷格·布罗克曼在接受 TechCrunch 的新闻采访时,证实了在图像和文本上训练新模型的想法,但当被问及这些图像和文本的细节时,格雷格拒绝讨论这些问题,也拒绝谈论任何 GPT-4 训练数据的来源,这促使许多行业专家指出,关闭对该公司开发的人工智能模型的访问,使社会难以理解这些系统所带来的潜在威胁,并将权力集中在一些企业巨头手中。
当然,开源模型的最大障碍仍然是资金,要实现盈利和可持续发展,这些系统需要数千万美元才能正常运行和管理,这个数字可能只代表了大公司投资的一小部分,但对于像 Stability AI 这样的初创公司来说却是一个巨大的数字,正如“Semaphore”平台的一份新报告显示,该公司正在花费大量资金,达到了去年在一轮融资中筹集到的 1 亿美元,实现收入放缓。
尽管在人工智能图像生成领域广泛使用其“Stable Defusion”模型,但这并没有转化为获得足以支付开发和运营模型成本的财务回报,此外,世界各地该领域的许多工人的快速招聘过程,报道称,该公司首席执行官伊马德·穆斯塔法支持招聘类似于谢丽尔·桑德伯格模式的高管营销专家,她曾在 2008 年担任 Facebook 运营执行总监一职,并为当时的公司转型做出了贡献变成一个巨大的利润机器。报道称,该公司首席执行官伊马德·穆斯塔法支持招聘类似于谢丽尔·桑德伯格模式的高管营销专家,她曾在 2008 年担任 Facebook 运营执行总监一职,为当时的公司转型为巨额利润机器做出了贡献。
但是为什么所有这些讨论都应该在此时此地进行呢?
重要讨论
抛开所有的炒作和营销术语,这些新一代的生成式人工智能模型真正令人兴奋的是,它们将从根本上改变我们与计算机以及数据和信息交互的方式,现在看来,我们已经进入了这些模型发展的关键阶段,有了它,我们将需要开启一个重要的讨论点:谁可以构建、拥有和交付这些强大的模型?这将意味着什么?
假设人工智能模型的控制者是那些实际上控制了我们这个时代的大部分互联网服务的大公司,这是绝对合乎逻辑的,由于这些与人工智能相关的伦理问题,对开源基础模型的呼声在整个行业中越来越受欢迎,至少这就是“Meta”公司在其发布最新语言模型并使其可用于该领域的进一步研究背后提到的内容。
但是,正如我们提到的,构建如此强大的模型并不是一件容易或便宜的事情,因为它需要数以万计的高级图形处理单元、在最大的数据中心租用的云服务,以及许多经验丰富的机器学习科学家和工程师的努力,只有少数科技巨头,例如谷歌和 Meta,或资金雄厚的初创公司,如拥有数亿美元巨额资金的 OpenAI,才能进入构建如此强大模型的堡垒。
问题是这些大公司的模型是闭源模型,这赋予了它们巨大的权力和控制权来做出决定,而这些决定通常会影响我们的未来和我们业务的未来,例如,如果我们害怕人工智能会取代我们的工作,那么,这个决定的控制者就是这些大公司。
而随着未来即将到来的模型的关闭和垄断,无论是“GPT-5”还是“GPT-6”甚至“PaLM 3”等即将推出的基础模型,届时,留给开源技术爱好者的将是大公司留给他们的旧模型的修改和开发,他们可能会生产出新的、先进的、创新的和更定制化的版本,也许产品也会威胁到一些谷歌、Meta 和其他产品,但最终他们将被困在那些巨大的城堡之外,拥有比谷歌、Meta 或 Open AI 拥有的模型更陈旧或者更弱势,这里真正的进步,以及未来的巨大飞跃,将继续在那些关闭的城堡门后发生。
人工智能很可能成为未来几十年人类社会自我组织的主要驱动力,我们可能不相信继续在该领域提供开源研究和模型的道德必要性,但最终,至少在实践中,非常重要的是,有人为了科学和知识的积累而开发和生产这些技术的科学研究,而不是为了这些技术的商业成功而进行财务投资的人为技术,仅仅因为这就是科学和技术发展的工作方式,而生成人工智能领域本身的这场革命开始、持续并取得如此成功,这要归功于开源研究和软件对每个人的可用性,以及谷歌和 Open AI 本身。
此外,开源模型将扩大市场规模,这将为语言模型在新的商业环境中的使用打开更多空间,并且往往会迫使技术巨头向其客户提供更具竞争力的价格。总的来说,这个领域发展非常迅速,未来几周和几个月内会发生什么将会很有趣。
Thu, 18 May 2023 11:34:16 GMT 原文链接🔗: