路透社4月4日消息,据报道,谷歌公司发布了关于其用于训练人工智能模型的超级计算机的新细节。
谷歌称他们的超级计算机系统比英伟达公司的可比系统更快,更节能。
谷歌设计了自己的定制芯片,称为张量处理单元( Tensor Processing Unit, TPU )。
谷歌将这些自己研发的芯片用于公司超过90%的人工智能训练工作。
谷歌可以通过模型输入数据,以使其在诸如以人类文本回答查询,或生成图像等任务中可以完成人类给出的指令和任务。
谷歌的张量处理单元现已进入第四代。
周二,谷歌发表了一篇科学论文,详细介绍了如何将超过四千块芯片串联起来,使用他们自行开发的光学开关来帮助连接各个机器,从而构建一台超级计算机。
改善这些超级芯片的连接已成为构建人工智能超级计算机公司之间的关键竞争点。
因为支持谷歌的Bard或OpenAI的ChatGPT等技术的所谓大型语言模型,已经变得非常庞大,无法存储在单个芯片上。
这些模型必须分布在数千块芯片上,然后这些芯片必须在数周或更长时间内一起工作来训练模型。
谷歌的PaLM模型是其迄今为止公开披露的最大语言模型,它是通过将模型分成两部分,在两台4000芯片的超级计算机上进行了50天的训练而成的。
谷歌表示,他们的超级计算机可以轻松地动态重新配置芯片之间的连接,有助于避免故障并进行性能优化。
谷歌公司研究员Norm Jouppi和谷歌公司杰出工程师David Patterson在有关该系统的博客文章中写道,谷歌设计的电路交换,使得绕过故障组件变得容易。
这种灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速ML(机器学习)模型的性能。
虽然谷歌现在才公布其超级计算机的详细信息,但它自2020年起就已经在俄克拉荷马州梅斯县(Mayes county)的一个数据中心内部上线。
谷歌表示,初创人工智能绘图公司Midjourney使用该系统来训练其模型,该模型在输入几个单词的文本后,可以发射生成全新,符合要求的图像。
在论文中,谷歌表示,对于同样规模的系统,与基于英伟达的A100芯片的系统相比,其芯片的速度最高可快1.7倍,能效最高可提高1.9倍,而该芯片是与第四代张量处理单元同时上市的。
一名英伟达的发言人就拒绝对此发表评论。
谷歌表示,它没有将其第四代芯片与英伟达当前的旗舰H100芯片进行比较,因为H100芯片是在谷歌的芯片之后上市的,并采用了更新的技术。
谷歌暗示,他们可能正在开发一款新的张量处理单元芯片,来和英伟达的H100芯片竞争。
不过,谷歌并没有提供任何详细信息。
来源:
https://www.reuters.com/technolo … -nvidia-2023-04-05/
发布者:afndaily,转载请注明出处:www.afndaily.com