当前位置:首页 >休闲 >十年千倍,英伟达是怎么做到的,黄氏定律的秘方是什么

十年千倍,英伟达是怎么做到的,黄氏定律的秘方是什么

2024-04-29 15:33:23 [娱乐] 来源:恒易快讯网

    英伟达赢麻了。年千在过去的倍英10年里,用于人工智能加速计算的伟达GPU的性能提高了千倍,企业市值超过了万亿美元,氏定最新的秘方H100一卡难求。,年千英伟达是如何做到十年千倍的?其首席科学家比尔·戴利(Bill Dally)上周在硅谷举行的IEEE Hot Chips 2023研讨会上的主题演讲中,用一张幻灯片总结了一切。倍英摩尔定律在英伟达的伟达魔法中作用甚微,而新的氏定数字格式则占了很大的比重。,秘方将所有这些因素综合在一起,戴利称之为黄氏定律(以Nvidia首席执行官黄仁勋的年千名字命名)。,倍英,数字表示:16倍,英伟达通过使用较低精度的数字表示法(如FP16)来进行计算,仍然能够获得足够的伟达精确度。这是氏定英伟达的一个重要优势,因为较低精度的秘方数字需要更少的存储空间和计算资源,从而可以加快计算速度和效率。这对于深度学习等需要大规模计算的应用来说尤其重要,因为它可以加速训练和推理过程,同时降低了硬件要求和能源消耗。,戴利告诉工程师们,“总的来说,我们获得的最大收益来自更好的数字表示(numberrepresentation)。”这些数字代表了神经网络的关键参数。其中一个参数是权重,即模型中神经元之间连接的强度;另一个是激活,在神经网络的每个神经元中,输入信号的加权总和将经过激活函数,生成一个输出值,表示神经元是否应该被激活(发送信号到下一层神经元),这个输出值通常在0到1之间,越接近1表示神经元更活跃,越接近0表示神经元不活跃。在P100之前,英伟达的GPU使用单精度浮点数表示这些权重。根据IEEE 754标准,这些数字长度为32位,其中23是尾数位,8是指数位,还有一位是符号位。,但是,机器学习研究人员很快就发现,在许多计算中,他们的数字可以不必有那么高的精度,而他们的神经网络仍然可以给出准确的答案。这样做的明显优势在于,执行机器学习的关键计算(乘法和累加)的逻辑可以更快、更小、更高效地完成,如果需要处理更少的位数。(如戴利所解释的,乘法所需的能量与位数的平方成正比。)因此,使用FP16,英伟达将该数字减少了一半。Google甚至推出了自己的版本,称为Bfloat16。(两者的区别在于分数位的相对数量,这影响精度,以及指数位的相对数量,这影响范围。Bfloat16与FP32具有相同数量的范围位,因此更容易在这两种格式之间切换。),如今,英伟达领先的GPU,即H100,可以使用8位数字执行大规模transformer神经网络的某些部分,例如ChatGPT和其他大型语言模型。然而,英伟达发现这并不是一种大小适合所有情况的解决方案。例如,英伟达的Hopper GPU架构实际上使用两种不同的FP8格式进行计算,一种具有更高的精度,另一种具有更大的范围。英伟达的特殊之处在于知道何时使用哪种格式。,戴利及其团队有各种有趣的想法,可以在更少的位数中提取更多的人工智能。而且很明显,浮点系统并不理想。其中一个主要问题是,无论数字大小如何,浮点精度都相当一致。但是,神经网络的参数不使用大数字,它们都集中在零附近。因此,英伟达的研发重点是寻找有效的方法来表示数字,使其在接近零时更准确。,(编者注:与更常见的单精度浮点(32位)和双精度浮点(64位)相比,FP16 具有较低的精度,但它的主要优点是更节省存储空间和更快的计算速度。因此,它通常用于需要在计算性能和存储效率之间取得平衡的应用中,例如深度学习神经网络的训练和推理,其中速度和内存占用都是重要考虑因素。虽然精度较低,但在许多实际应用中,FP16 仍然能够提供足够的精确度。),复杂指令:12.5倍,通过对图形处理器(GPU)进行架构设计,使其能够在单个指令中执行大规模计算,而不是一系列指令序列,英伟达成功地减少了这种计算资源的额外开销,从而提高了计算效率。,戴利说:“获取和解码指令的资源开销往往是进行简单算术运算的开销的多倍。”他举例说,某种类型的乘法的开销消耗了执行数学运算本身所需的1.5皮焦的20倍。通过将其GPU设计成执行单个指令而不是一系列指令来进行大规模计算,英伟达取得了巨大的收益。戴利指出,使用复杂指令,可以把开销分摊到更多的数学运算上。例如,复杂指令整数矩阵乘法累积(IMMA)的开销仅占数学运算开销的16%。,(注:1皮焦耳等于一万亿分之一焦耳,或者可以表示为10的负12次方焦耳(1 pJ =10^-12 J)。,摩尔定律:2.5倍,维持摩尔定律的进展是数十亿美元的投资、一些非常复杂的工程和一些国际折腾的主题,但它仅占英伟达GPU增长的一小部分。公司一直在使用最先进的制造技术;H100是使用台积电的N5(5纳米)工艺制造的,而该芯片工厂直到2022年底才开始初步生产其下一代N3。,稀疏性:2倍,在训练后,神经网络中有许多神经元实际上可以不必存在。对于某些网络,“你可以剪掉一半或更多的神经元,而不会失去准确性,”戴利说。它们的权重值为零,或者非常接近零;因此,将它们包括在计算中是浪费时间和能量。,将这些网络“稀疏化”以减少计算负载是一项棘手的任务。但是,Nvidia在其H100的前身A100中引入了所谓的结构化稀疏性。这种硬件可以在每四次可能的剪枝事件中实现两次,从而导致新的较小矩阵计算。,戴利表示:“我们在稀疏性方面还没有完成。我们需要在激活中采取一些措施,也可以在权重中实现更大的稀疏性。”,(编者:16*12.5*2.5*2=1000倍 ),参考:,https://spectrum.ieee.org/nvidia-gpu

(责任编辑:娱乐)

    推荐文章
    • 获得军援后以色列不会违反国际法?美国多部门:不可信

      获得军援后以色列不会违反国际法?美国多部门:不可信【文/观察者网 熊超然】此轮巴以冲突仍在持续,国际社会对于以色列在加沙地带实施军事行动的不满情绪已达到空前程度。在查阅了一份美国国务院“内部备忘录”内容后,路透社当地时间4月27日独家披露称,一些美国 ...[详细]
    • 彼德堡 對 梳士貝利

      彼德堡 對 梳士貝利軍情彼德堡上輪聯賽鬥查爾頓,翼鋒美臣奇勒梅開二度,腳風大順。門將史迪亞全場作出4次撲救,雖未能保持不失,但表現依然對辦。梳士貝利上輪聯賽鬥史提芬納治,埋門次數遠不及對手。門將馬羅斯全場只曾作出1次撲救 ...[详细]
    • 小基恩同意租借加盟马竞 但要取决于科雷亚转会

      小基恩同意租借加盟马竞 但要取决于科雷亚转会据知名记者罗马诺的消息,小基恩已经同意加盟马竞,但租借能否成行取决于安赫尔-科雷亚转会吉达联合的交易。罗马诺指出,马竞有意租借尤文前锋小基恩,租借期限到本赛季结束,小基恩已经同意加盟,但交易能否成行完 ...[详细]
    • 小基恩同意租借加盟马竞 但要取决于科雷亚转会

      小基恩同意租借加盟马竞 但要取决于科雷亚转会据知名记者罗马诺的消息,小基恩已经同意加盟马竞,但租借能否成行取决于安赫尔-科雷亚转会吉达联合的交易。罗马诺指出,马竞有意租借尤文前锋小基恩,租借期限到本赛季结束,小基恩已经同意加盟,但交易能否成行完 ...[详细]
    • 安徽:无人驾驶摆渡车实现小批量生产

      安徽:无人驾驶摆渡车实现小批量生产原标题:安徽:无人驾驶摆渡车实现小批量生产随着人工智能和工业互联网的广泛运用,以及相关前沿技术的不断进步,汽车自动驾驶时代呼之欲出。然而,目前的自动驾驶还只能在有条件的场景下进行,要想真正实现商用,还 ...[详细]
    • 上海航运交易所:上海出口至欧洲航线运价上涨超300%

      上海航运交易所:上海出口至欧洲航线运价上涨超300%自去年年底红海水域频频发生商船遇袭事件后,多家国际航运企业陆续宣布暂停红海航线,并先后表示,由于改道绕行导致运输成本增加,运费报价不得不随之上涨。1月15日,法国达飞海运集团宣布,该公司从亚洲到地中海 ...[详细]
    • 韋根 對 雷丁

      韋根 對 雷丁軍情韋根上輪聯賽鬥諾咸頓,埋門次數雖遠超對手,但論到入肉鏡頭其實寥寥可數;球隊雖在上半場先失守,幸好射手麥根尼斯下半場中段建功,得以搶回1分。雷丁上輪聯賽鬥維爾港,因球迷衝入場內,賽事被逼腰斬;該隊早 ...[详细]
    • 股指期货主力合约持续加仓 “信号灯”仍在点亮 值得留意的是“负基差”

      股指期货主力合约持续加仓 “信号灯”仍在点亮 值得留意的是“负基差”“V”型反转行情的上演,两市成交额的放量,再加上多只宽基ETF成交额同步异动,市场又被一“大奇迹日”感动。种种异动之下,各方资金企图从蛛丝马迹中揭开抄底资金的身份,把脉接下来的行情。期指自然也成为聚焦 ...[详细]
    • 广州工厂龙卷风后受损,称会照常发工资!订单交同行代为生产

      广州工厂龙卷风后受损,称会照常发工资!订单交同行代为生产影响距离约1公里的强龙卷风,让广州白云区钟落潭镇光明、陈洞、金盆、良田4个村受损。“这次员工宿舍没怎么受损,但厂房基本都坍塌了,天花板被掀开,器材也损失得很严重。”4月28日中午,一名无纺布工厂老板向 ...[详细]
    • 53家信托公司去年业绩出炉:近半数净利同比下降,7家净利润为负

      53家信托公司去年业绩出炉:近半数净利同比下降,7家净利润为负2023年,信托业整体业绩承压明显,已披露业绩的53家信托公司中,24家信托公司出现营业收入同比下滑,26家净利润同比下降。1月18日,澎湃新闻www.thepaper.cn)从中国货币网获悉,已有5 ...[详细]
    热点阅读