澳门新濠新天地3559_www.3559.com新濠新天地网址

您的位置:新天地3559 > 电工电气 > 围绕AI芯片的创新因此也成为了热点,2019全球A

围绕AI芯片的创新因此也成为了热点,2019全球A

2019-10-07 10:07

Wave目前的DPU世代是基于16nm工艺的设计。

联合学习:实现边缘AI训练

2018年,10nm和7nm的芯片已经开始量产,但CMOS器件的横向尺寸接近几纳米,厚度只有几个原子层,想要继续靠工艺制程提升晶体管密度带来处理性能的显著提升,技术上难度越来越高,成本也让越来越多的芯片公司望而却步。

澳门新濠新天地3559 1

新的7nm DPU将由Broadcom方面提供,但时间表未定。据Wave首席执行官Derek Meyer证实,这款7nm DPU将会“设计于我们自家的AI系统中。”他还补充说,“如果市场其他公司有此需求的话,也可以提供相同的芯片。”

Chris告诉智东西,Wave计划在明年发布7nm DPU的计划。

要让FPGA具备ASIC级别的性能,首先需要提升算力。正如前面所说,先进半导体工艺对处理器性能的提升非常关键,因此Speedster7t采用的是台积电7nm FinFET工艺。我们知道7nm工艺的流片成本非常高昂,着是否意味着这款7nm的FPGA 只面向云端市场?Robert对雷锋网表示,在高端应用市场,无论是AI的训练还是推理,对性能和延迟要求都很高,需要7nm工艺。当然,除了云端,针对边缘市场我们会有更小且成本更低的产品,满足不用应用和不同市场的续期。

百度主任架构师欧阳剑介绍了百度近年来在AI芯片上的工作,重点讲述了百度“昆仑”芯片。

7nm DPU内部揭密

基于CGRA架构,Wave Computing打造了数据流处理器DPU(dataflow processing unit),适用于汽车电子、智慧零售、智慧金融等各种复杂、算力要求高的各类AI应用。第一代DPU采用16nm制程工艺,以6 GHz以上的速度运行,已经落地商用。

但有观点认为,随着AI算法的成熟,未来市场需要的是最通用和最专用的AI处理器,FPGA将失去优势。对此,Robert表示,随着AI的发展,芯片发生了一些变化,ASIC也需要一些可编程的能力,而我们现在也在FPGA当中增加了ASIC的属性,因此未来FPGA和ASIC都可能不再是传统定义。

“AI时代的摩尔定律非常高,在数据和模型复杂度方面,每两年就有量子级的提高。此背景下,专用处理器是必经之路。”欧阳剑还介绍,过去的百度一直在探索一条适合自己发展的AI处理器的路。2011年左右,在做GE FPGA的架构器;2013年,在FPGA基础上诞生了性能AI处理器;2017年,基于FPGA架构的AI处理器具备了CT tops性能,并有了1000 片FPGA的部署规模。同年,百度提出了XPU的架构,该架构是普适的AI计算架构,可用在云端、自动驾驶、边缘计算,具有很高的计算能力、高通用性、灵活性;2018年,百度发布了“昆仑”,其性能比之前提高了30倍。

市场研究公司Tirias Research首席分析师Kevin Krewell表示,“Wave希望能够以此7nm设计在新创公司中脱颖而出。目前,大多数的新创公司都还不具备打造7nm组件的专业技术与能力。”他解释说,Wave在Broadcom的协助下,使这一切成为可能。他指出,Broadcom“由于收购了LSI Logic,确实拥有更先进的ASIC电路设计经验。”

Wave用了8年多时间来开发这款芯片所需要的软硬件技术储备。Chris介绍说,相比上一代16nm DPU,Wave正与博通合力研发的新一代7nm DPU将会有多处重大升级。

随着计算性能的不断提升,内存墙的瓶颈越来越明显,在这样的情况下,架构的创新能够体现的价值越来越明显。当然,这需要具备前瞻性以及强大的技术研发能力,我们看到市场上有一些针对存储进行的架构创新设计,包括存算一体、存储优先、可重组、可重构的架构等。

澳门新濠新天地3559 2

目前,这项7nm合作计划已经展开并持续进行好几个月了。Broadcom将负责7nm芯片的实体部份。尽管7nm设计非常复杂,但Meyer表示,“我相信Broadcom将第一次就推出合适的芯片。”然而,Wave并未透露其7nm DPU何时上市,也未对7nm DPU架构多加说明。

Scale up是指将大量芯片集成在一个机架中,scale out指的是在数据中心将大量的机架网络化。在训练一个大型神经网络时,通过将scale up和scale out结合,即可以构建一套大型的数据流超算。

更进一步,FPGA会在哪个市场体现出优势?Robert从他们产品的产品出发指出,FPGA器件方面主要是云、网络加速以及机器学习,IP主要还是5G、汽车以及存储。当然,还需要根据客户的反馈和需求,推出性能和架构都最适合客户的FPGA产品。

李维兴:5G成就AI,AI成就5G

Wave目前的DPU世代基于16nm工艺节点,主要由Wave自家设计人员以及承包商的协助共同完成。至于7nm DPU,Meyer表示,“在Broadcom和Wave之间,我们已经拟定好设计前端和后端所需的技术和资源了,同时相应地制定了合作计划。”

澳门新濠新天地3559 3

澳门新濠新天地3559 4

HiAI是基于集成NPU使用专业的指令集和计算库,高效执行神经网络的算子。在AI时代,专业的NPU张量计算最适合AI的应用。HiAI采用了很多种优化方法,尽量将计算在本地完成,由此实现快速简洁有效的推理预算。

不过,Krewell对此持保留看法。他说:“至于Wave是否可在性能方面实现10倍的进展,这毕竟是一个漫长的旅程,必须取决于如何测量机器学习的性能……以及Derek 是在谈训练还是推论。”他还补充说,“推论方面发生了许多变化,也以较低精度的算法进行部署。训练的性能主要取决于内存架构。”不过,他也坦承,“我其实并不知道Wave所盘算的细节。”

澳门新濠新天地3559 5

另据了解,安全性方面,Speedster7t FPGA系列可用最先进的比特流安全保护功能应对。在产品的批量化支持方面,Achronix在Speedcore eFPGA IP中采用了与Speedster7t FPGA中使用的同一种技术,可支持从Speedster7t FPGA到ASIC的无缝转换。并且,当使用Speedcore eFPGA IP将Speedster7t FPGA转换为ASIC时,用户有望节省高达50%的功耗并降低90%的成本。

魏少军:AI Chip 0.5至 2.0的演变

据《EE Times》目前掌握到的消息,Wave Computing的7nm开发计划将采用博通(Broadcom Inc.)的ASIC芯片设计。Wave和Broadcom这两家公司将采用台积电的7nm工艺技术,共同开发Wave的下一代数据流处理器(Dataflow Processing Unit;DPU)。

澳门新濠新天地3559 6

澳门新濠新天地3559 7

澳门新濠新天地3559 8

Meyer在接受采访时宣称,新的7nm DPU可望提供较其现有芯片更高10倍的性能。

Chris谈到,基于Wave研发的DPU,软件可动态重构处理器CGRA有潜力革新现有的深度学习格局,另外他认为,联合学习将是机器的未来。

既然功耗和成本都能够显著降低,那是否意味着Achronix新推出的FPGA 将成为AI芯片的主流?Robert表示,CPU、GPU、FPGA、ASIC每一类芯片都有其技术长处,并且AI芯片的市场在增长,所有的芯片类型都会从中受益。仅看FPGA,根据市场调研公司Semico Research的预测,人工智能应用中FPGA的市场规模将在未来4年内增长3倍,达到52亿美元。

戴金权:大数据分析可与人工智能相统一

针对Wave将在内存中增加的新功能,Krewell说,“Wave的现有芯片使用美光的混合内存立方体(Hybrid Memory Cube;HMC)。而且我认为Wave未来的芯片将会转向高带宽内存。”他并补充说:“HBM的未来发展蓝图更好。不断变化的内存架构将会对整体系统架构造成影响。”

联合学习联同以低功耗着称的MIPS CPU,为Wave在边缘和终端加速AI的解决方案提供技术支撑。

但这些最先进和更大的带宽只能解决芯片与外部数据的交换,芯片内部数据效率的提升才是关键。这就是Achronix这款新产品架构的另一大关键创新,高带宽二维片上网络。Robert将架构中可横跨和垂直跨越FPGA逻辑阵列的NOC比喻为城市街道系统上的高速公路网络。NOC中的每一行或每一列都可作为两个256位实现,单向的、行业标准的AXI通道,工作频率为2Ghz,同时可为每个方向提供512 Gbps的数据流量。

高通技术副总裁李维兴围绕着终端侧AI介绍了高通对人工智能、云端、终端侧的看法和产品规划。他的核心观点是:5G和AI的关系密不可分,一方的进步推动另一方的发展。

Meyer还指出,Wave的7nm芯片将在内存中搭载新功能,但他并未透露究竟增加了哪些新功能。

Chirs Nicol表示,Wave所做的DPU芯片,将软件接入到芯片,可以存取外部内存上的数据信息。该芯片内部集成大量Cluster,每个Cluster内包含8个DPU算术单元、16个处理元素(PE,Processing Element)及存储器。其中,PE用全局异步、局部同步设计实现,没有时钟信号,由数据流驱动。PE和CGRA可同时运行计算。

澳门新濠新天地3559 9

2018年,高通正式成立Qualcomm人工智能研究院,关注AI产品研发、制造以及与合作伙伴的项目。截至今日,高通共发布了四代AI平台。第一代骁龙820是高通首个针对AI Engine的平台,用CPU的方式将AI的使用场景呈现出来;第二代骁龙835支持Caffe 2,通过它支持神经网络的SDK开始使用CPU、GPU、DSP。第三代骁龙845支持的项目非常多,通对iOS端的支持将人工智能的运算做到更优化。

他说,“不要忘记,我们之前就已经将DPU架构中的频率与芯片分开来了。”他指出,在主机间来回移动将会造成瓶颈,而在DPU中,嵌入式微控制器可以加载指令,减少传统加速器浪费的功率和延迟。“我们可以有效发挥7nm芯片上的晶体管能力,以提高性能。”

无论是在演讲还是在与智东西的交谈中,Chris均强调到AI正从数据中心游向边缘:“神经网络正变得越来越大,新的竞争将是网络化之争。”

但是,芯片的通用也就意味着算力难以做到极致,并且,不同的数据类型和精度对处理器的性能的要求又不相同,想要同时满足算力和通用性的要求,半导体制程的提升是最为直接的方法。过去30年,摩尔定律带来了显著的计算能力的提升,半导体制程从微米跨越到了纳米级,如今的计算机处理速度也可以达到每秒千万亿次(1015 FLOPS) 。

未来在车上可能会有6-12个屏幕,这需要训练GPU,让汽车可去运行8个独立的处理器。并且,当一个处理器坏掉,也不影响其他处理器的运行。“相互独立运行非常重要,能带来更好的性能,使系统更加灵活,这应该是未来的主流。” Andrew 表示:“不同的处理器、CPU、解决方案都是非常重要的,但是我们认为的GPU还有神经网络的加速器,把二者结合会带来更好的结果。”

Moor Insights & Strategy资深分析师Karl Freund对此表示赞同。他说:“针对内存部份,我猜想他们将将会放弃混合内存立方体,而改采用高带宽内存,因为这种方式更具有成本效益。”

智东西曾与Wave Computing中国区总经理熊大鹏博士的交流,熊博士生动阐述数据流的工作原理。(革命性的DPU牛在哪?深度对话Wave Computing熊大鹏)

AI处理器的硬件挑战

去年,华为推出了HiAI 2.0,跟着麒麟980发货,目前服务的消费者已经超过了6000万。据悉,HiAI2.0平台包括HiAI Foundation芯片能力、HiAI Engine应用能力与HiAI Service服务能力,分别对应的是芯、端、云上的开放平台。

“在设计新型AI加速器的同业中,我们将率先获得7nm实体IP——例如56Gbps和112Gbps SerDes,这可归功于Broadcom的协助。”Meyer指出,Broadcom带来了先进的设计平台、量产技术以及经验证可行的7nm IP,协助我们实现了这项7nm产品开发计划。

澳门新濠新天地3559 10

计算能力的提高可以通过增加MAC,但算力提升之后,能否解决数据传输的挑战决定着AI处理器最终的性能。据介绍,Speedster7t器件是唯一支持GDDR6存储器的FPGA,并且最多可以支持8个GDDR6控制器,可以支持4 Tbps的GDDR6累加带宽,能够以HBM一半的成本提供与HBM等效的存储带宽。

欧阳剑:2019年“昆仑”将会在内部大规模使用

电工电气网】讯

与FPGA的主要区别则在于编程,FPGA使用的是硬件编程语言Verilog,对于软件工程师来说编程难度大。而CGRA支持C、Python、JAVA等高级程序设计语言,更方便程序员们上手。

目前,CPU、GPU、FPGA、ASIC都被认为是广义上的AI芯片,从CPU到ASIC,芯片的通用性降低,但性能依次增强,其中,GPU凭借并行计算的优势成为了目前最成功的AI芯片。FPGA作为不少AI芯片公司ASIC芯片验证的首选,也在AI芯片市场占据一定的地位,但成本是其在大规模应用中面临的挑战。

为解决这个问题,现在业界的做法是主要集中在领域专用的架构。这个架构需要支持非常高的性能功耗比,采用的电路都是领域专用的。不过又要兼顾通用性,无法做到像CPU一样对所有计算具备强有力的加速,只适合在某一领域里对某一大类的算法做加速,这就是现在的领域专用架构。

不过,Meyer表示,MIPS的多线程技术将在新一代DPU中发挥关键作用。透过Wave的数据流处理,“当我们为机器学习代理加载、卸除和重载数据时,硬件多线程架构将会十分有效率。”此外,MIPS的缓存一致性也会是Wave新DPU的另一项重要特性。他说,“因为我们的DPU是64-bit架构,所以只有在MIPS和DPU同时在64-bit地址空间中与相同内存通讯才有意义。”

Wave Computing成立于2010年,目前专注于通过基于数据流技术的系统加速从数据中心到边缘的AI深度学习计算,主要业务部门分别承担MIPS IP业务、硅芯片业务、系统业务和解决方案业务。这家公司在全球七个国家设有办事处,累计融资超过2亿美元。

澳门新濠新天地3559 11

Imagination Technologies视觉及AI部门高级总监Andrew Grant为现场观众描述了云端的工作,还解释了智能物联网和边缘设备的如何运作原理。他表示,在智能摄像头监控、智能驾驶以及其他更多的领域都会使用到边缘设备,其演讲主要围绕这些领域展开。

然而,Meyer解释说,新的芯片将“以数据流架构为基础”。它将会是第一款具有“64位 MIPS多线程CPU”的DPU。Wave于今年6月收购了MIPS。

结语:CGRA创新征途刚刚开启

到底是什么在推动AI芯片的创新?

这需要性能功耗比高、通用性强的芯片。实际上,当芯片设计得越通用其能效就越低,要同时满足这两个条件是非常困难的。

Wave Computing着眼于成为第一家开发7纳米处理器并部署于其人工智能系统的AI新创公司。

此外,Wave还引入512 x 512通用矩阵算法处理深度学习任务,充分利用系统的多级存储结构和程序执行的局部性,以降低能耗和加速计算。

Robert表示,MLP的效率比传统FPGA的性能提升了5倍,使这款FPGA能以每秒万亿次运算数量为单位。算法在不断的改变,但底层的需求都是一样的,他们希望建立一个很好的硬件底层,让算法无论怎么改变,需求都可以被满足。

另外,魏教授还谈到‘软件定义芯片’的话题,他从软、硬件的可编程性来切入。“最好的架构能解决能量效率的问题,什么样的芯片具备这样的架构?我们把软、硬件的可编程性分为四个象限。传统的CPU、DSP在第二象限,专用集成电路在第三象限,FPGA、EPLD在第四象限。第一个象限具备很好的软、硬件可编程性,如果这两者都成立,就是‘软件定义芯片’。”

Wave的新一代DPU可以支持TensorFlow在MIPS上运行,它的速度和能耗均比上一代DPU大幅升级。

除了硬件,AI时代软硬件的重要性被更多地关注。据Robert透露,Achronix在软件和硬件方面的投资相当,并且在公司创立的时候很大的优势就是软件技术,这也是他们今天能做到高端配置的的重要原因。

直到今日,英特尔的至强服务器仍是大数据分析和人工智能的基础架构。包括:Cascade Lake,至强可扩展处理器,以及一些新功能的支持,构成了一个非常基础、应用广泛的人工智能 大数据分析的应用平台。

澳门新濠新天地3559 12

除了半导体工艺,当运算能力达到一定程度,访问存储器的速度无法跟上运算部件消耗数据的速度,再增加运算部件也无法得到充分利用,这个冯诺依曼架构的瓶颈也阻碍了AI芯片算力的提升。

对于大多数用户来说,尤其在生产系统当中,基于Apache Spark这样的大数据集群仍然是生产数据、大量硬件资源的聚集地。更高效利用这些生产数据和硬件资源,能够将新的人工智能的应用支持起来。

Wave希望探索通过软件编程来动态重构芯片,这和清华大学魏少军教授所提出的“软件定义芯片”异曲同工。

AI发展的三大要素是算力、算法和数据,而这一轮AI热潮的兴起一个关键的原因就是深度神经网络算法的流行。不过,由于AI还处于初级阶段,深度学习算法不仅种类多样,并且在不断迭代。另外,数据的类型也十分多样,包含了整型和浮点型,以及每种数据类型的不同精度,这对芯片的通用性提出了要求。

其实该业内人士的观点,的确反映了当前AI芯片产业的一些现状。经过几年时间的沉淀,真正有实力的企业开始实现产品落地。

自成立以来,Wave一直深耕于基于数据流驱动dataflow技术的DPU采用非冯诺依曼(von Neumann)架构的软件可动态重构处理器CGRA(Coarse grain reconfigurable array/accelerator)技术,并基于此研发出基于CGRA架构的AI芯片——DPU(dataflow processing unit)。

半导体工艺明确后,想让FPGA适合深度学习的算法,还需要架构的改进。Robert表示,传统的基于DSP的FPGA计算单元的设计DSP、LUTs、存储单元是分立的,布线也限制了其性能,不仅不能高效地支持AI模型的不同数值精度,还要消耗额外逻辑的存储资源。

“我们在英特尔做了很多工作,包括Analytics Zoo项目,该项目能够将大数据分析和人工智能统一起来。此前,在大数据分析和人工智能当中,没有一种解决方案能够解决所有问题。”他表示。

创新架构CGRA:比GPU更灵活,比FPGA低门槛

雷锋网小结

Wave computing高级副总裁兼CTO Chris Nicol介绍了Wave研发的DPU。据了解,Wave的DPU芯片,可将软件接入到芯片,能存取外部内存上的数据信息。DPU芯片内部集成了大量Cluster,每个Cluster内包含8个DPU算术单元、16个处理元素和存储器。其中,处理单元用全局异步、局部同步设计实现,没有时钟信号,由数据流驱动。处理单元与CGRA可同时运行计算。

20位海内外AI芯片业界大咖齐聚一堂,围绕AI芯片在架构创新、生态构建、场景落地等方面的技术前景和产业趋势“华山论剑”。

他进一步表示,专用二维 NOC极大地简化了高速数据移动,确保数据流可以轻松地定向到整个FPGA结构中的任何自定义处理引擎。最重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈。不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。

最后,魏教授畅想了AI Chip 2.0的愿景以及实现路径。“AI Chip 0.5是非常早期的阶段,像Intel CPU、Nvidia GPU、AD的DSP,这些产品不是作为AI Chip而出现的;AI Chip 1.0包括Google的TPU、MIT Eyeriss、Nvidia SCNN、KAIST UNPU,这类产品专门为AI设计,是一种领域专用的东西或某种拓展。AI Chip 1.5开始探索通用性,像Tsing Micro Thinker、Wave Computing DPU都属于1.5,它们具备半通用、可重构、可配置的特性,也可能兼顾了两个内容;而AI Chip 2.0到今天为止还没有答案,也许是通用、自适应、具备智慧化的东西。”他说道。

就在去年6月,这家公司将ARM昔日的对手、老牌半导体IP公司MIPS收入麾下,并在不久之后宣布MIPS开源计划。

澳门新濠新天地3559 13

不过,从“云”走向“边”,从Cloud到Edge是必然的现象。魏教授举例表示,Google在2018年峰会上提出,无论怎样的AI都要从现实社会中摄取,把原始数据转化成语义化的数据,再让Cloud来处理。“这是必然现象。”他也补充说:“目前,AI走向边缘的过程主要以‘通用’为主驱动力,但是从未来几年发展看,终端应用为主或将占主导地位,专用AI芯片将起到非常重要的引领作用,这也是未来发展的重要方向。”

7nm DPU硬核升级,CGRA与MIPS强强联合

“我们采用的方法是在传统的架构上进行改进,设计出了MLP单元,采用阵列式乘累积计算架构,每个乘累加单元支持最多32个乘法器,实现计算的可配置。同时,MLP单元集成分别针对浮点和整型数据的MAC,可支持4到24位的整点格式和高效的浮点模式。并且,计算单元与缓存单元紧密相领,可以实现更复杂的算法,并且不需要使用复杂的布线,确保以750 MHz的最高性能将数据传送到MLP。” Robert指出。

澳门新濠新天地3559 14

CGRA适用于大规模异步并行计算问题,其主要优势是使得硬件更加灵活地适配于软件,降低AI芯片开发门槛。

澳门新濠新天地3559 15

Imagination的AI芯片方案可以面向监控摄像头、智能汽车以及智慧城市的边缘设备进行拓展。Andrew 认为,当前智能汽车是非常热的话题,神经网络在汽车上的应用,可让ADAS、汽车自动化、摄像头监测等性能得到明显提升,而精准地识别前方路况,需要车载配件以及神经网络相互协调工作。

澳门新濠新天地3559,以自动驾驶汽车为例,一辆自动驾驶汽车上可能有20多个智能摄像头,每个摄像头都配有由数据中心训练好的神经网络模型,当它驰骋在不同的城市街道,比如上海、伦敦、纽约,摄像头所记录的街道、车型、车辆颜色等信息可能大不相同。

显然,不断迭代的算法、不同AI模型的数据类型需求、与日俱增的数据量,都推动承载AI算法的AI芯片不断创新。

最后,Andrew强调,PowerVR的处理速度是移动CPU的100 倍。Imagination PowerVR 3NX IP的单核设计支持0.6-10Tops的计算性能,通过多核结构最多提供高达160Tops的计算性能,可以满足对算力要求的汽车领域的需求。

澳门新濠新天地3559 16

澳门新濠新天地3559 17

Chris Nicol:将助力AI从数据中心到边缘设备

Chris表示,MIPS拥有虚拟化、多线程处理等技术优势。相比ARM,MIPS是开源架构,不需要付专利费;相比RISC-V,MIPS已经经过6代的优化,更加节省能耗,同时生态也相对成熟。再加上Wave正在针对AI深度学习开发的MIPS扩展指令集,DPU可以满足多数终端设备对AI算力的需求。

Robert还指出,这款新产品他们在三年前就开始规划,在规划的过程中工程团队完全重新构建了整个FPGA架构,要平衡片上处理、互连和外部输入输出接口,以实现数据密集型应用吞吐量的最大化,适合高带宽需求的应用,比如边缘和基于服务器的AI / ML、网络处理和存储。

在芯片能力方面,因为麒麟980的关系,HiAI2.0平台的AI算力更强。以图像识别为例,麒麟970的每分钟图片识别率为2000张,而麒麟980则增加到4500张。HiAI2.0能够支持轮廓、姿态细粒度的物理识别,可进行视频的处理,做到了精准象素级的分割。

首先,Wave已经推出的16nm DPU采用的是英特尔CPU,而下一代7nm DPU会引入64位MIPS多线程CPU。

AI语音助手和AI图像优化是离我们最近的AI应用,然而这只是AI能力比较初级的体现,未来,AI将会以目前难以想象的方式改变我们的生活。作为AI的重要推动力之一,不同类别的AI处理器正努力满足AI的需求,但依旧不能满足AI不断迭代的算法的需求。围绕AI芯片的创新因此也成为了热点。

最后,李维兴表示,5G可将AI从云端加上边缘化,AI的使用场景可将5G的商业模式开发出来。研发、投资,将无线、通讯、边缘计算通过感知、推理、行动的过程中迭代是高通在5G AI领域上可为业界做出的贡献。

而Wave采用的工作流程大不相同,Wave提供弹性的数据流、MIPS、AI算法及框架等面向云、边、端场景的解决方案。不管原先的数据流来自哪里,均可对这些图像图形信息进行部署,比如部署到汽车、移动手机等边缘领域。

Achronix擅长于FPGA技术,经过多年的积累以及凭借对用户需求的了解,选择在保持FPGA灵活性的同时,专为AI性能进行优化实现ASIC级,并且通过片上网络解决数据的传输问题,从最重要的计算能力和数据传输两方面进行创新,也是提升竞争力很好的选择。

他还认为,AI训练、推理可在云端做,也可往终端走。“大家对与云相关的使用场景都非常振奋,但后续的规模化需要与半导体及软件行业提供联结的使用机会。传感器一定在边缘,实时接触也在边缘。如何保持工厂和汽车自动化的个性化,保护好隐私,维持可靠性?将AI运算分布到全网是必然趋势。”他说。

Chris在PPT中展示了GPU和DPU在数据中心应用的区别。图左为GPU的工作流程,多个GPU并行训练,然后CPU会对该模型进行更新和梯度、参数、损失以及其它变量的反馈。对于大型模型,这种方式需要大量的GPU进行并行训练。

此时,如果有兼具ASIC的性能和FPGA灵活性的AI处理器,应该是一个非常有竞争力的产品,但需要解决多个挑战。Achronix Semiconductor总裁兼首席执行官Robert Blake接受雷锋网在内的媒体采访时表示:“最新发布的Achronix Speedster7t是灵活的FPGA技术与ASIC核心效率的融合,提供了一个全新的‘FPGA ’芯片品类,这代表了我们建立在四个架构代系的硬件和软件开发基础上的创新和积淀,以及与客户之间的密切合作。”

现在瓶颈有三方面的问题:1.摩尔定律等物理定律功效渐渐减弱,现在设计在相同面积的情况下功耗是上升的。2.多核并行方面渐渐成为瓶颈,比如说现在做超级系统就50%左右的并行效率。3.应用场景发生变化,云端的重要性已经变得越来越突出。

说罢DPU如何发力数据中心,我们再来聊聊Wave怎样将机器学习训练从数据中心扩展到边缘设备。

澳门新濠新天地3559 18

英特尔高级首席工程师、大数据技术全球CTO戴金权表示,英特尔一直致力于提供从端到端,包括设备端、边缘、网络到数据中心端到端完整的解决方案或者计算架构。为此,他重点介绍了英特尔的开源项目Analytics Zoo。

澳门新濠新天地3559 19

澳门新濠新天地3559 20

那么,如何在基础的平台上利用Apache Spark来构建人工智能?英特尔开发、开源了基于Apache Spark分布式深度学习的框架BigDL。BigDL在大数据的平台上提供了一个原生的深度学习的图像,可让用户直接在现有大数据Spark上运行深度学习的应用,同时为底层大规模分布式硬件集群做了大量的优化。

AI训练将从数据中心走向边缘与终端

澳门新濠新天地3559 21

在智能汽车上,Imagination的PowerVR可支持自动驾驶的路径规划、道路标志识别、导航、司机疲劳监测预警等功能,当汽车与摄像头通过车联网连接在一起时,在车联网的辅助下,智慧交通将成为可能。不过,自动驾驶水平从最低级到最高级也代表着越来越高的要求、越来越强大的功能,其所需的算力也将涨至500 Tops,这需要低能耗、高算力的芯片。

Wave Computing高级副总裁兼CTO Chris Nicol

用片上网络解决数据挑战

澳门新濠新天地3559 22

尽管CGRA还在发展的早期阶段,但Chris相信Wave将拥有光明的前景,他期待着更多的公司开始加入这一创新架构的阵营,共同撑起CGRA的新生态,随着新一轮的竞争格局形成,客户群体将是最终的赢家。

澳门新濠新天地3559 23

Chris还提到了联合学习,在数据中心训练一个大型模型,将其分布到不同的边缘设备上。边缘设备也具备训练的能力,可在数据中心训练好的模型基础上持续训练学习,同时边缘设备可将后续学习的结果再传回数据中心,有助于数据中心模型的进一步分析和训练。未来,Wave将把AI从数据中心扩展到边缘设备。

他还介绍道,由于CPU的通用处理能力无可取代,CGRA通常是和CPU进行协同作用。不过相较GPU无法脱离CPU独立工作,而CGRA仅需CPU帮他处理控制、管理和数据预处理任务,所以它比GPU速度更快。

Achronix Semiconductor总裁兼首席执行官Robert Blake

寒武纪副总裁钱诚表示,目前在云端做智能处理要解决的问题最终可以归结为能效比的瓶颈问题,已有的ASIC、ASIP、FPGA、GPU、CPU的能效大约集中在每秒100-1000亿次能效比区间,再往上非常困难。

澳门新濠新天地3559 24

但Robert也强调,底层的软件非常重要,如果NOC软件做不好,就很难实现真正的提升。目前针对Speedster7t我们的ACE设计工具现已可以提供支持,今年第三季度会发布将TensorFlow、Caffe2等框架AI模型转换到其芯片里的工具。第一批用于评估的器件和开发板将于2019年第四季度提供。

另外,HiAI2.0还具备以下优势:算法方面有较大提升,支持的算子数增加到了147个;支持当下几乎所有的主流模型,包括TensorFlow、CoreML、Caffe2、ONNX、PaddlePaddle、MindSpore等;在工具链方面也有提升;在兼容性方面可兼容INT8。同时,HiAI2.0的开发周期也有了非常大的提升。芯片级Foundation开发周期缩短到一个星期,基于云的Service由周期缩短到1天,HiAI Engine周期缩短到一个小时。

3月15日,上海,由智东西主办、AWE和极果联合主办的GTIC 2019全球AI芯片创新峰会成功举办!峰会现场延续上一届的火爆场景,全场从开幕到下午结束座无虚席,而且有不少热情观众坚持站着听完峰会全程。

哪种处理器会在AI竞争中胜出?

澳门新濠新天地3559 25

在大会前夕,智东西还与Chris进行了一次面对面的深入交流,从Wave在数据中心、边缘与终端的AI加速筹码,聊到Wave下一代7nm DPU的技术升级,Chris告诉智东西,Wave计划在明年推出7nm DPU。这也是Chris首次接受国内媒体的深度专访。

FPGA如何与ASIC融合?

中国半导体行业协会IC设计分会理事长、清华大学微纳电子系魏少军教授表示,当前的AI服务基本都在云上,很少出现在其他地方,其原因在于先驱者们在云上做了大量工作,这些工作包括:智慧家庭、图像认知、智慧医疗、AI翻译等。

另外,新一代DPU引入高带宽内存HBM。HBM是一个新型DDR内存芯片,通过将多个DDR芯片堆叠实现大容量、高位宽的DDR组合阵列。HBM将帮助新一代DPU突破存储瓶颈,提升带宽并降低功耗。

本周二,总部位于美国加利福尼亚州的Achronix为满足AI和机器学习的需求,推出了一款融合ASIC核心效率的全新类别FPGA。

王孝斌:HiAI 2.0的现状及优势

目前,全球领先的半导体公司,分别专攻芯片、系统、IP和解决方案这些服务中的一个或几个,比如谷歌、华为暂不对外销售自己的芯片,微软、亚马逊、Graphcore等都不做IP。Chris表示,Wave是迄今为止全球仅有的同时提供从数据中心到边缘的系统、芯片、IP、解决方案服务的公司。

架构改进让FPGA更适合AI计算

澳门新濠新天地3559 26

本届峰会报名参会的观众覆盖了近4500家企业,到会观众极为专业,其中总监以上级别占比超过62%,现场实际到会人数超过1800位。

另外,Speedster7t还有72个高性能的SerDes,可以达到1到112 Gbps的速度,Robert强调已经经过硅片验证过。还带有前向纠错的硬件400G以太网MAC,支持4x 100G和8x 50G的配置,每个控制器有8个或16个通道的硬件PCI Express Gen5控制器。为了应对400G以太网数据的处理需求,Achronix采用的是将数据进行分割并行处理的方法。

澳门新濠新天地3559 27

澳门新濠新天地3559 28

钱诚:寒武纪的目标是做到端云一体

如今数据隐私安全问题已经成了大众关心的一大焦点,而联合学习的方法使得边缘设备无需将采集到的数据传输给数据中心,保障了用户的隐私安全。

Andrew Grant:Imagination AI芯片方案助力自动驾驶

Chris主要介绍了两点升级,一个是引入MIPS技术,另一个是采用高带宽内存HBM(High Band Memory)。

同时,Andrew 以智能相机为例,探讨了边缘与云的关系。他表示,单一的智能相机能检测到移动的物体,但不能区别鸟和可疑的人。如果它在神经网络和加速器上面,我们就可以把这个视频放在神经网络上,就能知道他们在做什么。这就是边缘更强大带来的益处,这个边缘可以去帮助云,同时云也可以帮助边缘。

Chris特意提到联合学习(federated learning),就是在数据中心训练一个大型模型,然后将其分布到不同的边缘设备上,边缘设备也具备训练的能力,可以在数据中心训练好的模型的基础上,基于实际所处的环境进行新的训练学习,随后将训练完成的模型梯度再传回数据中心,促使数据中心进一步升级其神经网络模型,再将更新的模型传送到各个边缘或终端设备。

寒武纪的目标是希望能够在云端做到端云一体。很多端以后都会发展成多元具像的具体设备,比如:手机可以是浏览器、阅读器、收音机、电视、摇控器等等。这些设备显然是需要通用的智能处理能力,同时要使云端训练好的模型和框架严丝合缝地移植到具体的终端设备上,现在很多设备做不到,希望未来的端云一体能做到。

澳门新濠新天地3559 29

第四代骁龙855集成了Kryo 485 CPU、Adreno 640 GPU、Hexagon 690处理器、骁龙X24调制解调器、全新的Spectra 380 ISP以及WiFi、蓝牙模块、安全模块等。在AI方面,855支持第四代多核Qualcomm人工智能引擎AI Engine,可实现7 TOPs运算,性能是845的三倍。值得注意的是,Hexagon 690处理器增添了一个全新设计的Hexagon张量加速器,四个Hexagon向量扩展内核,还增加了四线程标量内核。基于此,骁龙855成为2019全球5G发布重要的平台。

澳门新濠新天地3559 30

澳门新濠新天地3559 31

作为Wave的技术最高负责人,Chris不仅阐述了Wave在数据流处理器和软件可动态重构处理器这一创新架构方面的研发进展,而且还分享了关于AI芯片未来趋势的预判。

近日,在由智东西、AWE和极果共同主办的GTIC 2019全球AI芯片创新峰会上,来自中外的专家和企业家齐聚一堂,围绕“AI芯生态·产业新格局”主题做了精彩的演讲,国际电子商情记者摘取了个别演讲嘉宾的核心言论。

澳门新濠新天地3559 32

“昆仑”芯片基于三星14nm制程工艺,有很高的内存带宽,性能达到260 tops,具有极大的通用性和灵活性,该芯片既能做训练也可做预测。未来百度将会把“昆仑”应用于自动驾驶领域,利用XPU强大的计算能力和车载配件共同推动自动驾驶汽车的发展。欧阳剑还透露,2019年“昆仑”将会在百度内部大规模使用。

澳门新濠新天地3559 33

澳门新濠新天地3559 34

澳门新濠新天地3559 35

华为无线终端芯片业务部副总经理王孝斌分享了华为在端侧AI、HiAI上的进展情况。端侧的Machine Learing会让手机越来越智能,预计到2022年,80%的手机会具备端侧AI的能力。

澳门新濠新天地3559 36

澳门新濠新天地3559 37

然而,数据中心并不能考虑到每辆自动驾驶汽车所“看到”的路况,这就需要汽车根据自己所处的环境,在边缘进行学习和训练,并将训练结果反馈到数据中心,从而升级主神经网络模型,然后数据中心再将更加智能的模型传送给各个自动驾驶汽车。

如今NVIDIA仍是数据中心深度学习训练领域的独孤求败,但新的竞争者已经在积蓄力量,以CGRA为代表的AI芯片架构创新正在潜移默化地改变着AI芯片产业格局。

Chris称,相比较CPU、GPU和FPGA,CGRA在可编程性和性能方面达到很好的综合平衡,具有更好的能效和性价比。在保持良好的可编程性的同时,CGRA的能效可以达到或接近ASIC的水平。

万物互联正成为可能,每一个设备都通过网络实现联通,大到数据中心系统,小到边缘和终端设备都在进行智能化升级。Chris提出数据中心的两个关键词,分别是“scale up”和“scale out”。

会上,硅谷AI芯片当红炸子鸡Wave Computing高级副总裁兼CTO Chris Nicol发表了题为《革命性的AI深度学习计算加速架构和处理器——Dataflow和DPU》的演讲。

本文由新天地3559发布于电工电气,转载请注明出处:围绕AI芯片的创新因此也成为了热点,2019全球A

关键词: