▎中国算力产业依然面临需求碎片化、国产基础软件生态和配套芯片不强、传输能力不足、无效算力增多、人才紧缺、难互通协同等诸多挑战。
编辑丨林志佳
来源:钛媒体
“算力”相关产业近期持续火爆。
据中国信息通信研究院测算,截至2021年底,中国算力核心产业规模超过1.5万亿元,关联产业规模超过8万亿元。其中,云计算市场规模超过3000亿元,互联网数据中心(服务器)市场规模超过1500亿元,AI 核心产业规模超过4000亿元。
同时,“算力”发展也受到了资本市场关注。数据显示,自今年4月底起,A股算力相关概念板块指数涨幅高达26%。
“算力已经成为继热力、电力之后新的关键生产力。”工业和信息化部副部长张云明7月30日在中国首届算力大会上表示,国内算力产业近五年平均增速超过30%,算力规模超过150EFlops(每秒15000京次浮点运算次数),排名全球第二,第一是美国。
所谓“算力”,是指设备通过处理数据,实现特定结果输出的计算能力。2018年诺贝尔经济学奖获得者William Nordhaus在《计算过程》一文中提出:“算力是设备根据内部状态的改变,每秒可处理的信息数据量。”
小至芯片、手机、PC,大到汽车、互联网、人工智能(AI)、数据中心、比特币、超级计算机、航天火箭,“元宇宙”概念以及48万亿元规模的中国数字经济等,“算力”都在其中发挥着基础核心作用。没有算力就没有各种软硬件的正常应用。
实际上,算力既是信息基础设施的重要组成部分,也是承载数据和运算运行的平台,更是数字经济时代计算、存储、网络能力的一种综合体现。
目前,算力已经成为拉动中国经济增长核心引擎之一。据信通院数据显示,算力投入能显著提升经济价值:每1元的算力投入,可以带动3-4元的GDP(国内生产总值)经济产出,实现经济增长的倍增效应。计算力指数越高对经济的拉动作用越显著。
随着今年国家推出“东数西算”工程,地方上也进一步加码布局。发改委公布的数据显示,今年以来,全国10个国家数据中心集群中,新开工项目25个,带动各方面投资超过1900亿元。预计“十四五”期间,大数据中心投资还将以每年超过20%的速度增长,累计带动投资超过3万亿元。
算力还是中美未来科技竞争的关键因子。去年4月,美国商务部对中国国家超级计算济南中心、深圳中心、无锡中心、郑州中心等中国超算实体列入“实体清单”。有行业人士告诉钛媒体App,“算力的重要性在于,它是国家竞争能力高低的核心指标,也是中长期的投资抓手。”
不过,中国算力产业依然面临需求碎片化、国产基础软件生态和配套芯片不强、传输能力不足、无效算力增多、人才紧缺、难互通协同等诸多挑战。正如中国工程院院士王恩东在算力大会上所说,中国算力产业未来要加强顶层规划,规范产业发展,不能“躺平”,更要避免一哄而上、低水平重复的问题。
云岫资本合伙人兼CTO赵占祥接受钛媒体App采访时表示,服务器芯片“国产替代”需要长时间布局,有一个循序渐进的过程,同时还需要软件生态、人才、芯片性能、客户支持等资源整合,“这是一个全方位的工程(体系)。”
提升算力就是要“撒钱”堆服务器
2018年9月,台风“山竹”到来之前,深圳市气象台发布了雷暴及大雨预警。一个小时后,深圳全城下起了大暴雨。
深圳气象局能够如此准确的公布降雨、雷暴等灾害性天气,主要来源于云计算、AI、5G等技术以及灾害性天气 AI 气象预测模型,捕捉雷达、云图等数据中的时空关系实现气象预警。实际上,气象 AI 预测模型背后拥有每年约300TB的数据,那么就需要大量算力支撑,才能让模型应用,AI 技术实现产业落地。
而在浙江横店,每年有大量的影视作品在后期制作时需要对动画和特效进行渲染,而这类渲染工作就需用到大量的算力。考虑成本的情况下,这些后期工程文件会通过云平台,将其上传至贵州、内蒙这些西部地区的数据中心进行计算。
这些算力应用背后,服务器的作用功不可没。中国科学院院士邬贺铨表示,算力产业链很长,数据中心是算力产业里突出的中心环节。
按应用领域划分,算力包括两种:计算量小的通用算力,以及数据中心、超级计算机等在内的HPC(高性能计算)算力。
仅从算力经济来看,主要分为三个层次:
第一层次是算力的“基础设施建设”。作为新型生产力,算力离不开工具和技术。而基础设施是算力的工具,包括高性能芯片、数据中心、网络等基础设施建设为算力、应用以及产业发展提供可持续发展的保障。
第二个层次是算力应用。得益于基础设施的进步、数据推动算力水平的不断提升,云计算、大数据、AI、物联网、5G等应用都将发展,从而带来计算方法的革新,提高计算效率,拉动算力发展。
第三个层次是算力与实体经济产业的融合。工业互联网、金融科技、自动驾驶、智慧医疗等产业数字化加速、新的需求以及产生的大量数据,让超大算力得以“施展才华”。
“算力”产业链逻辑关系框架(来源:钛媒体App编辑整理)相对于中国超14亿人的算力应用和消费市场,数据中心、芯片半导体等算力基础设施产业链,则是中国目前急需布局的重点领域之一。
作为算力的主要承载,数据中心就是一个容纳核心计算服务和基础设施的服务器机房(物理场所),可用于存储和计算数据。
数据显示,2019年,中国在用的数据中心数量达到2213个,其中超大型、大型数据中心数量占比12.7%。与之对比的是,美国超大型数据中心占到全球总量40%,国内数据中心建设仍有较大空间。
2021年5月,中国提出“东数西算”工程,计划在国内8个地方启动建设国家算力枢纽节点,规划10个国家数据中心集群,将东部算力需求以及产生的数据,通过网络引导到中国西部地区的数据中心处理、计算和存储。预计在2025年,中国将有望建成全国一体化数据中心系统。
借助“东数西算”东风,今年以来,阿里、华为、商汤、浪潮,以及国内三大电信运营商——中国移动、中国联通、中国电信等,在苏州、呼和浩特、成都等地大量投资,建立及运营新的数据中心或计算中心。
中国移动副总经理高同庆表示,预计2021年内,中国移动数据中心投产能力超过117万架。2022年,中国移动算力网络资本开支达数百亿元,未来还将继续在算力领域加大投入。目前中国移动长三角数据中心位于南京江北新区,投资超200亿元。
“国内提出‘东数西算’,是利用西部比较充裕的能源,比较廉价的电费,以及有可能利用再生能源,更好满足低碳的需要。”邬贺铨表示。
不过邬贺铨也质疑称,“东数西算”工程难以互通,从而让算力与存储容量无法得到最佳利用。
他以广东数据中心规划为例,“他们设计省内算力70%,省外算力30%。按理说,省外就是冷数据,应该占比80%,那与省外算力30%差别很大,这是否意味着,80%是指存储容量而非算力的比例?另外,在市场经济条件下,东部与西部并非固定配对,如何各自做到容量最佳利用?”
而作为AI技术三要素(数据、算力、算法)之一,算力在 AI 中也发挥了关键作用。商汤科技联合创始人林达华告诉钛媒体App,在青岛市西海岸新区,利用其 AI 大装置算力以及算法技术支持下,商汤对千万级海量遥感影像样本数据进行深度学习,形成多种面向业务应用场景的算法模型。在城市违建治理、生态环境监测、河湖四乱治理等方面实现了问题的高效发现和治理核查。
此外,当前中国的算力建设还受到碳中和、碳达峰目标的制约:一是工信部发布的《新型数据中心发展三年行动计划(2021-2023年)》等政策,面对算力设施的建设方针和能耗管理趋于严格,如2023年新建大型及以上数据中心电能利用率(PUE)将被要求降到1.3;二是能耗“双控”背景下,地方政府对于建设高能耗算力设施的积极性在降低。
因此,国内外头部IT企业也开始部署液冷技术。业内人士告诉钛媒体App,目前高功率服务器应用越来越多,其可在同等温度下大幅提升数据中心的运算效率,为提升高功率服务器散热需求,同时降低散热能耗,业内通常采用冷板、浸没、喷淋三类液体冷却服务器方案,通过将CPU(中央处理器)、GPU(图形处理器)等服务器部件与冷板液冷的冷板紧密贴合,或与浸没液冷直接接触,提升服务器散热系统换热能力,实现高功率运算。
阿里云数据中心设施模型在2022中国算力大会展示。下面两端物体是浸没液冷的CDU,也叫冷源分配单元,它起到内外换热的作用,把吸收服务器热量的液体收集后,在CDU内部与外部冷源进行换热,是一个中间装置;上面两端则是浸没液冷的一种冷源形态,图中是给集装箱内的液冷tank进行散热用,设备类型可能是冷塔、干冷器、冷机等(图片来源:钛媒体App编辑拍摄)
无锡数字经济研究院执行院长吴琦表示,一些规模小、能耗大、技术更新缓慢的企业和设施将面临淘汰,电能利用效率高的产品会是未来算力市场的主流。
政企花了钱,算力也难用
中国首届算力大会上,中国工程院院士刘韵洁直言,目前不管是算力网络,还是算力面临着诸多挑战。如果不能解决这些问题,算力网络将难以构建(实现)。
实际上,算力网络是基于数据中心等算力基础设施,将海量数据通过云、边、端协同方式,实现智能计算与网络连接。华为发布的《通信网络2030》提到,算力网络代表了从“面向人的认知”向“面向机器认知”(AI)的网络设计理念的重要变化,联接海量用户数据与多级算力服务。
因此,刘韵洁的说法意味着,政府、企业花了大量的资金投入算力基础建设,但如果算力网没有构建好,算力也很难使用。
刘韵洁认为,目前算力网络面临三个主要挑战:
一是实时性严重缺乏,目前互联网几乎没有实时性的能力,而实时性的能力,不论是工业、能源还是电力,都提出了确定性网络的具体指标;二是带宽的挑战,FAST(500米口径球面射电望远镜)每天产生的数据大概超2000TB,这些数据与全球网络共享,网络带宽的不确定性导致传输效率低;三是当前“烟囱化算力”难互联、难协同,这就造成算力利用率低,使得算力成本增加,如何将“算力”和“网”深度融合在一起,也是一个非常大的挑战。
以国有企业“宝武钢铁集团”为例。武钢通信技术有限公司总工程师陈巍崴曾在2021年7月提到,宝武集团工厂存在大量非云化设备,且协议不开放、工业连接组模不丰富,对接耗费成本;再就是工控网、管理网和互联网多网并存,网络安全无法有效管控。传统“尽力而为”的网络已经无法满足宝武集团数字化及新业务。
华为的智能算力网络生态(来源:钛媒体App拍摄)实际上,算力网络、基础设施的互联互通、转移新平台设施一直是企业的核心难题——阿里云没有腾讯云、华为云平台接口,美国Oracle数据库的信息资料没办法转移等。
2021年3月,作为金融领域的国有企业,中国邮政储蓄银行发布采购前公示,而且是单一来源采购,理由是:当前多个核心生产系统使用美国Oracle(甲骨文)数据库进行数据存储和处理,无法替换。随后6月,邮储银行以1.45亿元与甲骨文签下续约合作。
那么,如何解决“全国算力一张网”的难点与挑战?
刘韵洁院士提出,建立以“大带宽、低时延、超低抖动、极高可靠”为主要特征的确定性网络,支撑产业核心应用加速云化、线上化、智能化,将真正改变产业互联网模式。“无论是智慧医疗、能源、交通,以及未来的元宇宙,没有确定性的网络会有问题。”
与此同时,中国也在努力逐步解决这一难题。今年6月15日,中国正式上线“中国算力网-智算网络”,将整个算力网络接入中央批准成立的鹏城实验室的鹏城云脑、北京、杭州等9个算力中心,总算力超过2000PFlops(每秒200亿亿次浮点运算)。
华为公司副总裁、计算产品线总裁邓泰华认为,中国算力网是一个大工程。目前中国有电力网、高铁网、通信网,未来有算力网,尤其利用大型的算力资源连成一张网。
国产化依然难行
作为“算力”的极限领域,中国超级计算机一直受到美国超级电脑的压制。
2016年,美国以担心中国“天河二号”进行核子研究为由,禁止英特尔出口芯片给中国。随后于2016年,利用上海高性能集成电路设计中心自研设计的SW26010处理器,中国自主研发出“神威·太湖之光”超级计算机,以93014.6TFlops问鼎世界第一。
不过,到了2018年6月,“神威·太湖之光”被美国IBM研发的Summit OLCF-4超级电脑所超越。
2021年4月起,美国商务部对多家中国超级计算机实体列入“实体清单”,其中包括天津飞腾信息技术有限公司、上海高性能集成电路设计中心、成都申威科技有限责任公司,以及中国国家超级计算济南中心、深圳中心、无锡中心、郑州中心等。更早之前,美国对华为海思、中芯国际、商汤等“算力”产业链相关企业进行制裁。
截止发稿前,Top500网站数据显示,目前全球超算排名第一的是,美国能源部及芯片巨头AMD、HPE慧与科技合作研发的Frontier(OLCF-5)全球首台百亿亿次级计算机。而中国“神威·太湖之光”排名第六,“天河二号”则排名第八。
在中美博弈持续升级的大背景下,目前包括服务器芯片、软件系统、数据库等领域仍依赖于国外产品,“算力”产业的国产化依然难行。
其中在服务器整机市场方面,IDC数据显示,2021年全球服务器市场出货量和销售额分别为1353.9万台和992.2亿美元,其中中国销售占比达25.3%。2022年第一季度,全球服务器市场份额排名前五,分别是美国戴尔(份额高达16%)、中国浪潮(10%)、美国惠普、美国AMD、中国联想(不足5%)。
操作系统装机量方面,数据显示,尽管互联网领域的服务器操作系统,实现100%国产化,但通信、金融和政企领域依然有35%以上,仍依赖国外操作系统,例如美国微软的Windows、IBM的Redhat等。
算力数据库方面,中国软件协会数据显示,国内集中式数据库市场,国外品牌仍占据90%以上;关系型数据库领域,美国微软(21.6%)、甲骨文(21.4%)和亚马逊(8.5%)共占市场总份额的50%以上。
最重要的服务器芯片领域,无论是通用处理器还是加速处理器,英特尔(Intel)、AMD和英伟达占据国内85%以上的服务器芯片市场,国产处理器及关键零部件份额较低。
“这其实还是一个软件生态的问题,因为英伟达、英特尔等国外的软件生态太强了,国内企业想要追上来难度很大,需要投入很长时间与大量资源。”赵占祥对钛媒体App表示,Windows等操作系统需要几十万开发者,而国内很难调动这么多资源,因此国内服务器需要长期依赖国外芯片企业。
7月31日结束的中国计算机学会(CCF)芯片大会上,清华大学教授魏少军就表示,国产服务器芯片的产品能力不行,无法具有足够的市场竞争力。例如,国内芯片无法实现服务器中非常重要的配置并发多线程(SMT)能力,而国外芯片在这个问题上已经全面突破,国产芯片技术依然落后。
“我们花了很多精力去建立AI平台,实际上不可用,或者说它并没有想象的那么好。说的更好听一点,还没有达到我们所需要的要求,仍需要时间等待。”魏少军表示。
一家国产GPU芯片企业高管告诉钛媒体App,很多国产服务器板卡都无法在客户数据中心上“跑动”,因为适配度较差。
今年以来,阿里、腾讯、字节都纷纷开启了“造芯”模式,均与服务器有关。但一位芯片行业人士对钛媒体App表示,互联网“造芯”无法从根本上解决国内服务器依赖进口芯片的情况。
在赵占祥看来,这些互联网企业“造芯”主要原因是自身服务器的降本增效。
目前,浪潮、阿里云、腾讯云等国内厂商,仍大部分使用美国芯片企业的产品。其中,腾讯云的星星海处理器均为AMD、英特尔定制开发;阿里云第七代云服务器ECS的CPU则采用英特尔第三代Xeon可扩展处理器;浪潮服务器所使用的芯片大部分来自英特尔、AMD、英伟达三家,部分服务器则使用寒武纪的 AI 芯片。
“算力建设的最大难点还是在于半导体与集成电路制造。而在服务器芯片领域,无论是通用处理器还是GPU芯片,对国外的依赖程度非常高,解决问题的难度也非常大。”王恩东认为,中国要集中力量打造国产CPU芯片,打破技术壁垒,不能烟囱林立。
张云明表示,下一步工信部将要加速推进高端芯片、核心算法等算力关键核心技术的研发突破,攻克关键技术,支持企业、科研机构开展联合攻关,增强算力产业链、供应链自主可控能力,并在绿色低碳发展等方面发力。
“不能说芯片初创企业一旦亏损就不投资了。我认为,更多的民间资本应该要投资长期会亏损、对国家很重要的芯片企业,而且政策上要鼓励其早点上市,给这些亏损公司融资提供一个比较好的通道。”赵占祥说。