原标题:打造超算服务新模式 青云QingCloud EHPC赋能科研、大数据、AI新场景
对于普通大众来说,高性能计算(HPC)给人的印象总是神秘且高深。这是因为此前它主要是学术界用来推进基础科学发现和探索的手段,上到宏观的宇宙大爆炸模拟、下到微观的量子物理和分子动力学研究。
但是新冠肺炎对我们的突然袭击,让很多人重新认识了高性能计算:不论是中国还是全球,领先的基因与药物研发机构,在高性能计算的支持下,少则数小时,多则几天就破解了新冠病毒的结构,并立即开始疫苗的研制。
高性能计算与我们的工作生活越来越紧密,前不久青云QingCloud(qingcloud.com,股票代码:688316)重磅上线EHPC高性能计算平台,基于尖端超算算力,结合公有云架构提供弹性伸缩、按需计费的高性价比方案。同时,打通云平台丰富的产品和服务种类,创新云化超算的服务新模式,更好赋能新科研、助力新场景。
高性能计算的新场景
前面我们说过,高性能计算在基因组学、生命科学、CAE 仿真、地理测绘、影视渲染等应用场景有着广泛的应用。
但是随着新技术和新应用的发展,高性能计算的新场景也在不断涌现。青云QingCloud云平台&服务部高级总监陈海泉表示,青云看到高性能计算领域出现了新的场景,那就是大数据、人工智能正在与超算融合。
具体而言,大数据驱动存储跟算力融合。以前建设超算中心的时候,普遍是以算力为主导,但在存储方面出现新的挑战,因为数据量和数据类型越来越多,这些数据都需要利用大数据技术进行处理和分析。
陈海泉说,大数据应用带来两个问题:存储容量比以前大很多;不同类型的业务对存储的要求也不一样。所以超算中心需要对不同的业务提供合适的存储类型。
当前人工智能应用出现爆发式增长。人工智能通常指的是机器学,机器学最常用的技术是深度学,深度学又分为训练和推理两个阶段,而这些要求超算中心有充足的GPU资源,并且还要提供对应的软件框架。
在医药领域,新冠疫情加速了大数据在医药和生命科学上的应用,促进了核酸疫苗和核酸药物的研发;在金融领域,通过深度学技术训练出模型,应用在风控上面,可以让坏账率降低35%。
青云QingCloud EHPC产品经理苗慧表示,QingCloud EHPC提供灵活的使用模式,适配多种应用场景。通过统一管理的平台,使工程师、研究人员可以突破本地的HPC基础设施限制,快速开始云上创新。
对于超算最常见的仿真和建模业务,青云提供了低延时、高带宽的InfiniBand网络,高速并行文件存储以及CPU/GPU的算力组合,不仅能支持大规模求解运算,还能提供GPU桌面进行图形前后处理,完成一个闭环的业务场景。
对于大数据业务,QingCloud云平台提供的对象存储容量达245PB,跟计算节点结合,可以用于大规模的数据处理和分析。计算节点到对象存储的网络带宽有1.6T,能够保证大数据计算的超高性能。
对于人工智能训练业务,青云提供算力达850PFlops的A100 GPU资源池和全闪并行文件存储,并且能够结合容器平台,提供性能极致优化、轻量便捷、开源开放的人工智能平台。
依托青云云平台的多种存储服务,用户可以按照自己的业务来选择合适的存储类型,包括冷热类型的对象存储、全闪并行文件存储或者块存储等。
此外,通过虚拟化技术的加持,青云可以快速为不同业务构建其所需的运行环境,随时可以切换MPI、TensorFlow或者MapReduce软件平台,充分利用超算中心的硬件资源满足各种业务场景的需求。
苗慧说,整体来看,QingCloud EHPC提供了快捷、弹性、安全及互通的公有云高性能计算服务,具有四个优势:弹性伸缩,按需配置;只管使用,无需运维;资源租赁,性价比高;租户隔离,安全可靠。
革新传统超算中心使用体验
在陈海泉看来,传统超算中心存在不方便和不安全的问题,例如传统的超算中心用户,在使用时,需要提交一个申请,并且有人工审批的环节,当他得到审批通过后,还需要自己安装VPN客户端连接超算中心提供的登录节点。
超算中心的登录节点往往是很多用户共享的。共享的节点有两个问题:一是超算中心为了保证其自身安全,不提供root权限,给安装软件带来一些麻烦。比如用户需要安装系统软件的时候,他需要出差到超算中心,现场指导当地运维人员安装自己要的软件,过程非常麻烦。二是Linux隔一段时间就会暴露出一些系统漏洞,如果被用户利用得到root权限,则能窃取平台上其他用户的数据。
针对这样的问题,QingCloud EHPC融合了云服务与高性能计算,把传统的审批制度变成用户自服务的形式,并确保安全,这些举措包括计算、网络跟存储的租户隔离,管理节点跟计算节点分离;除了传统的VPN接入,青云还能提供零信任客户端,让用户登录到超算中心的时候更便捷和安全。
在保障安全的同时,QingCloud EHPC让整个超算使用很灵活,提供了两种不同类型的超算集群:偏传统的共享型超算集群和新的独享EHPC集群。QingCloud EHPC的服务架构分为三层,资源层提供了高效的资源,管理层提供了方便快捷的管理服务,用户端提供交互使用体验极佳的控制台。
最后,QingCloud EHPC还集成了化学工程、生物医药、大气海洋等多种行业软件平台。如工业仿真软件,提供一站式的使用体验:一是其求解集群能够提供弹性的算力,可以很快地完成运算;二是提供桌面虚拟应用,让用户完成图形的前后处理,覆盖用户使用工业仿真软件的整个流程。
“EHPC集群分为四个节点,分别是:登录节点、管控节点、计算节点和GPU可视化节点。这四个节点完全挂载了青云的共享文件存储以及共享软件仓库,这就是说用户所有的作业都可以使用青云的共享软件仓库。”苗慧介绍到。
超算业务大多是短期、大规模的方式,比如1万个节点使用4个小时,这就会导致两个问题:一是经常出现突发业务导致计算资源不够,其他用户要用的时候需要长时间排队;二是业务少的时候会出现大量资源空置,造成成本的浪费。
针对这样的情况,陈海泉表示,青云希望跟超算中心合作共建算力共享的算力网络,通过青云可以连接全网算力,既能以外部资源支撑突发业务,避免排队;又能在资源空置时,对外出售算力增加运营收入。
结语
凭借公有云的基因和专业的研发技术支持团队,QingCloud EHPC平台在用户体验、运维服务等方面比传统超算具有更多优势,依靠自身的超算经验以及技术领先的计算、网络、存储资源,青云能够提供更具灵活性、更好交互体验的高性能计算服务,持续赋能行业客户的业务发展。