一直以来,在新冠疫情防控方面我国都是当之无愧的“学霸”。借助大数据和AI,在海量的人群流动数据中寻找密切接触者非常高效,但对算力也提出了更高要求。由于计算量巨大,系统平台完整查询到密切接触人群轨迹需要10~30分钟,若换算成一台普通计算机则需要一年之久。2021年7月新一轮疫情袭湘,湖南省将流调任务交给了长沙超算中心,通过强大的HPC把时间缩短至惊人的1.4秒,为疫情防控工作赢得了大量宝贵的时间。
在金融领域,通过大数据、人工智能与超算相结合,对各种维度的数据进行分析,用深度学习技术训练出模型,应用在风险控制上,能够让坏账率降低35%。由于训练模型需要持续迭代和优化,背后提供支撑的是一套融合了大数据与人工智能的超算平台。
这些新兴应用,都是大数据、人工智能与超级计算机结合的场景,而现如今,随着AI的飞速发展,此类场景会越来越多。
也正是基于此,我们看到超级计算机开始从“高精尖”走向了大众化市场。
广义上的超级计算机(HPC),是将大量的处理器集中在一起,计算庞大的数据,它的运算速度比常规服务器快成千上万倍。从上个世纪70年代开始,超级计算机这种并行化的处理方式影响了诸如天气预报、生命科学、航天、地理、农业等行业,也成为了国家科技实力的象征。
但早期的超级计算机价格昂贵且对技术、运维要求很高,所以仅出现在国家级超级计算中心或高校科研领域。上个世纪90年代末,随着半导体技术的飞速发展,x86架构服务器成本骤降,也让超级计算机进入普通行业成为了可能。
如何敲掉HPC应用的门槛?
但新的问题随之而来,那就是易用性!
近日,笔者“采访”了一些IT企业的朋友,他们大部分都表示:HPC价格昂贵,且使用门槛较高,不少行业虽然已经有使用 HPC 的场景出现,但因为一些顾虑还没有开始使用。
传统意义上的超级计算机,大都服务于科研领域,所运行的程序相对比较统一化,所以很少出现易用性问题。但现在已经进入了人工智能时代,企业需要在超算上跑的应用更加复杂,甚至还需要提供对应的软件框架,比如 TensorFlow。有些业务需求则希望用云原生的方式来部署和运行。这对以Slurm调度器为主的超算中心带来了新挑战。
针对用户的这些需求,青云QingCloud正式推出了EHPC高性能计算平台,基于尖端超算算力,结合公有云架构,提供了弹性伸缩、按需计费的高性价比方案。
据青云科技云平台&服务部高级总监陈海泉介绍,青云倾力打造的EHPC高性能计算平台,实现了高性能计算与云平台的完美结合,并全面地支持各种新的业务场景。
以最常见的仿真和建模业务为例,青云提供了低延时、高带宽的InfiniBand网络,高速并行文件存储以及CPU/GPU的算力组合,不仅能支持大规模求解运算,还能提供GPU桌面进行图形前后处理,完成一个闭环的业务场景。
如果用户有大数据相关业务,那么部署到传统超算中心上将带来很大的难度,因为数据移动既耗时又耗力。针对这方面需求,EHPC高性能计算平台给出的方案是:提供高达245PB的对象存储容量,并与计算节点相结合,让用户直接应用于大规模的数据处理和分析。计算节点到对象存储的网络带宽也达到了1.6T,能够保证大数据计算的超高性能。
在人工智能训练应用方面,青云提供算力达850PFlops的A100 GPU资源池和全闪存并行文件存储,更重要的是可以结合容器平台,为用户提供性能高度优化、轻量便捷、开放的人工智能平台。
在虚拟化技术的加持下,EHPC可以快速为不同业务构建其所需的运行环境,随时可以切换软件平台,充分利用超算中心的硬件资源满足各种业务场景的需求。
三种HPC节点类型,实现多种组合
青云EHPC计算节点分为三种类型:
第一是传统的CPU计算。主要面向科学计算和密集计算应用。
第二是GPU计算。目前整个HPC全行业的软件都在向GPU方向转移,因为它能提供更高效的数据计算服务。
第三是裸金属计算。裸金属计算匹配传统的HPC服务,即物理节点,支持物理服务器,并可以兼容青云平台上其他计算节点。
所有计算节点都可以按照队列进行自由分配组合,易用性更强。同时,计算节点也具备弹性伸缩特点。在业务运行高峰期,青云可以将计算节点的数量进行扩容,或将计算节点的配置提高。在低峰期,负载较低的时候,还可以缩容。
这样可以大大减少资源投入的费用,提高资源利用效率。此外,用户使用完毕后“关机”,青云EHPC将不再计费,非常人性化。
QingCloud EHPC:
两类集群,满足不同需求
云化之后EHPC将面临来自各个行业的海量用户,那么,如果用户有个性化特殊需求怎么办?
青云为此准备了两种不同类型的超算集群,即:共享型集群和独享型集群。
顾名思义,共享型超算集群更类似于传统超算,用户可以享受独立的登录节点,所呈现出的资源也是比较基础化的,所以用户自己软件的安装、执行、操作还是在自己的节点上,并与其他用户相互隔离。
独享型EHPC集群则是赋予用户一个root账号,自由度非常高。用户可以自己安装需要的系统软件,或者直接使用超算平台中的化学工程、生物医药、大气海洋等行业软件。EHPC集群的节点是用户独享,使用时不需要排队,可以自己合理安排使用时间。
就像云平台一样,用户可以自由搭配EHPC集群的计算、存储和网络类型。比如GPU/CPU,网络选择以太网或InfiniBand网,存储可选对象存储、NAS、并行文件存储等等,用户都可以自由选择适合自己特定业务的场景。
打造真正一站式HPC
既然HPC已经实现了云化,那么就让它更加“彻底”一点吧。青云为EHPC集成了300+行业软件,提供一站式的使用体验。
以工业仿真场景为例。求解集群能够提供弹性的算力,可以很快地完成求解运算。另外,QingCloud EHPC还进一步提供了桌面虚拟应用,让用户能够在平台上直接完成图形的前后端处理,覆盖了使用工业仿真软件的整个流程。
再举个例子,影视动画制作过程中,设计师需要在自己的工作站上设计、建模,然后再将设定好的模型放到服务器上通过海量计算做渲染,渲染后的结果再读取到工作站上做修改。在这期间数据传输及各种专业软件间的切换将占据很多时间。如果有像EHPC这样的平台就会简单很多,设计师仅需在平台端通过桌面虚拟化进行操作即可,免去了工作站与服务器端的各种复杂操作,让效率成倍提升。
这,就是一站式解决方案的魅力!
5分钟构建起自己的超级计算机
在发布会上,青云也展示了EHPC的创建过程,与我们常见的云平台资源申请类似,通过新建网络后,选择需要的节点、存储、共享软件仓库等,即可创建超级计算集群,然后对登录节点、管控节点、计算节点进行配置,就可以使用了。整个过程仅需5分钟而已,极大降低了用户使用超级计算资源的门槛。
据青云QingCloud EHPC产品经理苗慧介绍,EHPC提供了快捷、弹性、安全及互通的公有云高性能计算服务,主要有四大优势:
1、弹性伸缩,按需配置。用户在使用过程中,根据作业运行高峰、业务量随时进行扩展和缩容,也能够为用户降低使用成本。
2、无需运维。这也是青云公有云的传统强项。传统超算中心,用户需要搭建服务器、网络并配置虚拟化,而青云则将云服务完美移植到EHPC平台上。EHPC平台有专业的运维和安全工程师进行机房巡检,保障高可用的配置。用户即来即走,无需担心运维。
3、资源租赁,性价比高。无论是Intel还是 AMD,他们的处理器每年都会有升级,而用户也会面临服务器贬值及升级的困惑。青云会持续提供行业内最新计算资源,所以通过资源租赁的方式可以有效地提高用户资源利用效率,随时享受最新技术。
4、租户隔离,安全可靠。对于涉密行业,对于用户项目组的机密资料,青云整体的云计算架构采用二级网络隔离。
第一级是私有网络,用户所有的节点全部在内网访问,不再跟外网进行沟通。第二级是通过VPC网络,用户仅仅能通过登录节点进行外网访问,登录节点同时支持端口转发,让连接方式动态化,更加安全。
盘活海量计算资源
作为一家云服务商,青云真的会去建设大量的超级计算中心吗?
在资源构建方面,青云又实现了一个创新,就是通过云来连接各大超算中心的计算资源,包括国家级超算中心等。
据陈海泉介绍,除青云自己的计算资源之外,一些超算中心已经和青云展开合作,通过云化的形式来出租计算资源,一方面可以明显创收,另一方面则能够进一步盘活计算资源,减少空置率。
总的来看,在HPC云化方面,青云此次可谓是精心策划,通过公有云平台优势将高性能计算资源纳入进来,既解决了使用门槛问题,又将易用性大幅提升,让企业级用户真正实现超算的应用。此外,以建设资源共享的算力网络作为目标,连接更多供需企业,将成为青云新的里程碑。