超万卡集群让算力迈上新台阶

发布时间:2024-11-25 17:39:23 来源: sp20241125

  中国移动智算中心(哈尔滨)万卡智算集群俯瞰图。   采访对象供图

  工作人员在中国移动智算中心(哈尔滨)机房进行设备维护。   采访对象供图

  位于黑龙江省哈尔滨市哈南工业新区的中国移动哈尔滨数据中心内,机房整齐排列,万余台服务器指示灯闪烁不停,精密运转……数据中心总占地面积达86万平方米,从高空俯瞰,这里犹如一块镶嵌在黑土地上的“集成电路”。

  日前,由中国移动通信集团黑龙江有限公司建设的全球运营商最大单集群智算中心——中国移动智算中心(哈尔滨)节点超万卡智算集群建成并正式投用,这标志着哈尔滨跻身国内人工智能研发一线城市,“算力”辐射范围进一步扩大。

  “高效灵活的智算云服务能力,将为万亿级大模型训练提供高效、稳定、安全可控的算力底座,推动国内人工智能产业健康发展。”中国移动黑龙江公司董事长刘刚表示,该智算中心的建设将对拉动新一轮经济增长、引领产业AI转型升级发挥重要作用。

  夯实智算基础

  智算中心作为人工智能、大数据和物联网等前沿技术的载体,是推动数字经济高质量发展的重要基础设施。

  近年来,黑龙江省高度重视人工智能产业建设,将发展数字经济作为换道超车产业“新引擎”,先后出台多项政策支持智算中心建设并提供优质服务。同时,构建了“平台+大小模型算法+应用引擎”的政务“AI+”基座,为省、市、县政务应用提供丰富算法与智能引擎,助力政务服务跑出“加速度”。

  中国移动黑龙江公司打造基于国产生态体系的运营商单集群规模最大超万卡智算集群,在哈尔滨智算中心共计部署1.8万张AI加速卡。截至目前,该集群具有单集群算力规模最大,国产化网络设备组网规模最大,国内智能融合分级存储规模最大等特点,可实现集群故障的分钟级定界定位,提供算力6.9EFLOPS(每秒690亿亿次半精度浮点运算)。

  “6.9EFLOPS智能算力相当于300多万台高性能计算机,通过人工智能算力‘超级工厂’,释放算力集群优势,为人工智能万亿模型训练提供坚实的算力基础。”中国移动黑龙江公司计划建设部项目经理闫文说。

  用了“两个100天”、30多个单位、千余人协同作战……从项目开工到建设完成,该智算中心节点克服技术新、工期紧、任务重、挑战多等多重困难,完成3千多平方米高功耗机房重大调整改造、千万级精密器件复杂施工,提前4个月建成全球运营商最大单集群智算中心。

  据业界专家介绍,此前,智算规模大多在一万卡以下,对于千亿或者万亿模型训练来说,仍会在一定程度上受限于底层的算力资源。中国移动智算中心(哈尔滨)1.8万卡集群的建成和投入,将更有利于模型团队充分利用底层资源,通过设施并行度更高的训练策略,加快模型训练的进度。

  汇聚创新合力

  硬件打基础,布局上台阶。作为公共算力新型基础设施,智算中心扮演的不仅是算力生产者和提供者的角色,也是发展数字经济的底座。为此,黑龙江不断强化新型信息基础设施建设布局。

  中国移动黑龙江公司汇聚技术创新,按照“算网协同融合、算力立体多样、网络泛在智联、基础设施匹配”的建设思路,全面推进黑龙江算力网络资源布局:以算力基础设施为重点,建设哈尔滨国家互联网骨干直联点,网间互访时延降幅达70%;提升光网络覆盖能力,构建135毫秒时延圈网络,实现异地同城体验。

  目前,中国移动智算中心(哈尔滨)节点超万卡智算集群可提供多场景算力服务,建设智算服务器达2304台,融合存储达150PB。在业内首次创新挑战应用46KW风冷,完成5400多台设备、7.7万根线缆、20余万个端口的工程实施,实现集群故障的分钟级定界定位。

  与此同时,人工智能产业建设获得高度重视。

  黑龙江省及哈尔滨市先后出台《黑龙江省支持智算中心和超算中心建设奖励政策实施细则》《黑龙江省支持购买算力服务奖励政策实施细则》《哈尔滨市支持数字经济加快发展若干政策》等省市层面两级扶持政策,支持智算中心建设并提供优质服务。

  目前,哈尔滨市已具有一定的人工智能企业基础。2023年全市拥有人工智能核心企业140家,其中,高新技术企业超100家,国家级专精特新“小巨人”企业10户,核心产业规模超过100亿元。

  为加强产业创新能力,哈尔滨工业大学、哈尔滨工程大学、东北林业大学等高校,设立人工智能相关学院或开设人工智能相关专业。

  “作为产学研用融合载体,哈尔滨工业大学—中国移动5G应用创新联合研究院于2023年8月成立。一年多以来,研究院在科研合作、成果转化、人才培养等方面都开展了深入探索,颇有成效。”哈尔滨工业大学—中国移动通信集团有限公司5G应用创新联合研究院常务副院长杜勇介绍,依托联合研究院,中国移动与哈尔滨工业大学充分发挥校企双方优势,聚焦国家战略和区域产业发展需求,围绕智慧工业、智慧农业、智慧医疗、大数据中心等领域,锚定关键应用场景,共同开展核心技术攻关、产品开发、示范项目打造、联合研发人才培养等合作,已设立4个重大和13个重点攻关项目。

  赋能经济发展

  算力服务对促进地方经济发展具有重要作用。

  金秋时节,站在黑龙江省汤原县汤旺朝鲜族乡的稻田边,放眼望去,一派动人的秋收景象:饱满的稻穗在微风中轻轻摇曳,掀起层层金色的稻浪。收割机在田间来回穿梭,将一簇簇水稻尽收“腹中”,收割、脱粒、秸秆还田,农业生产有序进行。

  望着自家的稻田,金星村村民刘晓冉满心欢喜:“今年又是一个丰收年,数智技术精准‘把脉’帮了大忙。”他告诉记者,以前是靠天吃饭,没事儿就得勤往地里跑,有个旱涝灾害,一年就都白忙活了。“现在有了数智化操控,只需要一部手机在家就能看庄稼生长情况,还可以精准施肥、灌溉,不管是缺苗还是有虫害都一目了然。”刘晓冉说。

  汤旺乡大米种植依托中国移动的信息化能力,通过空天地一体化监测对作物进行长势预判和感知预警;通过AI大模型综合分析输出风险预警及辅助农事决策建议,智慧调度向村民发布针对性农事指导;通过农事服务—区块链溯源技术助力品牌打造,实现农业生产过程的智能化、高效化和可持续发展。

  在黑龙江省齐齐哈尔市中国一重集团有限公司轧电数字化车间内,数控机床精准运转,当班工人娴熟操作。如今,34台数控机床均已安装数据采集模块,实现了机床联网和数据的实时采集。车间内,电子屏幕不断闪烁,显示着所有设备的运行、维修情况,实现了机床联网、数据采集、能耗监测以及车间的透明化管理。

  “以轧电制造厂为试点,我们与中国移动合作打造机加数字化管理样板车间,目前各项系统运行正常,车间生产效率、效益及节能效果都有显著提升。”中国一重相关负责人介绍,在“5G+数据采集”的加持下,轧电车间生产制造信息采集量提升80%以上,为车间的生产排产以及生产管理提供了有效可靠的数据支撑。

  打造数字政府、深化数据服务普惠赋能、强化数据服务安全可信……万卡集群让算力迈上新台阶,也让黑龙江省数字新基建底座不断筑牢。

  在建设数字政府方面,编制全省政务数据资源“一本账”,数据总量突破2350亿条,提供数据共享服务超168亿次。建成全国一流数字政府运营中心,创新打造海算平台、龙政智搜等智能高效的数据交换、数据分析能力,基于数据基座打造500余个数据模型。

  哈尔滨智算中心的建成投产,不仅在规模上刷新了纪录,也在建设速度、技术创新、国产化应用等方面树立了标杆,更为东北全面振兴提供了有力的技术保障。

  “哈尔滨万卡智算中心建成并投入试运行,为黑龙江人工智能产业发展与数字化转型奠定了坚实基础。”黑龙江省工信厅副厅长郭跃华介绍,下一步,黑龙江省将加快布局建设5G、工业互联网、智算中心、超算中心等新型数字基础设施,为数字化转型发展提供强力支撑;发挥行业龙头企业示范引领作用,带动产业链上下游企业协同数字化转型;千方百计降低企业数字化转型成本,推广一批“小快轻准”的数字化转型系统解决方案,为企业提供买得起、用得好的应用服务;组织开展宣贯培训、产业沙龙、实地参观等活动,在更大范围实现企业需求和市场供给的充分对接。

(责编:赵欣悦、袁勃)