辽宁省新增1例本土新冠肺炎确诊病例 为沈阳市报告
中新网1月25日电 据辽宁省卫健委网站消息,1月25日0时至11时,辽宁省新增1例本土新冠肺炎确诊病例...
2024-08-26 21:35:22
来源:今日热点网
AI大模型的爆发式增长,正驱动着算力需求不断升级,云基础设施在集群建设和管理、性能、稳定性等方面都面临着严峻挑战。
火山引擎基于字节跳动在大模型领域的实践沉淀,带来更高性价比的算力资源和一站式资源服务,持续助力企业 AI 转型落地。8月21日,2024火山引擎AI创新巡展上海站活动成功举办,火山引擎云基础产品负责人罗浩发表演讲,详细介绍了面对算力需求的升级,火山引擎的具体应对方法和措施。
罗浩表示,早在2019年,火山引擎已经观察到了由Transformer带来的更大规模算力需求。并且随着算力大规模爆发式增长,也带来了计算模式的变化,计算从“单节点模式”向“集群模式”演化。
为了满足AI领域的算力增长,火山引擎首先打造更新的基础设施,如新一代GPU型算力,以及能够容纳这些算力的新一代机房等。
在此基础上,则是打造新一代互联技术,将多达数十万个计算节点互联起来,支持近似线性加速比。
罗浩介绍,由于不同算力资源池的节点阈值不同,当小于8个节点的时候,调度都在一台服务器内部完成,但当节点大于500的时候,可能就需要跨机架调度,而当节点大于1000或更多时,需要跨两至三层的交换机调度,所涉及到的网络架构管理内容,包括通信协议、拥塞控制等等,其性能挑战的难度将逐步增大。
因此,随着AI大模型的爆发,任务已从单节点来到多节点,甚至达到万卡规模,故障域也变得更大。
如此大的故障域中,如何在当某个节点发生故障时能快速识别问题,及时剔除故障节点,节省计算成本,就存在相当严峻的挑战。
火山引擎云基础产品负责人罗浩
因此火山引擎提出“AI全栈云”,包含三个方面。
一、集中使用资源和算力。最大程度上避免由于分布式数据中心建设带来的算力孤岛和存储孤岛问题。
二、所有的IaaS层产品、PaaS层产品、数据产品、安全产品甚至推荐算法还有AI产品,都在同一朵云上,采用同样的软件架构、通信协议,使得数据流动、业务通信保持最高效的,同时也更加安全。
三、大算力资源池建设和自研硬件,以及自研网络通信协议、拥塞控制算法等能力相结合,实现规模更大、性能更强、稳定性更高和成本更优。
罗浩表示,目前火山引擎能够做到在分钟级别调度千卡规模资源池,以应对弹性任务。互联能力方面,单机互联能力已经从800G提升到了3.2T,增长了4倍。同时火山引擎还提供覆盖全球的网络,能够支持2TB/秒吞吐并行文件存储。
在高可用方面,火山引擎做了充分的压测左移体系,会在批量机器交付之前,抽样比较大的集群同时部署上容器、虚拟机、物理机进行测试,确保高可用性。拥有这样的压测能力,即可快速发现问题,结合冷迁移技术,将故障节点在离线状态或在线状态剥离出去,使得任务持续运行。
成本方面,火山引擎除对大规模算力资源池集中使用之外,对于loadbook、DevOps等短期任务,只会用单张卡或0.5张卡,提供更加灵活、更小粒度的资源使用方式。同时,火山引擎的网络负载均衡还能够感知到训练推理体系里的KV Cache、过热导致的调度不均匀问题,达到更高的调度效能。
在存储方面,除VPFS超大规模、超大性能存储之外,火山引擎还提供LAS缓冲层、CFS、TOS分层性价比更高的存储。
罗浩表示,火山引擎基于字节跳动在大模型领域的实践沉淀,以技术驱动的极致性价比让大模型人人用得起,陪伴客户一起成长。未来,火山引擎全栈 AI 服务将持续助力企业 AI 转型落地,激发业务增长潜能。(作者:陈棕)
标签:
中新网1月25日电 据辽宁省卫健委网站消息,1月25日0时至11时,辽宁省新增1例本土新冠肺炎确诊病例...
为配合春运工作,根据当前疫情防控形势,结合客流快速增长的特点,自1月25日起,西安地铁全线网恢复...
科技日报记者 张佳星 策划 刘莉 有没有想过,如果有了新冠特效药,你会选择打针还是吃药? ...
民政部日前印发了《关于进一步加强寒假春节期间孤儿、事实无人抚养儿童、农村留守儿童关爱服务工作...
中新网上海1月25日电 (周卓傲)1月22日下午4点30左右,上海地铁15号线祁安路站一名老年女乘客下车时...
记者从河南高速了解到,受大雾影响,截至2022年1月25日8:20河南共30条高速禁止车辆上站: 1、因...
马上评|多写3字赔近3万,离职报告的坑该填上了 一场离职,有人“赚了”,有人“赔了”。最近,...
2022年1月24日19时,山东济宁梁山县疾病预防控制中心接到济宁市疾病预防控制中心推送的北京市大兴区...
根据河南省许昌市疫情防控指挥部(2022年6号)通告,即日(1月25日)起,有序恢复正常生产生活秩序。 ...
科技日报记者& 8194;张梦然 据最新一期英国《自然·通讯》报道,美国密歇根大学开发出一种半导...
科技日报记者& 8194;刘霞 据物理学家组织网近日报道,美国麻省理工学院的科学家借助机器学习算...
记者从河南省禹州市疫情防控指挥部获悉,根据国务院关于应对新冠肺炎疫情分区分级防控工作要求,结...