图说:商汤科技人工智能计算中心 新民晚报记者 陶磊 摄(下同)
大模型,当下的宠儿;大装置,则是人工智能发展不可或缺的基础设施。
在东海之滨的临港两港大道旁,矗立着一座宛若芯片的大楼。这里是上海新一代人工智能计算与赋能平台——商汤科技人工智能计算中心(AIDC),算力已达到每秒8100千万亿次浮点运算,强大算力可支撑超过20个千亿超大模型同时训练,并支持万亿参数大模型的全生命周期生成。
经过多年建设,如今这座大装置的重要载体已经成为国内人工智能计算中心的“样板间”。
图说:商汤科技人工智能计算中心内的AI体验中心
技术底气 布局前瞻
“大装置+大模型”,这样的布局放在今天看来,很平常;但要放在五六年前,绝对称得上“未卜先知”了。
竞逐人工智能,技术是最大的底气。2018年4月,商汤在没有任何可供参照的案例经验和实验场地条件下,开始布局人工智能计算原型机研制项目,甚至在总部办公大楼内牺牲办公空间搭建原型机的核心机房,开展项目预研。
2020年7月,商汤人工智能计算中心正式启动建设。值得一提的是,项目建设再次跑出了“临港速度”——从开工建设到主体结构封顶仅耗时168天,一度刷新临港建设的纪录。
图说:商汤人工智能计算中心坐落于临港
“去年AI 2.0时代,生成式人工智能爆发,大家都在寻求大装置能力的时候,商汤已经储备好了。”商汤科技董秘办董事总经理盛世伟介绍,如今商汤大装置已最大实现了万卡的超大集群互联,并保持90%的加速效率。在训练稳定性上,商汤实现了超30天稳定训练不间断的能力,而出现训练间断时的诊断恢复时长也优化到了半小时。
盛世伟感慨,作为亚洲规模领先的人工智能计算中心,如今不仅提供了强大的算力支持,也为大模型的研发和迭代提供了有力保障。
AI发展的“新质生产力”
“大装置+大模型”的协同,让商汤科技在过去一年多的“百模大战”中,成为国内少有的能保持大模型高速迭代的人工智能企业。
记者了解到,“日日新”大模型可在万卡算力的保障下,遵循尺度定律不断提升性能,能力每隔三个月就会显著提升。就在本月,“日日新5.0”版本也将面世,性能全面对标GPT4-Turbo;文生视频模型也有望在今年推出。
图说:商汤科技人工智能计算中心机房
商汤科技大装置事业群智算中心技术总监宋祎寓介绍,大装置通过重构算力、算法的供给或服务模式,实现了人工智能生产要素的创新性配置,大幅提高了AI技术的生产效率和质量,为AI发展打造“新质生产力”。
“大装置重构了算力的供给体系。”宋祎寓解释,“通过提供规模化、高效率、集约化的算力基础设施服务,能够大幅提高各行各业算力的利用能力,降低传统自建算力方式的使用成本,实现了算力这一要素供给效率的提高。”
在盛世伟看来,商汤大装置非常关键的一点,是适配了大量国产芯片,无论是做训练还是推理,人工智能计算中心都可以提供国产化解决方案。
值得一提的是,商汤也较早推出了“模型即服务”模式,重点关注软件调用能力,使客户能轻松进行大装置微调和调用各类生成式AI能力,而无需管理底层基础设施。
图说:研发人员走进机房
有灵感 更务实
在临港,商汤大装置团队由100多名各领域人才所组成。领军科学家们有着对前沿技术的敏锐洞察,带领着团队在不断发展中形成了务实且多样性的氛围。
“今年年初,有一位对音乐创作一窍不通的团队小伙伴,利用海外生成式音乐创作平台,以商汤大装置为主题,创作了一首流行风格的音乐。”宋祎寓笑着说,“最后挑选出的版本很酷。大装置业务团队也关注到这个成果,开始拓展音乐方向的生成式人工智能发展机会。”
在他看来,人工智能不少发展机遇都来自生活的爱好和灵感;同时,生成式人工智能影响的行业非常广泛,给其他行业的创新和发展带来了启示。
据了解,大装置团队中不乏身怀艺术细胞,但又对学术十分执着的科学家,他们能够以独特的视角和无尽的激情,为大装置的发展注入源源不断的创新活力。团队表示,未来将建设面向开发者友好的人工智能基础设施,打造零门槛、一站式的开发体验,缩短大模型的开发周期。
新民晚报记者 郜阳
科技,人工智能,AI技术