本周AI界发生了什么 | Grok-1.5发布;微软OpenAI斥资千亿打造AI超算;百度或将为国行iPhone16提供AI功能

时间:2024-04-04 18:00 来源: 36氪新媒体

文|陈斯达

编辑|邓咏仪

一周纵览

本周大模型频频出新。马斯克官宣Grok-1.5大模型,推理能力大升级。人工智能公司Databricks宣布开源通用混合专家(MoE)大语言模型DBRX,最强开源大模型就此易主。以色列AI初创公司AI21 Labs推出SSM-Transformer模型Jamba,据称是世界上首个基于Mamba的量产级模型。

更多消息依然来自OpenAI。OpenAI本周新发布了语音生成模型Voice Engine,以及艺术家的Sora最新作品实例。围绕GPT商店困境,本周OpenAI宣布,将挑选少量美国开发者测试GPT商店收入分成模式。周末又有消息称,微软OpenAI将斥资千亿美元打造“Stargate”先进人工智能超级计算机。

其他科技巨头动作不断。亚马逊宣布将向Anthropic追加投资 27.5 亿美元,以完成去年承诺的投资协议。而包括高通、谷歌和英特尔在内的科技公司联盟,则准备从软件入手,与英伟达芯片“脱钩”。

Key Points
  • OpenAI发布语音模型Voice Engine
  • 马斯克官宣Grok-1.5
  • DBRX成当前最强大开源模型
  • AI21 Labs首推基于Mamba架构的量产级模型
  • 微软和OpenAI制定千亿美金AI超算计划
  • OpenAI与开发者联合测试GPT创收
  • OpenAI发布Sora首批艺术家作品实例
  • 高通、谷歌、英特尔等联合开发AI软件
  • Transformer作者公开承认参与保密项目Q*
  • 百度或为国行iPhone16提供AI功能
  • 字节跳动推出AI角色互动App“话炉”
  • 亚马逊追投Anthropic 27.5亿美元
  • AI视频生成创企HeyGen正进行6000万美元融资
  • 90后天才少年稚晖君再获融资
  • Heygen发布Avatar in Motion 1.0
  • 腾讯开源“照片说话”视频生成框架
  • 谷歌推出AI图像插入新“神器”
大模型第一线OpenAI发布语音模型Voice Engine

据界面新闻,3月30日,OpenAI在官网上公开了其最新的研究成果——“Voice Engine”。这项技术可通过简短的15秒音频样本和文本输入,生成与原始说话者极为相似的自然语音。

公告中,OpenAI给出了Voice Engine的一些早期应用场景。如通过自然、富有情感的声音辅助儿童阅读、翻译视频和播客等内容、改善偏远地区的社区服务、帮助患有突发性或退化性言语病症的患者恢复声音等。

马斯克官宣Grok-1.5

当地时间 3 月 28 日,马斯克旗下的人工智能公司 xAI 正式推出了 Gork 大模型的最新版本 Grok-1.5。相比一周前开源的Grok-1.0,Grok-1.5上下文长度飙升,从8192增长到128k,和GPT-4齐平。二是推理性能大幅提升,数学能力直接涨点50%之多、HumanEval数据集上得分超过GPT-4。Grok-1.5预计将在未来几天向早期测试者和 X 平台的现有用户开放。

本周AI界发生了什么 | Grok-1.5发布;微软OpenAI斥资千亿打造AI超算;百度或将为国行iPhone16提供AI功能

图源:X

DBRX成当前最强大开源模型

当地时间3月27日,AI初创公司Databricks宣布旗下Mosaic Research团队开发的通用大语言模型DBRX将开源。DBRX的表现都优于现有的一切开源模型。根据DBRX在MMLU、HumanEval和 GSM8K公布的测试数据显示,DBRX不仅性能超过了LLaMA2-70B和马斯克最近开源的Grok-1,推理效率比LLaMA2-70B快2倍,总参数却只有Grok-1的三分之一,是一款功能强算力消耗低的大模型。

AI21 Labs首推基于Mamba架构的量产级模型

智东西3月29日消息,以色列AI初创公司AI21 Labs昨日在官网推出SSM-Transformer模型Jamba,据称是世界上第一个基于Mamba的量产级模型。通过利用传统Transformer架构的元素增强Mamba结构化状态空间模型,Jamba弥补了纯SSM模型的固有局限性。它提供了256k上下文窗口,在吞吐量和效率方面展现了显著的进步。

大事件微软和OpenAI制定千亿美金AI超算计划

3月30日消息,据The Information独家报道,消息人士称,微软和OpenAI的高管们在为一个可能花费高达1000亿美元的数据中心项目制定计划。该项目将包含1台拥有数百万个专用服务器芯片的AI超级计算机Stargate,为OpenAI的AI提供动力。项目成本是当今一些最大的数据中心的100倍,微软可能会负责为该项目提供资金。高管们已经讨论了最快在2028年启动Stargate,并将其扩建至2030年。

OpenAI与开发者联合测试GPT创收

3月28日消息,根据X平台,OpenAI宣布其正与一小部分美国开发者合作,测试基于使用量的GPT收费。OpenAI表示:“我们的目标是创建一个充满活力的生态系统,让开发者因其创造力和影响力而获得奖励,我们期待与建设者合作,找到实现这一目标的最佳方法。”

本周AI界发生了什么 | Grok-1.5发布;微软OpenAI斥资千亿打造AI超算;百度或将为国行iPhone16提供AI功能

图源:X

OpenAI发布Sora首批艺术家作品实例

3月26日凌晨,OpenAI 发布七个最新 Sora 作品实例,意在展示艺术家、设计师、创意工作者和电影人等业内人士对于 Sora 融入自身工作与业务的看法。

高通、谷歌、英特尔等联合开发AI软件

3月26日,由高通、谷歌、英特尔等科技巨头联合参与的UXL基金会宣布,将启动一项开源软件开发计划,旨在为多种AI加速器芯片提供跨平台支持。该项目旨在实现计算机代码在不同芯片和硬件平台上的无缝运行。高通AI与机器学习主管Vinesh Sukumar表示,此举将帮助开发者从英伟达平台顺利迁移。

Transformer作者公开承认参与保密项目Q*

据Wired杂志,Transformer作者现身英伟达GTC大会后,接受Wired杂志采访,揭示了许多鲜为人知的研发细节。其中一位作者Lukasz Kaiser公开承认自己参与了OpenAI的一项高度保密项目——Q,引发了广泛关注。当记者试图进一步探究Q项目时,OpenAI的公关人员迅速介入,阻止了Kaiser的发言。

百度或为国行iPhone16提供AI功能

3月25日,一位百度内部人士向时代周报记者透露,百度将为苹果今年即将发布的iPhone16、Mac系统和ios18提供AI功能。但《中国日报》后援引接近苹果公司的知情人士称,到目前为止,苹果尚未与百度就AI合作达成协议。

字节跳动推出AI角色互动App“话炉”

据新浪科技,3月25日下午消息,近日,字节跳动推出AI角色互动App“话炉”。据了解,“话炉”由字节跳动的Flow部门打造。而Flow部门隶属于字节跳动的产品研发与工程部(内部简称“PDI”),目前下设四大业务线,包括AI教育、国际化、社区和豆包,“话炉”则属于社区业务线旗下。

融资动态亚马逊追投Anthropic 27.5亿美元

当地时间 3 月 27 日,亚马逊宣布将向 AI 公司 Anthropic 追加投资 27.5 亿美元(约 198.8 亿人民币),以完成去年承诺的投资协议,并将扩大两家公司之间的合作关系。追加投资之后,亚马逊对 Anthropic 的总投资额将达到 40 亿美元,这也是亚马逊 30 年历史上最大的一笔外部投资。通过投资,亚马逊将获取 Anthropic 的少数股份,但不会在 Anthropic 的董事会占有席位。

AI视频生成创企HeyGen正进行6000万美元融资

当地时间3月23日,据The Information援引知情人士消息,HeyGen目前正在进行一轮 6000 万美元的融资,完成融资后总估值将达到 4.4 亿美元,是四个月前估值的六倍,本轮融资由Benchmark领投,它是 Snap 和 Uber 的早期投资者之一。HeyGen 的上一轮融资则是去年 11 月的560万美元融资,由知名投资人Sarah Guo创立的Conviction Partners领投。

90后天才少年稚晖君再获融资

据投资界,智元机器人关联公司上海智元新创技术有限公司新增股东红杉中国、M31资本、上汽投资。此前消息流出,智元机器人投前估值达70亿。公司背后的90后创始人曾是华为“天才少年”稚晖君彭志辉,同时在B站坐拥250万粉丝。公开资料显示,上海智元新创技术有限公司法定代表人为舒远春,使命为“以智能机器创造无限生产力”,致力于以Al+机器人的融合创新,打造世界级领先的具身智能机器人产品及应用生态。

新玩意Heygen发布Avatar in Motion 1.0

Heygen近期发布了其Avatar in Motion1.0新功能,这一技术革新在虚拟角色动作捕捉和声音克隆方面取得了重大突破。该功能可以精确地保持口型同步,并克隆用户的语音语调,甚至能保留背景声,使得虚拟角色的语音表达更为生动真实。

本周AI界发生了什么 | Grok-1.5发布;微软OpenAI斥资千亿打造AI超算;百度或将为国行iPhone16提供AI功能

功能演示,图源:X

产品入口:

https://top.aibase.com/tool/heygen

论文腾讯开源“照片说话”视频生成框架

智东西3月28日消息,根据arXiv,腾讯团队在3月26日发表的论文中开源了音频和照片驱动的视频生成框架AniPortrait。该方法分为两个阶段,最初,团队从音频中提取3D中间表示并将其投影到一系列2D面部标识中。随后,团队采用鲁棒的扩散模型,结合运动模块,将标识序列转换为逼真且时间一致的肖像动画。实验结果证明了AniPortrait在面部自然度、姿势多样性和视觉质量方面表现优异,从而增强了感知体验。

本周AI界发生了什么 | Grok-1.5发布;微软OpenAI斥资千亿打造AI超算;百度或将为国行iPhone16提供AI功能

图源:论文

论文地址:

https://arxiv.org/abs/2403.17694

GitHub地址:

https://github.com/Zejun-Yang/AniPortrait

谷歌推出AI图像插入新“神器”

智东西3月28日消息,根据arXiv网站,谷歌研究人员在3月27日上线的论文中推出了用于真实感对象移除和插入的ObjectDrop Bootstrapping Counterfactuals方法。面对扩散模型经常生成违反物理定律的图像,这种方法可以支持逼真的对象插入,遮挡、阴影和反射等效果更真实。

本周AI界发生了什么 | Grok-1.5发布;微软OpenAI斥资千亿打造AI超算;百度或将为国行iPhone16提供AI功能

图源:论文

论文地址:

https://arxiv.org/abs/2403.18818

欢迎交流

科技,人工智能,AI技术
免责声明:本文内容来自用户上传并发布或网络新闻客户端自媒体,易看资讯仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系删除。

« 上一篇:Jack Huynh:AMD的最终愿景是让AI PC适应每一个用户
» 下一篇:没有了