免费 AI “神器”系列第四弹:字节跳动发布视频界“神笔马良”,谷歌Gemini最
免费 AI “神器”系列第四弹:字节跳动发布视频界“神笔马良”,谷歌Gemini最强竞对出现
图片来源:unsplash
近期,生成式人工智能(AIGC)领域又涌现出多款创意十足的新应用。
今天,钛媒体 AGI 梳理了免费 AI " 神器 " 系列第四弹,共五款,其中不少产品又再一次拓宽了我们对 AI 的想象力。
视频界 " 神笔马良 " —— Boximator
大模型直接操控电脑—— ScreenAgent
文本转声音神器—— ElevenLabs 人工智能音效模型
谷歌 Gemini 1.5 最强竞对—— LargeWorldModel
阅读能力媲美人类—— Readagent
1、视频界 " 神笔马良 " ——字节 Boximator 模型
产品信息:Boximator 是一款由字节跳动开发的文生视频模型,可通过文本精准控制生成视频中人物或物体的动作。
产品功能:用户只需输入一句描述具体动作的文本,Boximator 便可生成对应动作的视频片段,目前很多文生视频大模型其实做不到这一点。
例如,同时在 Pika 1.0、Gen-2、Boximator 上输入文本 " 一位英俊的男人用右手从口袋中掏出一支玫瑰,并注视着这只玫瑰 ",三个大模型最终生成的视频中,只有 Boximator 做到了男士掏花和看花的动作,其他两个均没有。
只有 Boximator 的生成视频(最左)做到了男士掏花和看花的动作,其他两个均没有。
为了实现对视频中人物或物体动作的精准控制,Boximator 引入 " 硬盒 " 和 " 软盒 " 两种约束方法,用户可以使用这些盒子来严格定义对象在未来帧中的位置、形状或运动路径。
不过,Boximator 相关技术似乎还未成熟。
2 月 20 日,字节跳动相关人士表示,Boximator 是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。
据悉,字节跳动从 2023 年开始布局 AI,并于去年 11 月成立专注于 AI 创新业务的新部门 Flow。目前字节 Flow 部门已推出了三款 AI 对话类产品,包括豆包、扣子和 Cici。其中,豆包为一款聊天机器人产品,可以完成问答、文本生成、语言翻译等多种任务,还可以根据用户需求和上下文进行自适应问答,提供个性化服务;扣子是一站式 AI Bot 开发平台,无论用户是否有编程基础,都可以在扣子平台上快速搭建基于 AI 模型的各类问答 Bot,可完成解决简单的问答,并处理复杂逻辑的对话。
高管方面,前 TikTok 的产品负责人、现任字节跳动产品和战略副总裁朱骏已担任 Flow 产品负责人,此外还有一些内部核心产品人员转岗至 Flow。
体验地址:https://boximator.github.io/
2、谷歌 Gemini 1.5 最强竞对—— LargeWorldModel
产品信息:LargeWorldModel(LWM)是一种大型多模态自回归模型,由 UC 伯克利大学开发。它使用 RingAttention 在包含长视频和长文本的大型数据集上进行训练,从而执行语言、图像和视频的理解和生成。
产品功能:LWM 支持处理多模态信息,能在 100 万 token 中准确找到目标文本,还能一口气看完 1 小时的视频后,准确地回答出有关视频内容细节的问题,突破了当前语言模型在处理复杂的长格式任务的不足。除此之外,LWM 还支持图像和视频的生成,被外界视为谷歌 Gemini 1.5 最强竞对。
LargeWorldModel 产品介绍界面
体验地址:https://github.com/LargeWorldModel/LWM
3. 大模型直接操控电脑——ScreenAgent
产品信息:ScreenAgent 是一款由吉林大学人工智能学院开发、视觉语言大模型驱动的计算机控制代理。
产品功能:ScreenAgent 可帮助用户在无需辅助定位标签的情况下,通过 VLM Agent 控制电脑鼠标和键盘,实现大模型直接操控电脑的功能。
ScreenAgent 可根据用户的文本描述查找并播放指定的视频
例如,ScreenAgent 可根据用户的文本描述查找并播放指定的视频,或根据用户要求调整视频播放速度。ScreenAgent 还能帮用户打开 Windows 系统的事件查看器,使用 office 办公软件,例如根据用户文本描述,删除指定的 PPT 内容。
体验地址:https://github.com/niuzaisheng/ScreenAgent
4、文本转声音神器——ElevenLabs 人工智能音效模型
产品信息:近日,ElevenLabs 宣布将推出一款人工智能音效模型,可帮助用户通过文本生成音效,填补了当下 AI 视频生成缺乏背景音效的空白。
产品功能:在 ElevenLabs 发布的预告视频中,这款人工智能音效模型为 Sora 生成的视频画面添加了不同的音效,如人群中舞龙的喧闹声、高速列车运行的轰鸣声、行人的脚步声等。
目前,ElevenLabs 公布了一段视频,但尚未公开该模型的具体细节,仅设立了一个注册页面,用户可提前注册等待该模型的开放试用。
注册地址:https://form.typeform.com/to/gg0xzZW4?typeform-source=t.co
5、阅读能力超强的 Agent 模型—— Readagent
产品信息:Readagent 是由 Google 开发的一款模仿人类阅读方式的阅读类型代理(Agent)模型。它通过学习人类阅读长文本时遗忘具体信息但保留要点信息的方式,来提高处理和理解长文本的效率。
产品功能:在处理长文本时,Readagent 会把文本中的主要信息转化为 " 要点记忆 " 进行存储,当需要回答具体细节问题时,Readagent 会迅速定位到到相应的 " 要点 " 中寻找答案,从而出色地完成长文本的阅读理解任务。此外,Readagent 还能帮用户在复杂的网站中找到需要的信息。
体验地址:https://github.com/read-agent/read-agent.github.io/blob/main/assets/read_agent_demo.ipynb
(本文首发钛媒体 App,作者|任颖文,编辑|林志佳)
-
- 年薪百万的大厂员工,为何在县城亲戚看来毫无价值?
-
2024-02-21 19:47:19
-
- 人生三观指的是什么意思 人生三观指的是什么内容
-
2024-02-20 23:43:26
-
- 秋分三候是什么意思呀 秋分有三候
-
2024-02-20 23:41:10
-
- 聚胺脂是什么型号 聚胺脂是什么意思
-
2024-02-20 23:38:54
-
- 分辨率是什么意思 2k分辨率是啥
-
2024-02-20 23:36:39
-
- 携号转网什么意思啊 携号转网是什么意思是什么
-
2024-02-20 23:34:23
-
- 汽车AVG是什么意思 自动挡汽车a是什么意思
-
2024-02-20 23:32:07
-
- 壶的意思是什么 当茶壶是什么意思
-
2024-02-20 23:29:51
-
- 主业和副业是什么意思 主业和副业是什么意思区别
-
2024-02-20 23:27:35
-
- 调整东坝规划是什么意思 调整东坝规划是什么时候
-
2024-02-20 23:25:20
-
- 想要成为rapstar吗我是煲仔饭是什么梗和意思 来源出处介绍
-
2024-02-20 23:23:03
-
- 美国博主录视频发疯掏出血淋淋人头?“刚斩了我爸,他是美利坚叛徒!”
-
2024-02-20 03:00:27
-
- 让优秀企业家站C位!多省份召开“新春第一会”,释放重磅信号
-
2024-02-20 02:58:12
-
- 烧光几十亿美金后,苹果的“造车梦”到底碎没碎?
-
2024-02-20 02:55:56
-
- Sora启示录:信仰、对抗与未来
-
2024-02-20 02:53:40
-
- 7000亿,孙正义正式宣战
-
2024-02-20 02:51:25
-
- 拼多多海外“历劫”,谁在限制Temu的想象力?
-
2024-02-20 02:49:09
-
- 日本“驸马”升职记
-
2024-02-20 02:46:53
-
- 中产,开始懂得“日日是好日”
-
2024-02-20 02:44:37
-
- 《热辣滚烫》:见证一个“女版吴京”的诞生
-
2024-02-20 02:42:22