在今年的Google I/O开发者大会上,谷歌正式发布了新一代的视频生成技术——Veo 3模型。
据了解,Veo 3旨在与OpenAI的Sora竞争,具备在生成视频的同时同步嵌入音效的创新能力。
谷歌表示,该模型不仅能够根据文本描述和图片提示,生成高分辨率、多样化的视频内容,还能为不同场景如人物对白、鸟鸣声或街头交通等,智能匹配相应的音频,增强沉浸式视听体验。

谷歌DeepMind部门的副总裁Eli Collins指出:Veo 3在从文本和图像输入到逼真场景的物理效果展示,以及精准同步唇形方面,都表现得极为优异。
目前,此模型主要面向美国地区的Gemini Ultra订阅用户,每月需支付249.99美元的使用费用。
此外,Veo 3也将被集成进谷歌面向企业的Vertex AI平台,为客户提供专业的AI视频生成解决方案。
除Veo 3外,谷歌还推出了多款与生成式人工智能相关的新产品,包括升级版的图像生成模型Imagen 4以及电影制作辅助工具Flow。
同时,谷歌宣布对原有的Veo 2模型进行优化升级,新增支持通过文字指令对视频中物体进行增删的功能,实现更灵活的内容调整。
随着生成式AI在图像及视频创作领域的应用不断扩大,其行业影响逐渐显现。

然而值得关注的是,谷歌在AI图像生成技术的研发历程并非一路平坦。
2024年,由于Imagen 3模型在生成的部分图像中出现历史错误,此前版本曾引发广泛质疑,不得不暂停使用并重新发布修正后的版本。
谷歌联合创始人Sergey Brin也曾坦言,问题的根源在于测试环节的不足,未能充分验证模型的输出质量。



































