Sora问世第7天:谷歌猛烈回击,技术冰山下还有这5个关键问题

6个月前 来源: 观看:85

图源:GPT-4制作 EgJ即热新闻——关注每天科技社会生活新变化gihot.com

Sora的问世引发了科技狂欢,也带来了新的争议。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

日前,Meta首席AI科学家Yann LeCun杨立昆公开质疑Sora :“Sora 的生成式技术路线注定失败,用Sora构建世界模型不可行。”EgJ即热新闻——关注每天科技社会生活新变化gihot.com

在杨立昆看来,生成类算法适用于离散的文本,但处理高维连续感官输入中的“预测不确定性”则非常棘手,OpenAI将Sora定义为“世界模拟器”有失准确。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

实际上,在2月16日Sora发布的同一天,模型领域还有两款重磅产品推出。一是Meta发布的能够以人类的理解方式看世界”的视频联合嵌入预测架构 V-JEPA,二是谷歌发布的支持100万 tokens 上下文的大模型 Gemini 1.5 Pro。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

撞档之下,不论是语言模型Gemini 1.5 Pro ,还是与Sora同属视频生成模型的 V-JEPA ,都被掩盖在了Sora的信息流中。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

值得一提的是,2月22日凌晨,谷歌毫无预兆地发布了开源模型Gemma,这是继其2月9日宣布Gemini Ultra免费使用、2月16日推出Gemini 1.5 Pro后,短短12天之内的第三个大动作。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

一位业内人士告诉时代周报:“谷歌试图通过Gemma挑战Meta的Llama 2,并向用Sora抢了自己风头的OpenAI宣战,颇有‘打不过就开放’的味道。”EgJ即热新闻——关注每天科技社会生活新变化gihot.com

新生事物向来要接受各方面的评判和挑战,抛开技术与展现形式的升级,Sora显然还具备科技框架以外的意义。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

“麦高芬"(MacGuffin)是电影界的一则术语,指在电影中用于推展剧情的物件、人物或目标,其详细的背景和发展并不重要,重要的是它对电影剧情的发展起着关键作用。它是电影中的一个激励因素,旨在推动情节的发展,而Sora或许就扮演着这样的角色。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

针对一款产生轰动效应的科技产品,抛开技术底座谈行业意义是本末倒置的,摒弃宏观影响谈竞争力是狭隘的。就Sora为商业科技领域带来的诸多思考,时代周报邀请到四位业内人士,探讨文生视频领域技术冰山下的问题。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

李桢:北京信息化局专家库信息化专家,工信部人工智能内容创作师认证主讲人,商业认知研究院创始院长,西南大学、成都科技大学创业导师,对外经贸大学创新学科讲师。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

Edward:英国就业协会理事,人工智能行业协会会员,无束AIGC内容分享平台创始人。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

Emma:香港理工大学中英企业传讯硕士,无束AIGC内容分享平台联合创始人。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

Yuca远识资本董事,科技媒体Z Potentials创始人。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

如何看待杨立昆对Sora的质疑?EgJ即热新闻——关注每天科技社会生活新变化gihot.com

李桢:每一个模型的出现都具备自身的逻辑推导,都有可能成功,没有注定的事情。杨立昆对于Sora提出质疑,是因为双方所认同的技术路线存在差异。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

结合ChatGPT的发展史看Sora,有种历史重演的感觉。彼时,大语言模型行业经历补全类和对话类后,OpenAI利用Transformer(自然语言传送)模型打开了新局面,人们发现,Chatgpt竟然突破了对上下文语义的理解,而不是词语之间的理解。更令人惊讶的是,这种理解不同于人类的理解方式,它的模式是建立在算法机制上的,通过概率的计算对文本内涵进行揣测和理解。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

文生视频领域所依据的两个绘画模型主要是Diffusion Model(扩散模型)和GAN(对抗学习的深度生成模型)。Diffusion Model指的是在有限材料下像学生一样去学习,不断扩散材料;GAN的角色更像是一位老师,通过“批改”的方式将整个模型的稳定度、画面的精确度调整至更高要求。目前所有的文生视频就是从这样的文生图像的连续帧得来的。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

对于Sora,OpenAI延续了Chatgpt的技术路线,将Transformer 模型迁移到了文生视频的 Diffusion Model中,让图片更容易被理解。在此基础上,OpenAI还做了两项迭代升级。一是在Transformer的架构上增添了对绘画意图标签的理解,二是增添了Space&Time patches(空间与时间的补丁包)。EgJ即热新闻——关注每天科技社会生活新变化gihot.com


EgJ即热新闻——关注每天科技社会生活新变化gihot.com

图片由李桢提供 EgJ即热新闻——关注每天科技社会生活新变化gihot.com

补丁包的功能在于,大模型在计算画面的同时,基于Transformer 的整个文本的理解方式,把空间下发生的事情的补丁先计算出来,然后推演下一秒钟的情节,随即生成时空领域内的场景数据集,进而选择生成视频所需要的、最合乎物理世界的数据帧,相较于现在的ControlNet(用于控制AI 图像生成的插件) 对Diffusion Model 的视频处理技术,其能将画面做得更加稳定和逼真。
EgJ即热新闻——关注每天科技社会生活新变化gihot.com

严格来说,Sora之于OpenAI原有的技术体系没有进行再创造,它是一种组合创新的逻辑——把原来的模型迁移到视觉模型上,又将原有所谓时空的概念打造成了补丁包的方式,不断的去嵌入和更新。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

但从某种程度上讲,杨立昆的观点是没错的。Sora所生成的所有内容都是基于概率计算出来的,事件发生的根本逻辑与物理世界确实不同。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

Edward: Sora本质上不算是AI理解人类的突破,但其高质量跨越生成形态方面的突破可谓将行业推向新纪元。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

其底层技术主要遵循对目的图片拆解和拼接的逻辑。类似最新发布的通用机器人Mobile Aloha。斯坦福团队曾对外表示该机器人可以完全模拟人类解决很多家务工作,但其实该机器人背后需要人为操纵两个遥控杆。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

当下,AI的上限依旧是人类。人类本身对于物理世界仍处在持续探索的过程中,按照Sora的技术逻辑,暂时无法训练出比人类更智能的AI。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

但Sora的进步之处在于,它将视频每一帧的图片赋予了GPT可以理解的文本,这代表着未来每一帧的图片里的元素都可以被文本描述,很大程度上提高了用户针对视频的搜索效率。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

如何理解文生视频领域的中外差距?EgJ即热新闻——关注每天科技社会生活新变化gihot.com

李桢:在技术端,我认为目前国际上能与OpenAI相匹敌的企业只有Meta。因为Meta的开源社区逻辑有着巨大的增长潜力,就像当年的苹果与安卓。  EgJ即热新闻——关注每天科技社会生活新变化gihot.com

不同于Sora的技术策略,Meta推出的V-JEPA意在创造架构,随后将Space&Time patches进行迁移实现预测。这种路径虽然不具备Transformer所坚持的、由极大数据量支撑全局测算的条件,但架构一旦被输入足够的数据量,其实也能达到与Sora比肩的效果。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

在市场端,我们目前还无法去评估Sora的具体价值。大家普遍沉浸在Sora带来的美好幻想中,却忽略了一个水面之下的现实问题。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

Sora目前没有公开报价,而对于走数据集路线的Sora来讲,势必需要强大的算力去支撑。当下所有人都在猜测它的算力,如果其所需算力的成本比一条短视频的制作成本高很多,它的可持续性有多强?它的效率有多高?如何定价相对合理?EgJ即热新闻——关注每天科技社会生活新变化gihot.com

目前来看,Sora没有给报价的原因可能有两点。一是OpenAI无法评估如何定价才会受到市场广泛认可并投入使用;二是基于对手的猛烈攻势,在全面规划未落地的情况下,率先发布内测版本,可能是为了抢夺市场的资金与注意力。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

Emma:国产文生视频大模型预计将面临与LLM类似的问题,与国外差距主要体现在算法、算力和算据三方面。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

算力方面,英伟达凭借技术优势占据AI芯片领域主导地位,中美科技竞赛背景下,国内厂商暂不具备优势。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

算法上,自监督学习机制、模型并行和数据并行优化等核心技术等方面,国外研究团队仍保持一定的领先,不过中国企业在模型架构优化、知识融合、多模态学习等方面也取得了一系列突破。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

算据方面,GPT-4拥有100万亿个参数,基本达到人类大脑的规模,而百度的文心一言,华为的盘古大模型参数量在千亿规模的级别,与GPT-3相近。即便达到十万亿级别的阿里巴巴M6大模型,其参数规模仍与GPT-4相差一个数量级。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

在文生视频领域,中国企业该怎样定位?EgJ即热新闻——关注每天科技社会生活新变化gihot.com

李桢:这个问题涉及到了世界产业分工,国情与文化的不同,造就了中外对基础学科与意识形态存在差异——欧美擅长打造天马行空的概念,将科技视作食粮;国内则相对更加注重落地,以应用侧的运用见长。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

电商行业中,阿里的AI大模型十分强大,其推出的Animate Anyone和Outfit Anyone开源框架,能将静态图像中的角色或人物进行动态化的展示。基于阿里海量的服装数据,用户只需上传人物照片和服装照片,就可以实时看到虚拟人的换装效果,并可通过动画中的人形动作了解衣服的摆动状况与材质。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

让虚拟人按照自然的方式运动也是非常领先的技术,但和OpenAI、Meta的AI产品显然处于不同维度。条条大路通罗马,国内很多企业都和阿里一样拥有自己的底牌,只是用法不同罢了。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

Edward:师夷长技以制夷,中国完全可以拥有中国特色的大模型道路。当技术等级处于下风之时,我们可以更加注重应用端。从这个角度来看,我反而会认为国内的文生视频企业会更具话语权,国内拥有庞大的创作者群体,拥有短视频爆发的土壤,相应地具备了更多视频类语料库。如果AI可以理解视频指令,每天不间断通过刷视频充实语料库,那么所呈现的算力是惊人的。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

此外,国内企业可以通过文生视频打造企业生态,快速实现垂直领域的落地。拿谷歌举例,虽然技术无法与OpneAI相提并论,但谷歌围绕自身生态推出的AI产品不断反哺生态,应用前景往往更加清晰。当行业步入中后期,企业之间的技术差距通常不会太大,手握优质生态的企业便容易脱颖而出。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

从LLM的发展路径来看,国内文生视频可借鉴哪些经验?EgJ即热新闻——关注每天科技社会生活新变化gihot.com

Yuca:行业初期,企业需根据自身实力提前做好考量与布局规划,根据细分的要求培养竞争力。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

比如,大模型企业需具备一定的数据、算力、资金实力,内容创作企业则需具备IP打造能力和创意能力,分发型企业需在合规、准确和效率上提出更高要求。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

未来视频模型层迭代速度会很快,大部分人会聚焦在基于视频生成模型的应用场景,产品型和创意型公司会更受关注。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

李桢:按照时间线纵向对比,我认为文生视频领域的企业,尤其是国内的企业可以更加开放。但往往国内市场竞争更加激烈,同时中外文化母体不同,对价值的理解程度也不同。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

作为全球第一的CRM(企业智能数据平台)公司,Salesforce中国水土不服,原因在于中外对数据资产管理的理解方式不同。大家对“什么东西该开源”“什么东西该收费”的定义无法达成一致,所以只能从长期视角对企业提出建议,无法苛刻地要求企业短期内做出改变。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

透过预制菜与厨师的矛盾,怎样看待文生视频与人类的关系?EgJ即热新闻——关注每天科技社会生活新变化gihot.com

李桢:今年AIGC生成视频很火,但鲜有公司真正将AIGC 文生视频落地。作为为公司提升效率的一个重要手段,直到今年,AIGC赛道才出现一些进展,且进展的主力军局限在文本生成以及文本的自动化工具,因为这部分足够稳定,可以形成生产力,可以实际提升企业工作效率。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

对文生视频来讲,要“让子弹飞一会”,当我们真正研究透彻提示词,才可真正调动AIGC。否则就算Sora的报价合理,且出图准确,我们依然会存在将大笔金钱投入在提示词不精准的算力消耗上。 EgJ即热新闻——关注每天科技社会生活新变化gihot.com

Emma:这种舆论的方向跑在了我们对AI大模型产生足够的认知之前。对于普通人来讲,通过优质提示词使用大模型提升工作效率仍存在门槛,当我们的认知还不足以支撑对工具的使用时,探讨“视频大模型是否能取代人类工作”还为时尚早。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

Edward:文生视频会对现有工作岗位进行升级,或衍生出更多的新岗位,最终应用到各种丰富的场景中解决民生问题,如农业、教育等,我认为应当把人类的未来交给相应的技术。EgJ即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-1642-0.htmlSora问世第7天:谷歌猛烈回击,技术冰山下还有这5个关键问题

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:Epic 和苹果大战仍未落幕:7340 万律师费再成争议焦点

下一篇:英伟达重振“AI信仰”:上财季净利润激增超7倍,带动算力等概念股大涨!

为你推荐
法律:网赌一般冻结3天怎么解决的渠道解决【微信chuhei816】被黑不给取款怎么办,小编来告诉你 在互联网日益发展的今天,网上金融活动已经渗透到我们生活的方方面面。然而,随之而...
08-04
大连金州区本地当面套花呗京东白条VISA信用卡分付本地一手商家秒到账:【138 1874 5895 微信同号】一手当面靠谱!白条怎么套出来,大家在急用钱的时候肯定会想到京东白条或者京东...
08-04
青岛风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-07
最新打算:套分付最简繁流程(最新分付5个操作方法)什么是微信分付,支付宝中的花呗大家知道吧,微信分付就是类似这种功能的存在,简单来说也是一个提前金融消费模块。微信分付怎么套...
08-05
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——小创(137-1300-6106可v可来电)(全年365天不掉线) 【得物佳物分期购可以提现吗】【得物的分期购额度怎么套出来...
08-18
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——小创(137-1300-6106可v可来电)(全年365天不掉线) 【得物佳物分期购可以提现吗】【得物的分期购额度怎么套出来...
08-17
一步到位:4款刷花呗的平台推荐,轻松7种流程提现方法商家用淘宝二维码的方式登陆你的淘宝账户,去淘宝店铺下单,然后你用花呗支付。收货完成商家处理完该笔订单,把扣除折损的金额...
09-02
指定:花呗怎么套出来到支付宝,商家分享7种秒到账方法输入金额即可成功套现。小贴士:这个方法可能针对500以内的小可以,大可以的话可能不支持,说白了就是收不到足够的资质不过,个...
09-01
芒种是节气的一个,他的到来气温升高,夏季的开始,它会让你感觉到很烦躁,而且会出现上火的情况,所以说这个时候吃一些滋阴润燥的食物还是比较好的,下面的这些具有滋阴的食物搭配是不...
04-02
  本报(chinatimes.net.cn)记者 刘佳 北京报道  在行业加快转型的大背景下,信托公司继续出清金...
09-13
南京风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-24
  3月21日至22日,福建省党政代表团在沪考察。21日下午,沪闽两地交流座谈会举行,共商新时代沪闽合作大计,更好服务国家发展大局。...
03-23
中建筑港集团五公司于2012年11月经中建筑港集团有限公司批准设立,总部位于济南市,目前拥有300余名工程技术、施工管理、工程造价等专业性管理人才,近年来承建...
12-18
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮