邮箱 :news@@cgcvc.com
文章来源: 发布日期:2024-07-12
欢迎来到「牛白丁」,在这里,你将听到来自华创资本和我们的朋友们,以投资人和创业者的第一视角,一起交流那些投资、创业、前沿科技、消费、生命科学等领域的洞察和趋势,回忆片段与瞬间,剖析认知和思考。
欢迎听友们关注「牛白丁」喜马拉雅、小宇宙、苹果播客、QQ音乐、豆瓣官方账号,与我们一起用耳朵感受「时常有趣、偶尔深刻」。
最近,AVAR 推出了新产品 Aiuni AI 的 3D 生成模型 Unique3D,无论扔给它什么图片,都能在短短30秒内生成和原图一样精细的 3D 模型。
Unique3D 一经上线就登上了 Huggingface 的热门模型排行榜,还被旗下官方工具Gradio 在海外媒体上提名为“best image-to-3d model”(最佳图片生成3D模型)。
背后的研发团队是来自清北的00后,创始人、CEO 胡雅婷和 CTO 吴凯路均是信息学竞赛保送生。AVAR 成立一年便拿到三轮融资,华创资本曾领投了 AVAR 的天使轮融资。
做一款爆火的开源 3D 模型,只是 AVAR 通向 4D 路上迈出的一小步,对这支年轻的团队而言,有着更宏大的目标和野心——成为“年轻版皮克斯”。这家传奇动画公司不仅获得十几座奥斯卡,还曾开发了用于三维模型并渲染成数字图像的渲染器,由此获得图灵奖,不仅改变了动画电影,还加快了好莱坞特效、视频游戏和虚拟现实领域的技术发展。
在艺术和技术上都能取得顶尖成就,是 AVAR 未来的愿景,他们希望用 AIGC 实现皮克斯的路径, 让每个人有一天都能借助 AI 创作出自己的 IP 和动画。
您将在本期节目听到以下内容:
01:26 高配创业团队:清北00后天才技术少年
10:33 Unique3D为何爆火?普通用户该如何使用
21:40 Unique3D背后的技术难度和壁垒
26:26 00后老板如何管理团队
30:17 传奇动画公司皮克斯带来的启发
38:18 4D技术难的不是生成猫和狗,而是如何让它们“打架”
45:13 未来会有3D、4D的抖音吗?
49:55 中国队制霸全球算法竞赛
54:41 愿景:用AIGC打造“年轻版皮克斯”
嘉宾介绍:
April胡雅婷:AVAR创始人、CEO
Kailu Wu吴凯路:AVAR技术合伙人、CTO
主播:
张金:华创资本投资人
以下为节目内容,经过 CGCVC 编辑——
张金:大家好,这里是华创资本的播客节目「牛白丁」,我是张金。这期我们请到了老朋友华创派 AVAR 的 CEO April 和 CTO 吴凯路,来聊聊他们新推出的爆款产品 Aiuni 3D。
April:我是April,AVAR 的创始人。我们现在主要做的产品是 Aiuni AI, 是 AI 生成 3D 模型和 4D 的动画,想用 AIGC 去生成无限的 CG 艺术。我自己在大学期间实习时曾在Google、阿里和字节做过算法工程师,也拿过信息学竞赛全国金牌及最佳女选手,毕业后一直在做 3D 方向的创业。
张金:说起来云淡风轻,但是信息学竞赛全国金牌是非常厉害的。凯路和 April 一样,是一个天才技术少年。
吴凯路:大家好,我是吴凯路,现在是 AVAR 的 CTO,主要负责所有的 AI 算法。我本科毕业于清华姚班,当初也是信息学竞赛保送的清华,现在依旧在清华大学交叉信息研究院读研,我接触 AI 很早,本科之前就在做相关内容。我在大一期间发了一篇 CVPR(世界顶级的三大计算机视觉会议之一),大二获得了一个百万美元悬赏比赛的银奖,为此还帮助一家创业公司拿到了几千万投资。
张金:太厉害了,所以你其实很早就一只脚踏进了创业圈。
吴凯路:本科入学之后,我就在打算创业。我的导师马恺声(清华大学交叉信息研究院助理教授)在创业方面也很有经验,给了我很多指导。我一想到了什么 idea,就会去问他,他会从商业方面给出判断意见。
比如我曾经花了一周时间做了一个小的量化系统进行炒股,系统其实很简单,每天买十支股票,第二天清仓,照这个策略算下来,大概有二点几到三的夏普率,虽然还比不上最顶级的量化基金,但也能和国内业绩相对比较好的一些基金持平。我当时是写着玩儿,没想到导师得知后,专门找了他做量化的朋友给我认识,他对潜在的创业机会还挺重视的。
张金:所以马老师也非常支持你创业。你怎么对 3D 生成感兴趣的?
吴凯路:对,我自己提了休学。其实马老师也不会强制要求我发 paper ,反倒是在 AVAR 工作期间发了 paper(《Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image》),star 还更多,这也属于意外收获。
我在本科就发了不少文章,基本上把 AI 所有相关方向全做了一遍,除了基础模型,还做过各种各样的AI 小工具,比如在2019年做过自动生成一套手机图标类的,2020年看到 NeRF 起来之后觉得 3D 很有意思,本科时候就带着实验室的学长学姐一起做 3D 生成、3D 重建和 3D 编辑相关的研究。现在和雅婷一起做 Unique3D 到4D 的一整套生成工具集,发现效率比之前更高。很多 idea 都是从雅婷那里获得的,相当于她负责天马行空,我负责落地写成算法。比如雅婷当时觉得正视图一定要对上,颜色要完全一样,对应的各种边缘接缝也不能太突兀。我就想如果用传统的基于损失函数(编者注:用于指导网格优化过程,以确保生成的3D网格与输入图像在视觉和几何上具有高度一致性)的迭代优化,可能要好几分钟才能逐渐逼近我们的目标图像,但这样雅婷会嫌时间太长了。
张金:CEO 还挺高压的。
吴凯路:我平常习惯写纯 AI 驱动的东西,但有时候在传统算法中直接算可以更快地准确算出结果。我就遍历一下模型上的每一个顶点,然后去算每个顶点应该是什么颜色。雅婷觉得边缘要平滑,如果是非数据驱动下要实现,要给每个视角再做个加权、平滑插值。但做完感觉好像效果还没有那么好,我就把平滑插值这个权重再调调,再做点额外的加权和调整,效果好多了。雅婷提了一个想法,我就得从各种算法的细节上进行调整修改。
April:我经常从三维本身的流程角度提一些想法,凯路的算法实现能力都非常快,我感觉我们每天都会有算法更新。而且凯路经常讲他为了实现能做几百种实验。他做那个损失函数的时候搜索了上千种组合,然后自动做了一个最好的策略。我们算法的人效确实很高。
张金:凯路,你对3D 领域的技术趋势怎么判断?
吴凯路:最早大家用基于 SDS(得分蒸馏采样,Score Distillation Sampling) 的这种方式来做生成,但本身由于方法问题,导致它和 Stable Diffusion 配合起来就算能生成相对好一点的结构,但颜色也经常过饱和,所以其实很难得到一个可商用的东西。而且 SDS 方法非常慢,就算优化得很好,基本上也要十几分钟的样子,很难完全让大家用起来。
后面大家开始探索不同的道路,完全抛开了 SDS,其实我现在觉得 SDS 带着大家走了条弯路,现在来看整个主流的 3D 生成都和 SDS 没有什么关系,相当于那时候积累下来的很多经验和方法,在现在 3D 生成上适用的不多,可能在多模态算法上会有一些作用,现在三维生成更偏向于类似重建的思路。
张金:其实分叉到了两条路上。
吴凯路:应该说原来那条路基本就不走了,大家回到最早的路线上了。
最早 NeRF 出来后,三维生成和三维重建其实是在走完全不同的两条路,重建这条路一直都走得很顺畅,大家也见到很多靠着重建技术做数字人,很多公司都做出来了,因为效果确实也很好做。
三维生成方面,最早大家沿着类似于 diffusion 的思路来做纯生成式的东西。但最近这一年,大家觉得要么走多视图重建,要么走 reconstruction model(重建模型), 这些路线会得到更好的效果,而且速度更快,最慢也是分钟级,快的话就是几秒钟。此外,在质量上,不再会有 SDS 过饱和的问题。方法也更加直观,可以更好提升它的各种表现能力。
张金:今天请 April 和凯路来聊天,是因为最近 AVAR 一个非常火的开源模型 Unique 3D 上线了,而且快速在 GitHub 获得了 2, 000 颗星。这个模型是用来做什么的?
April:Unique 3D 主要用来生产 3D 模型,简单理解,不管你扔给它什么图片,它都能在短短30秒内,给你变出一个跟原图一样精细的3D模型。
3D 内容之前主要广泛用在像游戏、动画、影视以及电商领域,像是在电影中,我们会看到很多写实但其实现实中没有的东西,这些基本都是用 3D 的虚拟特效做的;游戏中更不用说了,可以去操作的那些角色,最终也都是在三维引擎中实时渲染的;动画领域用得更多,绘画风格的动漫,可能用的是“三渲二”的一些技术。
现在三维用在品牌电商领域也很多,基本上我们平时看到的那些广告片、商品图片,如果是那种比较精致的环境,基本上用的都是虚拟拍摄的方法,因为实拍总是会有一些很杂的光线,但用这种建模加虚拟渲染,会比较清晰或者有更风格化、创造性的呈现。
之前 3D 内容主要的问题就在于生产门槛很高,制作成本也非常高,比如之前在正常的三维流程中做一个 3D 模型,需要一周到一个月的时间。如果要搭整个的场景和动作渲染,一部三维电影制作周期一般就需要两年以上。就算渲染出来一部十秒到一分钟的广告片,可能也要做几个月到一个季度。我们之前做一个雕塑的模型,一个雕刻师得雕几周,但通过 Unique 3D,可以在 30 秒内就直接把一张图片生成 3D 模型,在效率上有很大的颠覆。
张金:作为普通内容消费者,我们接触 3D 类的电商图片挺频繁的。但 3D 电影相对数量比较少,因为制作成本非常高昂,制作时间也非常长。如果咱们的产品更成熟以后走入商业,尤其是 To 大 B 端的客户,也会让消费者接触到更优质、更广泛的 3D 内容。
April:现在三维内容的市场价格还是挺高的,因为它的制作成本就很高。像电影这个领域,有很多我们看不出来但现实中不常见的场景,看着像实拍,但基本上都是三维做的。而且三维风格也不受限,并不只是游戏或者动画里面那种卡通。现在的虚拟拍摄,也是我们产品日后想做更多的方向,尤其是 4D 的功能,让虚拟拍摄实现人人都可用。
吴凯路:Unique 3D 做出来之后,我们讨论过要不要开源。如果我们最终的目标是做 4D,那它开源也没啥关系。当时所有的开源 3D 模型,要么速度很慢,要么导出了一个看起来还行的视频,但导出成 Mesh 的结果就很差。有些基于 NeRF 和 SDF 的方式,能够导一个还可以的视频,但如果真的要用,那个 Mesh 基本没法用,真的非常丑。
张金:它再次编辑就会很难。
吴凯路:因为它导出的 Mesh 是那种非常像素感的东西,真要用的话,基本上就全要改。市面上效果稍微好点的产品,它的清晰度还没那么高。用户就觉得我明明传了张很清楚的图上去,但给我的还是一个糊糊的东西,要用的话还得重新再搞一遍。
我们当时觉得 Unique 3D 放出去,至少会优于其他开源模型,并且大家都可以线上免费用,应该能火。不出所料,Unique 3D 迅速在各个平台火起来了,在 Hugging Face 上我们上了周榜,直到现在还挂在所有 demo 的首页上。
我经常去看 Hugging Face 上的模型,它会显示有多少个人同时在跑,Unique 3D 基本上每分每秒都同时有六、七个人在跑,包括我们自己的后台也是。除了开源代码之外,我们还给大家提供了很多种使用方式。如果在外网,Hugging Face 会比较好用,在国内,我们还提供了一些 Gradio 网站的 demo,基本没有不排队的时候,后台服务器就没停过,使用量也非常多,甚至很多人自发给我们做 ComfyUI 的插件,大家觉得这个项目挺好,会帮我们修一点小 bug ,还帮我们写更明确的安装指南。
张金:咱们的产品还被 Gradio 在海外媒体上提名为“best image-to-3d model”(最佳图片生成3D模型)。April 当时怎么想到要做这样一个产品,技术、产品化的路径是怎样的?
April:Unique 3D 被大家说效果好,是因为我们确实实现了目前最高可用的精度,我们当时设计算法框架时就非常强调和输入的图像完全一致,比如从正面看是像素级的一致,从其他多个视角看,一致性也非常高,所以很多用户说这是写真级 3D。此外,它又具有很好的泛化性,比如你给它一个真人图像,它可以生成一个非常写实的虚拟头像;你给它一个手绘风格的,它也可以进行比较好的还原。现在很多用户会用 Midjourney 生成图,再进一步把 2D 的设计变成 3D 的,而用 Unique 3D 直接就可以图生 3D,这也让我们比较适合用于数字媒体、动画等等领域。
很多用户是 IP 设计师,之前他们可能就是交付一些三视图,但现在他直接把正视图输进来,就会生成一个 3D 模型,可以更全面地去预览设计。甚至还有做实物电商的,他们也会把电商的设计图输进去,得到一个商品。
张金:现在已经有初步的商用了。
April:对,这些内容是挺适合商用的。IP 设计、动画以及电商渲染都是商用性很强的场景,也比较好做 3D 商业化的内容,甚至很多博主会直接在新媒体平台上接一些商业化的项目。
我自己使用 Unique 3D 的时候也常觉得惊艳,比如它把图像升级成三维,或者卡设计图方面做得非常好。我之前做 3D 模型找建模师,他们做的一个事情叫卡图,就是在建 3D 模型时会把 2D 参考图放在后面,然后一笔一笔卡,保证模型和设计图一致,但其实再怎么卡,都有点不那么一致。但我反而发现 AI 在这点上完全超越人类建模师。我自己会熟练地用那些建模的软件,但用过 Unique 3D,感觉自己之前都白做了。
张金:用户的消费门槛、使用的场景,其实都是拓宽了。
April:我们之所以会直接开源这一版算法,也是希望先有更多用户可以用起来。我们还是想找一些 3D 的新场景,比如像 4D 动画,所以还不如拿开源的影响力去做社群,或者进一步的应用场景。
张金:咱们团队首先提出了 ISOMER 算法,直接基于 Mesh 进行 3D 重建,凯路能给我们具体讲讲这个算法的技术难度和壁垒吗?
吴凯路:按照现有的方法,大多数人都是选择先重建一个比如符号距离场(Signed Distance Field,SDF) ,或者别的比较好优化的东西,然后再提取 Mesh,但这是非常困难的,这么多年都没有做到非常好的效果。所以,我们如果要生成一个非常好的 Mesh,肯定不能走这条路,因为一定会被限制住。
只有 Mesh 才能导入到 Blender 或者各种制作软件里,才能够真正落到商用,那我们就不如就直接重建 Mesh,把这个几何的结构给它重建起来。最早有一些尝试,为什么没有做出来呢?这种办法最大的困难在于基于点面的面积是一个高度抽象的东西,对它进行可微优化(differentiable optimization)是很难调好的事儿,需要设计各种各样的方式去做限制,整个优化过程并不像用 SDF、NeRF 和 3D 高斯那样直观。
但其实,我们只需要去最小化 loss,然后去做梯度(gradients)、传播(propagation),就能把这个东西给求出来。你要想清楚 Mesh 优化的每一步中,它的每一个 loss 的最终影响会是什么样,不能无脑写一些损失函数,然后让它去最小化损失函数,要在大脑里模拟这东西到底梯度回传(gradient backpropagation,可微分优化过程的一部分,在训练和优化深度学习模型时发挥着关键作用)之后,它对于每个点、每个面、梯度大概会是什么样的作用?Mesh 会如何形变?比如我们之前就会有很多调得没有那么好的版本,有各种各样的问题。我就会去思考问题到底是怎么产生的?
过程中,我们确实发现一些非常直观的损失函数,它很难达成我们期望的效果,看起来很对,但仔细想想它是梯度修造(gradient crafting)出来的东西,并不能帮你完成 3D 重建,反而可能会破坏你的重建结果。我们大概搜了上千个组合之后,得到十几个相对好的组合,接着在不同情况下测试之后,又选择其中一些相对合理以及效果也比较好的组合,作为我们最终优化迭代的目标。
张金:凯路在聊技术强项的时候眼里都发光了,AVAR 的员工一直非常精炼,团队如何协作?尤其在攻克一些技术难题的时候,大公司会调用一整个团队,你们如何解决呢?
April:现在 3D 和 4D 的研究方向都非常新,很多研究员可能还是在读的博士生,我们会直接和他们合作。我们接下来会做更多模态的算法,会结合 3D 视频图形学的能力,然后在下一阶段根据这些多模态的需求扩一些团队。但现在我们合作的研究员以及一些像 CG 的艺术家比较多,因为发现很多AI 公司可能也不需要那么多 in-house 的设计人员或者运营人员,我们反而会直接和艺术家或者设计方向的博主合作。
张金:距离 April 创业已经有一年半左右了,你作为一个 00 后的老板,在管理或者组织能力上有什么变化吗?
April:因为我的能力还比较全栈,所以最早开始创业的时候很多事情我都会先自己做。在创业初始阶段,我发现招聘一个人,大家如果只是劳动力性质的合作,很难产生真正创业上的合作效益。但最近公司的全职团队,或者是我们深度合作的一些研究员和艺术家,能明显感觉到大家比较互补,工作对彼此都很有价值,有 1 + 1 大于 2 的感觉。只有和每个工作伙伴建立这种关系,大家的合作才会比较长期。
我自己比较大的变化,最早更多是从偏个人的创造利益出发,想去做什么产品,中间经历了元宇宙比较火的时候,可能比较容易跟着市场的变化做调整。但我们现在找到一个道路——既在市场中有明确价值,又是团队和市场需求,以及能跟新的趋势相契合。
张金:April 和凯路都是技术派,你们会有一些路线之争或者分歧吗?
April:倒不会有严格的分歧,但确实对于技术有完全不同的视角。凯路对 AI 非常熟悉,包括像 NeRF,但他最早了解 3D 是从神经渲染(Neural Rendering,是指使用深度学习模型来生成图像的过程,这些模型能够学习场景的表示并从不同的视角渲染出新的图像)来的,我了解 3D 是从经典图形学以及怎么实际应用来的。所以,我经常想出来的一些 idea 需要和 AI 算法结合,这样会 work 得更好。
吴凯路:我们各有所长。比如 April 知道该如何去建模,非常明确逐步的解决路径是怎样的,而我更多是一种纯 AI 的思维,更多是一种数据驱动,我们会结合经典图形学的算法,或者建模师经典会用的操作。
张金:现在海外的 3D 生成,包括你们未来要做的 4D 生成,已经有一些公司崭露头角了,你们心中有对标吗?
吴凯路:目前我们并没有看到国内或者海外任何一家能够做到纯 AI 的动画生成,AI 3D 建模到 AI 动作,再到 AI 渲染。既然都没有人做,为什么不做全球呢?反正代码都是写一套,可以多卖几个市场。
April:在 AI 行业,游戏定位、 4D 级定位动画应该在全球都是比较新的,所以我们叫 Unique 3D。如果要对标,我们在做的就是用 AIGC 实现皮克斯。
张金:很浪漫的一个目标。
April:最早是皮克斯创始人提出了现在三维动画的算法,比如 Mesh 的曲面表示、材质贴图,但他们一开始直接卖图形学硬件或渲染软件并不赚钱。后来,他们用端到端的技术去生成内容,做动画的反响非常好,正是因为动画的成功,皮克斯后来被迪士尼收购。我们想做的事情也是技术结合艺术,皮克斯在图形学方面做得很好,拿了图灵奖,动画也拿了很多奥斯卡,说明 C 端对于动画,或者偏虚拟化、数字化的内容还是有需求的,而我们会在 AIGC 时代来做这个事情。
张金:所以像皮克斯这样大的动画内容公司,技术生成方案也可能会用到咱们的产品。
April:现在已经有一些做影视特效或者动画的上市公司和我们合作,他们可以导出三维模型,或者骨骼数据之类的。相当于在传统的工业环境里面降本增效,但这个市场不会很大。
所以我觉得不如直接做一个新的工作流,相当于我们现在在做的这个产品在云端,就能自动实现整个 AI 动画的流程。之前有很多 C 端的创作者不做动画,是因为自己人工做动画的成本太高了。这是一个 general 的需求,只要能真的用 AI 端实现,其实就可以扩展出很多新的应用场景,或者大家一起创造出很多新的内容。
张金:所以用新的工作流的可能是一些新公司,它们有非常好的故事创意 idea,但制作能力没那么强,就可以用咱们的产品去更好地展示出自己的内容。
April:或者就是一些个人创作者、几个朋友一起做的 studio ,现在不只是内容制作,内容分发也完全换了形式。像皮克斯因为是第一个能做动画长片的,那时候走的还是院线影视的路线,但现在很多设计师、创作师都想在新媒体创作,他们更需要把自己的作品变成一个动态的内容,这样才会有更好的曝光。包括很多人想做自己的IP,会有类似于原创角色的需求,他们可能已经不满足于只是去看一些影视作品里才有的角色。
张金:咱们的场景和消费者都非常有想象力,因为这是一套全新的制作方式,也是一个全新的分发展示的平台。
April:我觉得好处是可以在 C 端规模化,我们的用户大概分四个阶段:首先是本来就会 3D 的艺术家,用户量大概数百万;下一阶段是数字媒体的创作者,比如他需要更新短视频、发动画,可能之前只是一个 2D 设计师想升级到3D,这一类用户应该是有千万级,Midjourney 都已经有千万用户了,我们很多用户可能就是拿 Midjourney 生图、生模型、生动画;再往后就是类似于偏设计创作类的需求;再下一个,类似于 “Prosumer”(Producer(生产者)和Consumer(消费者)的结合体),会做那些同人创作原创角色的人,比如对喜欢的游戏动画类角色,他会自己再做二创、写故事,这个成本很高,甚至他们都会找人做 live2D 的动画。
张金:你提到的这些或者未来更多群体,是会做矩阵产品还是一体化产品来满足他们?
April:其实就是一个一体化的产品,交互会尽量端到端,比如用户输入脚本分镜,它就可以生成 3D 动画,因为每一个组件可以下载,你也可以再导回自己的工作流修改,它是兼容的,但我们也会给他直接提供一个新的工作流。
张金:现在 VR 或者 XR 发展非常迅速,咱们以后会在这些新的硬件里面有不一样的展示,或者提供给开发者专门的产品吗?你们在 Vision Pro 或者其他一些新的眼镜硬件产品里会做一些打板的内容吗?
April:这一类 3D 内容的好处就是做动画可以被渲染成视频,在新媒体上传播,同时它也相当于空间视频,或者有三维原生数据,可以兼容到下一代的 Vision Pro 里。前几天我体验了迪士尼在 Vision Pro 里的一个应用,把部分经典的 IP 动画做成三维原生版,完全是一个空间视频,某个角色可能突然跳到你面前跟你说话,这确实是下一代的内容。
我们还是会关注内容本身,不完全局限在哪个平台。我们现在的格式,可以导出成 3D 原生,也可以渲染,但主要还是先让创作者来用。
张金:接下来关于 3D 生成产品,包括未来 4D 的发展,在技术路线或产品系列上,怎么考虑 ChatGPT 呢?
April:产品系列上,我们会把算法做得更多模态一点,比如上了 3D 生成、360 度的全景生成,其实还可以让生成的模型进入全景中,做组合式的渲染。接下来我们主要还会给 3D 的模型加时间轴,让它们可以生成动画。此外,我们也会基于骨骼动画生成,直接训一些顶点动画(vertex animation,指的是通过改变3D模型顶点的位置来实现动画效果的过程)的方案,通过 AI 增强画质,保证渲染的质量。
张金:接下来还有哪些需要团队攻克的技术难点?
April:还是 4D 方面,要同时把泛化性和运动的精度都做好,是接下来一个重点挑战。现在如果我们只做人物类型或者近似人的动画,其实已经可以生成比较好的骨骼动画,但如果想要保证泛化性,就是任意一个物体我们都可以做动画,需要有更泛化的数据,包括可能在算法层面要创新。
吴凯路:从技术上讲,最难的反而是物体和物体的交互,相当于生成了一只猫、一条狗,但怎么生成猫和狗在打架。现在我们其实已经收集了几十万的数据,训练了一个初步的模型出来,可以做简单点的交互,比如这个人物能拿个瓶子、能走能坐,等到简单版能用之后就可以上线,用户使用时会把一些生成不合理的东西给踢掉,这样我们就可以进一步累积数据,因为 4D 动画数据是非常少的,获取难度也很高,所以我们还是会更倾向于从一些动画数据中去还原,因为动画数据运动和几何结构都更加明确,有助于机器学习模型学到相对合理的初始知识。
因为本质上机器学习模型是数据驱动的,模型会自己试图在数据里寻找一些知识,如果是拿动画数据去训练,它能够非常清楚知道哪个东西在怎么动,从而学到一些更加正确的概念。
张金:3D 尤其 4D 更缺数据集,你提到用动画数据还原,你们有一些相对独有的训练数据获取渠道吗?
吴凯路:因为我们之前有做一些搭建,自动化渲染管线、基于程序建模的动画生成管线也都有,所以能在一定程度上弥补数据的不足。其实比起 3D,我们觉得 4D 数据可能需求量反而没那么大。因为 4D 核心关注物体怎么动,比如不同的猫、狗,它的动法基本一样,但不同的猫、狗,要把它画出来,颜色、建模出来的形态是有很大差别的,但在运动规律上是高度相同的。从这个角度来看,4D 数据其实不一定要那么多,就能得到一个相对不错的效果就行。
April:或者说感觉不同算法需要的数据也挺不一样的。如果结合一些视频视觉的模型去做,可能它就会有一些泛化性。如果你训的是类似于骨骼这个模态,就像人体的骨骼也就那么多关节点,它其实对数据的需求也没有那么大,就看你用哪种算法。
张金:我们生成的3D、4D 内容,除了在一些 VR、XR 设备里,还会存在哪种形式的展现平台上呢?商业化可能会是怎样的?
April:我们现在关注的应用领域还是数字媒体,就是渲染成动画,或者作为视频,只是它比起 AI 视频,会有更好的角色、场景的一致性,以及可以渲染更长的视频的,让角色有比较精准可控的表达表演。像这一类场景,我们会更关注 2C 一点,只要让用户创作之后,都愿意继续分享到新媒体平台。
张金:有没有可能以后会有一个3D、 4D 的抖音?或者是专门承载这种新格式内容的平台?
April:我觉得是有机会的,但关键在于 MR 到来之前,你就已经有了一个很大的内容矩阵,这样可以迁移到下一代 MR 平台。其实现在各种 MR 设备都在找新的内容,如果这些内容既可以在新媒体互联网上积累流量,又可以在 MR 中有一个更好的呈现,我觉得是有机会的。但我自己觉得这个东西很难做,如果就是一个 2D 或者视频的内容,也很难在MR 那边形成一个新平台。
张金:那你觉得时间可能会是多久呢?
April:我们现在想做的 AI 生成动画 IP 这个事情,其实这几年就会比较 ready。比如今年的目标,至少会生成口播视频和那种单角色的动画视频,这两个肯定是可以落地的,并且只要做了,在新媒体平台,无论创作者还是消费者,都会有一个很好的数据反馈,我们会先积累这一部分,接下来就是看 MR 的成熟。我自己用 Vision Pro 的体验确实比之前的要好,漫威、迪士尼也是主打多元宇宙的概念,你在里面可以和各类超级英雄的 IP 互动,确实还挺下一代的。
张金:所以这个“ChatGPT 时刻”可能会很快到来。
April:反正会比预想的快,就像我们2023年在做 3D 生成的时候,大家都觉得可能还要三五年你的这个精度才可用,但现在要单说模型的效果质量,我觉得其实已经可商用了。只是3D 领域还是要扩展一些应用场景,现在的问题是你不能直接给别人分享一个 3D 文件,对方收到也打不开。所以我们很关注它是否能被渲染成动画,因为这样才可以分享和传播。
张金:哪些挑战是没有办法在这一两年内解决的呢?
April:首先是 4D 更泛化性和更高精度的生成,还有就是 3D 的多模态之间的交互。这两个领域包括学术上也都还算是在探索。
张金:目前大家都在摸索,没有一个 Benchmark 去做成效的对比,那在研究的过程中,你们怎么去看自己的进度是否是领先的?或者路线有没有出现偏差?
吴凯路:目前整个 3D 和 4D 生成领域,更多是偏相对主观的评价,说白了拿着你的模型的效果和别人模型效果测一下,其实你自己心里就有数了。虽然在论文上大家会用很多非常客观的指标,但其实可能指标上领先一些,看起来使用起来感受却不一样。我们能直接接触到很多 3D 或者动画的设计师,他们能给出很好的评价,还是要更多贴近真正的使用者,让他们来评判好不好。
张金:那就需要你们跟这些创作者,算是小 B 端经常去做沟通和测试。
吴凯路:所以我觉得雅婷能组好这样一个团队非常重要,因为里面有做 4D 动画非常厉害的创作者,我们基本每周会线下沟通一次,看看他们的想法和建议。
张金:在 3D 和 4D 生成领域,AVAR 作为中国头部的团队,和海外,尤其美国顶尖的学者团队会存在一定的差距吗?还是说大家其实现在是在同一条起跑线上?
吴凯路:整体来讲差不多,而且最近一年,在学术领域,很多更重要的工作基本都是国内的学校在发文章,海外反而缺少一些创新性,竟然还有人在做 SDS。国内公司反而能让大家眼前一亮。
张金:海外为什么反而会落后一些呢?
April:我们今天还和一个投资人在聊,总结下来就是很多 AI 大模型的方向,总体还是算力驱动,或者是偏算力大于数据、大于算法,就导致这种方向可能美国会更有优势。但 3D 方向,现在完全是算法大于数据、大于算力。其实很多学术上的创新工作也是华人在提出,就像当时算法竞赛的时候,可能中国队的成绩都会比美国队好。像算法尤其是我们做这种偏图形学的多模态,包括偏工程上的事情,华人可能会更强。
吴凯路:确实是这样,全球算法竞赛,基本上就是中国队可能包揽前四,接着后面就是美国队,然后美国队清一色讲中文,都是华裔。
张金:所以在算法才能上,中国团队其实是非常占优势的,人才密度也非常集中。
咱们会考虑在海外设立一个分公司吗?因为刚刚提到海外有非常多的创作者需要我们的产品,可能那边也需要运营的团队去满足他们的一些需求。
April:我们现在定位是 global 的,目前我们海外用户也比国内用户多一点。中国团队可能运营能力更强一点,最终做内容,其实也挺拼运营能力的。我们现在也会把一些特效的流程自动化,在 TikTok 和 Snapchat 中都有 AR 特效,我看到过一个分析认为 TikTok 的运营能力比 Snapchat 要强很多,所以特效内容可能华人背景的团队也可以做得更好。
张金:你们在分析这些用户的需求上会发现什么有意思的吗?
April:确实在后台发现很多角色二创的,也有传自己的真人照片、设计的 IP,我们现在会更关注偏原创角色或者 IP 设计的场景,因为这一类模型,比起做游戏道具或普通的静态模型,IP 属性的模型接下来会更有创造力和生命力。和这一类用户聊时发现,他们也会希望他的角色能进一步做成动画,觉得这是比较有生命力的一种存在。我们接下来也会更关注这个场景的一些创作。
张金:我听到有用户把咱们比作中国的“Luma AI”。
April:我感觉 Luma AI 和我们都是基于 3D 的算法在做,它们可能会更偏 3D 高斯,最终导出视频的模态,这样比较容易扩用户场景,这个思路是比较一致的。但不同的是,它们是基于 3D 高斯表示的,3D 高斯在还原一些真实场景可能会占优一点。我们是基于 Mesh 表示的,更多地结合一些图形学动画的工作流,所以我们角色的可控性和可编辑性会更强,更适合风格化创作的场景。
张金:大家走不同路线,它们可能是美国的“AVAR”。未来你们希望做成一家什么样的公司?
April:我希望是“年轻版皮克斯”,能用 AI 实现 4D 动画,或者是 AI 让每个人都能像皮克斯一样去创作这些 IP 和动画,这对我们来说已经是一件很宏大的事情了。当初皮克斯要完全用计算机做整个电影的时候,他们虽然觉得这是一个十年的命题,但依然要完成。我们要用 AI 重塑整个流程,可能也需要这样一个时间。
张金:我们起步早,毕竟都是 00 后团队,十年后也才 30 来岁。
吴凯路:我说点更实在的,希望三年后我们的用户量能够突破 300 万,毕竟视频受众广泛,自媒体用户也非常多,这个目标应该还算保守。同时也希望进一步推动大家能比较轻松、便捷地创造动画的内容,进而训练出一些关于空间智能的模型,能有助于机器人的发展。
张金:我明白了为什么你们搭配得那么好,因为 CEO 负责说公司愿景,CTO 负责说技术目标,非常互补。对 AI 生成非常感兴趣的听众,如何使用你们的产品呢?
April:可以直接在浏览器输入域名(https://aiuni.ai),目前还在内测,登录进去有我们各种社群的联系方式。小红书也有很多活跃用户和社群。
张金:今天的播客「牛白丁」录制就到这里,谢谢 April 和凯路来做客。如果听众朋友们对AVAR 有任何兴趣,或者有想进一步了解的话题,也可以反馈给华创。
谢谢大家。