00后的创业命题：用 AIGC 打造“年轻版皮克斯”｜牛白丁_华创资本

邮箱 :news@@cgcvc.com

00后的创业命题：用 AIGC 打造“年轻版皮克斯”｜牛白丁

文章来源：发布日期：2024-07-12

欢迎来到「牛白丁」，在这里，你将听到来自华创资本和我们的朋友们，以投资人和创业者的第一视角，一起交流那些投资、创业、前沿科技、消费、生命科学等领域的洞察和趋势，回忆片段与瞬间，剖析认知和思考。

欢迎听友们关注「牛白丁」喜马拉雅、小宇宙、苹果播客、QQ音乐、豆瓣官方账号，与我们一起用耳朵感受「时常有趣、偶尔深刻」。

最近，AVAR 推出了新产品 Aiuni AI 的 3D 生成模型 Unique3D，无论扔给它什么图片，都能在短短30秒内生成和原图一样精细的 3D 模型。

Unique3D 一经上线就登上了 Huggingface 的热门模型排行榜，还被旗下官方工具Gradio 在海外媒体上提名为“best image-to-3d model”（最佳图片生成3D模型）。

背后的研发团队是来自清北的00后，创始人、CEO 胡雅婷和 CTO 吴凯路均是信息学竞赛保送生。AVAR 成立一年便拿到三轮融资，华创资本曾领投了 AVAR 的天使轮融资。

做一款爆火的开源 3D 模型，只是 AVAR 通向 4D 路上迈出的一小步，对这支年轻的团队而言，有着更宏大的目标和野心——成为“年轻版皮克斯”。这家传奇动画公司不仅获得十几座奥斯卡，还曾开发了用于三维模型并渲染成数字图像的渲染器，由此获得图灵奖，不仅改变了动画电影，还加快了好莱坞特效、视频游戏和虚拟现实领域的技术发展。

在艺术和技术上都能取得顶尖成就，是 AVAR 未来的愿景，他们希望用 AIGC 实现皮克斯的路径，让每个人有一天都能借助 AI 创作出自己的 IP 和动画。

您将在本期节目听到以下内容：

01:26 高配创业团队：清北00后天才技术少年

10:33 Unique3D为何爆火？普通用户该如何使用

21:40 Unique3D背后的技术难度和壁垒

26:26 00后老板如何管理团队

30:17 传奇动画公司皮克斯带来的启发

38:18 4D技术难的不是生成猫和狗，而是如何让它们“打架”

45:13 未来会有3D、4D的抖音吗？

49:55 中国队制霸全球算法竞赛

54:41 愿景：用AIGC打造“年轻版皮克斯”

嘉宾介绍：

April胡雅婷：AVAR创始人、CEO

Kailu Wu吴凯路：AVAR技术合伙人、CTO

主播：

张金：华创资本投资人

以下为节目内容，经过 CGCVC 编辑——

张金：大家好，这里是华创资本的播客节目「牛白丁」，我是张金。这期我们请到了老朋友华创派 AVAR 的 CEO April 和 CTO 吴凯路，来聊聊他们新推出的爆款产品 Aiuni 3D。

April：我是April，AVAR 的创始人。我们现在主要做的产品是 Aiuni AI，是 AI 生成 3D 模型和 4D 的动画，想用 AIGC 去生成无限的 CG 艺术。我自己在大学期间实习时曾在Google、阿里和字节做过算法工程师，也拿过信息学竞赛全国金牌及最佳女选手，毕业后一直在做 3D 方向的创业。

张金：说起来云淡风轻，但是信息学竞赛全国金牌是非常厉害的。凯路和 April 一样，是一个天才技术少年。

吴凯路：大家好，我是吴凯路，现在是 AVAR 的 CTO，主要负责所有的 AI 算法。我本科毕业于清华姚班，当初也是信息学竞赛保送的清华，现在依旧在清华大学交叉信息研究院读研，我接触 AI 很早，本科之前就在做相关内容。我在大一期间发了一篇 CVPR（世界顶级的三大计算机视觉会议之一），大二获得了一个百万美元悬赏比赛的银奖，为此还帮助一家创业公司拿到了几千万投资。

张金：太厉害了，所以你其实很早就一只脚踏进了创业圈。

吴凯路：本科入学之后，我就在打算创业。我的导师马恺声（清华大学交叉信息研究院助理教授）在创业方面也很有经验，给了我很多指导。我一想到了什么 idea，就会去问他，他会从商业方面给出判断意见。

比如我曾经花了一周时间做了一个小的量化系统进行炒股，系统其实很简单，每天买十支股票，第二天清仓，照这个策略算下来，大概有二点几到三的夏普率，虽然还比不上最顶级的量化基金，但也能和国内业绩相对比较好的一些基金持平。我当时是写着玩儿，没想到导师得知后，专门找了他做量化的朋友给我认识，他对潜在的创业机会还挺重视的。

张金：所以马老师也非常支持你创业。你怎么对 3D 生成感兴趣的？

吴凯路：对，我自己提了休学。其实马老师也不会强制要求我发 paper ，反倒是在 AVAR 工作期间发了 paper（《Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image》），star 还更多，这也属于意外收获。

我在本科就发了不少文章，基本上把 AI 所有相关方向全做了一遍，除了基础模型，还做过各种各样的AI 小工具，比如在2019年做过自动生成一套手机图标类的，2020年看到 NeRF 起来之后觉得 3D 很有意思，本科时候就带着实验室的学长学姐一起做 3D 生成、3D 重建和 3D 编辑相关的研究。现在和雅婷一起做 Unique3D 到4D 的一整套生成工具集，发现效率比之前更高。很多 idea 都是从雅婷那里获得的，相当于她负责天马行空，我负责落地写成算法。比如雅婷当时觉得正视图一定要对上，颜色要完全一样，对应的各种边缘接缝也不能太突兀。我就想如果用传统的基于损失函数（编者注：用于指导网格优化过程，以确保生成的3D网格与输入图像在视觉和几何上具有高度一致性）的迭代优化，可能要好几分钟才能逐渐逼近我们的目标图像，但这样雅婷会嫌时间太长了。

张金：CEO 还挺高压的。

吴凯路：我平常习惯写纯 AI 驱动的东西，但有时候在传统算法中直接算可以更快地准确算出结果。我就遍历一下模型上的每一个顶点，然后去算每个顶点应该是什么颜色。雅婷觉得边缘要平滑，如果是非数据驱动下要实现，要给每个视角再做个加权、平滑插值。但做完感觉好像效果还没有那么好，我就把平滑插值这个权重再调调，再做点额外的加权和调整，效果好多了。雅婷提了一个想法，我就得从各种算法的细节上进行调整修改。

April：我经常从三维本身的流程角度提一些想法，凯路的算法实现能力都非常快，我感觉我们每天都会有算法更新。而且凯路经常讲他为了实现能做几百种实验。他做那个损失函数的时候搜索了上千种组合，然后自动做了一个最好的策略。我们算法的人效确实很高。

张金：凯路，你对3D 领域的技术趋势怎么判断？

吴凯路：最早大家用基于 SDS（得分蒸馏采样，Score Distillation Sampling）的这种方式来做生成，但本身由于方法问题，导致它和 Stable Diffusion 配合起来就算能生成相对好一点的结构，但颜色也经常过饱和，所以其实很难得到一个可商用的东西。而且 SDS 方法非常慢，就算优化得很好，基本上也要十几分钟的样子，很难完全让大家用起来。

后面大家开始探索不同的道路，完全抛开了 SDS，其实我现在觉得 SDS 带着大家走了条弯路，现在来看整个主流的 3D 生成都和 SDS 没有什么关系，相当于那时候积累下来的很多经验和方法，在现在 3D 生成上适用的不多，可能在多模态算法上会有一些作用，现在三维生成更偏向于类似重建的思路。

张金：其实分叉到了两条路上。

吴凯路：应该说原来那条路基本就不走了，大家回到最早的路线上了。

最早 NeRF 出来后，三维生成和三维重建其实是在走完全不同的两条路，重建这条路一直都走得很顺畅，大家也见到很多靠着重建技术做数字人，很多公司都做出来了，因为效果确实也很好做。

三维生成方面，最早大家沿着类似于 diffusion 的思路来做纯生成式的东西。但最近这一年，大家觉得要么走多视图重建，要么走 reconstruction model（重建模型），这些路线会得到更好的效果，而且速度更快，最慢也是分钟级，快的话就是几秒钟。此外，在质量上，不再会有 SDS 过饱和的问题。方法也更加直观，可以更好提升它的各种表现能力。

张金：今天请 April 和凯路来聊天，是因为最近 AVAR 一个非常火的开源模型 Unique 3D 上线了，而且快速在 GitHub 获得了 2, 000 颗星。这个模型是用来做什么的？

April：Unique 3D 主要用来生产 3D 模型，简单理解，不管你扔给它什么图片，它都能在短短30秒内，给你变出一个跟原图一样精细的3D模型。

3D 内容之前主要广泛用在像游戏、动画、影视以及电商领域，像是在电影中，我们会看到很多写实但其实现实中没有的东西，这些基本都是用 3D 的虚拟特效做的；游戏中更不用说了，可以去操作的那些角色，最终也都是在三维引擎中实时渲染的；动画领域用得更多，绘画风格的动漫，可能用的是“三渲二”的一些技术。

现在三维用在品牌电商领域也很多，基本上我们平时看到的那些广告片、商品图片，如果是那种比较精致的环境，基本上用的都是虚拟拍摄的方法，因为实拍总是会有一些很杂的光线，但用这种建模加虚拟渲染，会比较清晰或者有更风格化、创造性的呈现。

之前 3D 内容主要的问题就在于生产门槛很高，制作成本也非常高，比如之前在正常的三维流程中做一个 3D 模型，需要一周到一个月的时间。如果要搭整个的场景和动作渲染，一部三维电影制作周期一般就需要两年以上。就算渲染出来一部十秒到一分钟的广告片，可能也要做几个月到一个季度。我们之前做一个雕塑的模型，一个雕刻师得雕几周，但通过 Unique 3D，可以在 30 秒内就直接把一张图片生成 3D 模型，在效率上有很大的颠覆。

张金：作为普通内容消费者，我们接触 3D 类的电商图片挺频繁的。但 3D 电影相对数量比较少，因为制作成本非常高昂，制作时间也非常长。如果咱们的产品更成熟以后走入商业，尤其是 To 大 B 端的客户，也会让消费者接触到更优质、更广泛的 3D 内容。

April：现在三维内容的市场价格还是挺高的，因为它的制作成本就很高。像电影这个领域，有很多我们看不出来但现实中不常见的场景，看着像实拍，但基本上都是三维做的。而且三维风格也不受限，并不只是游戏或者动画里面那种卡通。现在的虚拟拍摄，也是我们产品日后想做更多的方向，尤其是 4D 的功能，让虚拟拍摄实现人人都可用。

吴凯路：Unique 3D 做出来之后，我们讨论过要不要开源。如果我们最终的目标是做 4D，那它开源也没啥关系。当时所有的开源 3D 模型，要么速度很慢，要么导出了一个看起来还行的视频，但导出成 Mesh 的结果就很差。有些基于 NeRF 和 SDF 的方式，能够导一个还可以的视频，但如果真的要用，那个 Mesh 基本没法用，真的非常丑。

张金：它再次编辑就会很难。

吴凯路：因为它导出的 Mesh 是那种非常像素感的东西，真要用的话，基本上就全要改。市面上效果稍微好点的产品，它的清晰度还没那么高。用户就觉得我明明传了张很清楚的图上去，但给我的还是一个糊糊的东西，要用的话还得重新再搞一遍。

我们当时觉得 Unique 3D 放出去，至少会优于其他开源模型，并且大家都可以线上免费用，应该能火。不出所料，Unique 3D 迅速在各个平台火起来了，在 Hugging Face 上我们上了周榜，直到现在还挂在所有 demo 的首页上。

我经常去看 Hugging Face 上的模型，它会显示有多少个人同时在跑，Unique 3D 基本上每分每秒都同时有六、七个人在跑，包括我们自己的后台也是。除了开源代码之外，我们还给大家提供了很多种使用方式。如果在外网，Hugging Face 会比较好用，在国内，我们还提供了一些 Gradio 网站的 demo，基本没有不排队的时候，后台服务器就没停过，使用量也非常多，甚至很多人自发给我们做 ComfyUI 的插件，大家觉得这个项目挺好，会帮我们修一点小 bug ，还帮我们写更明确的安装指南。

张金：咱们的产品还被 Gradio 在海外媒体上提名为“best image-to-3d model”（最佳图片生成3D模型）。April 当时怎么想到要做这样一个产品，技术、产品化的路径是怎样的？

April：Unique 3D 被大家说效果好，是因为我们确实实现了目前最高可用的精度，我们当时设计算法框架时就非常强调和输入的图像完全一致，比如从正面看是像素级的一致，从其他多个视角看，一致性也非常高，所以很多用户说这是写真级 3D。此外，它又具有很好的泛化性，比如你给它一个真人图像，它可以生成一个非常写实的虚拟头像；你给它一个手绘风格的，它也可以进行比较好的还原。现在很多用户会用 Midjourney 生成图，再进一步把 2D 的设计变成 3D 的，而用 Unique 3D 直接就可以图生 3D，这也让我们比较适合用于数字媒体、动画等等领域。

很多用户是 IP 设计师，之前他们可能就是交付一些三视图，但现在他直接把正视图输进来，就会生成一个 3D 模型，可以更全面地去预览设计。甚至还有做实物电商的，他们也会把电商的设计图输进去，得到一个商品。

张金：现在已经有初步的商用了。

April：对，这些内容是挺适合商用的。IP 设计、动画以及电商渲染都是商用性很强的场景，也比较好做 3D 商业化的内容，甚至很多博主会直接在新媒体平台上接一些商业化的项目。

我自己使用 Unique 3D 的时候也常觉得惊艳，比如它把图像升级成三维，或者卡设计图方面做得非常好。我之前做 3D 模型找建模师，他们做的一个事情叫卡图，就是在建 3D 模型时会把 2D 参考图放在后面，然后一笔一笔卡，保证模型和设计图一致，但其实再怎么卡，都有点不那么一致。但我反而发现 AI 在这点上完全超越人类建模师。我自己会熟练地用那些建模的软件，但用过 Unique 3D，感觉自己之前都白做了。

张金：用户的消费门槛、使用的场景，其实都是拓宽了。

April：我们之所以会直接开源这一版算法，也是希望先有更多用户可以用起来。我们还是想找一些 3D 的新场景，比如像 4D 动画，所以还不如拿开源的影响力去做社群，或者进一步的应用场景。

张金：咱们团队首先提出了 ISOMER 算法，直接基于 Mesh 进行 3D 重建，凯路能给我们具体讲讲这个算法的技术难度和壁垒吗？

吴凯路：按照现有的方法，大多数人都是选择先重建一个比如符号距离场(Signed Distance Field，SDF) ，或者别的比较好优化的东西，然后再提取 Mesh，但这是非常困难的，这么多年都没有做到非常好的效果。所以，我们如果要生成一个非常好的 Mesh，肯定不能走这条路，因为一定会被限制住。

只有 Mesh 才能导入到 Blender 或者各种制作软件里，才能够真正落到商用，那我们就不如就直接重建 Mesh，把这个几何的结构给它重建起来。最早有一些尝试，为什么没有做出来呢？这种办法最大的困难在于基于点面的面积是一个高度抽象的东西，对它进行可微优化（differentiable optimization）是很难调好的事儿，需要设计各种各样的方式去做限制，整个优化过程并不像用 SDF、NeRF 和 3D 高斯那样直观。

但其实，我们只需要去最小化 loss，然后去做梯度（gradients）、传播（propagation），就能把这个东西给求出来。你要想清楚 Mesh 优化的每一步中，它的每一个 loss 的最终影响会是什么样，不能无脑写一些损失函数，然后让它去最小化损失函数，要在大脑里模拟这东西到底梯度回传（gradient backpropagation，可微分优化过程的一部分，在训练和优化深度学习模型时发挥着关键作用）之后，它对于每个点、每个面、梯度大概会是什么样的作用？Mesh 会如何形变？比如我们之前就会有很多调得没有那么好的版本，有各种各样的问题。我就会去思考问题到底是怎么产生的？

过程中，我们确实发现一些非常直观的损失函数，它很难达成我们期望的效果，看起来很对，但仔细想想它是梯度修造（gradient crafting）出来的东西，并不能帮你完成 3D 重建，反而可能会破坏你的重建结果。我们大概搜了上千个组合之后，得到十几个相对好的组合，接着在不同情况下测试之后，又选择其中一些相对合理以及效果也比较好的组合，作为我们最终优化迭代的目标。

张金：凯路在聊技术强项的时候眼里都发光了，AVAR 的员工一直非常精炼，团队如何协作？尤其在攻克一些技术难题的时候，大公司会调用一整个团队，你们如何解决呢？

April：现在 3D 和 4D 的研究方向都非常新，很多研究员可能还是在读的博士生，我们会直接和他们合作。我们接下来会做更多模态的算法，会结合 3D 视频图形学的能力，然后在下一阶段根据这些多模态的需求扩一些团队。但现在我们合作的研究员以及一些像 CG 的艺术家比较多，因为发现很多AI 公司可能也不需要那么多 in-house 的设计人员或者运营人员，我们反而会直接和艺术家或者设计方向的博主合作。

张金：距离 April 创业已经有一年半左右了，你作为一个 00 后的老板，在管理或者组织能力上有什么变化吗？

April：因为我的能力还比较全栈，所以最早开始创业的时候很多事情我都会先自己做。在创业初始阶段，我发现招聘一个人，大家如果只是劳动力性质的合作，很难产生真正创业上的合作效益。但最近公司的全职团队，或者是我们深度合作的一些研究员和艺术家，能明显感觉到大家比较互补，工作对彼此都很有价值，有 1 + 1 大于 2 的感觉。只有和每个工作伙伴建立这种关系，大家的合作才会比较长期。

我自己比较大的变化，最早更多是从偏个人的创造利益出发，想去做什么产品，中间经历了元宇宙比较火的时候，可能比较容易跟着市场的变化做调整。但我们现在找到一个道路——既在市场中有明确价值，又是团队和市场需求，以及能跟新的趋势相契合。

张金：April 和凯路都是技术派，你们会有一些路线之争或者分歧吗？

April：倒不会有严格的分歧，但确实对于技术有完全不同的视角。凯路对 AI 非常熟悉，包括像 NeRF，但他最早了解 3D 是从神经渲染（Neural Rendering，是指使用深度学习模型来生成图像的过程，这些模型能够学习场景的表示并从不同的视角渲染出新的图像）来的，我了解 3D 是从经典图形学以及怎么实际应用来的。所以，我经常想出来的一些 idea 需要和 AI 算法结合，这样会 work 得更好。

吴凯路：我们各有所长。比如 April 知道该如何去建模，非常明确逐步的解决路径是怎样的，而我更多是一种纯 AI 的思维，更多是一种数据驱动，我们会结合经典图形学的算法，或者建模师经典会用的操作。

张金：现在海外的 3D 生成，包括你们未来要做的 4D 生成，已经有一些公司崭露头角了，你们心中有对标吗？

吴凯路：目前我们并没有看到国内或者海外任何一家能够做到纯 AI 的动画生成，AI 3D 建模到 AI 动作，再到 AI 渲染。既然都没有人做，为什么不做全球呢？反正代码都是写一套，可以多卖几个市场。

April：在 AI 行业，游戏定位、 4D 级定位动画应该在全球都是比较新的，所以我们叫 Unique 3D。如果要对标，我们在做的就是用 AIGC 实现皮克斯。

张金：很浪漫的一个目标。

April：最早是皮克斯创始人提出了现在三维动画的算法，比如 Mesh 的曲面表示、材质贴图，但他们一开始直接卖图形学硬件或渲染软件并不赚钱。后来，他们用端到端的技术去生成内容，做动画的反响非常好，正是因为动画的成功，皮克斯后来被迪士尼收购。我们想做的事情也是技术结合艺术，皮克斯在图形学方面做得很好，拿了图灵奖，动画也拿了很多奥斯卡，说明 C 端对于动画，或者偏虚拟化、数字化的内容还是有需求的，而我们会在 AIGC 时代来做这个事情。

张金：所以像皮克斯这样大的动画内容公司，技术生成方案也可能会用到咱们的产品。

April：现在已经有一些做影视特效或者动画的上市公司和我们合作，他们可以导出三维模型，或者骨骼数据之类的。相当于在传统的工业环境里面降本增效，但这个市场不会很大。

所以我觉得不如直接做一个新的工作流，相当于我们现在在做的这个产品在云端，就能自动实现整个 AI 动画的流程。之前有很多 C 端的创作者不做动画，是因为自己人工做动画的成本太高了。这是一个 general 的需求，只要能真的用 AI 端实现，其实就可以扩展出很多新的应用场景，或者大家一起创造出很多新的内容。

张金：所以用新的工作流的可能是一些新公司，它们有非常好的故事创意 idea，但制作能力没那么强，就可以用咱们的产品去更好地展示出自己的内容。

April：或者就是一些个人创作者、几个朋友一起做的 studio ，现在不只是内容制作，内容分发也完全换了形式。像皮克斯因为是第一个能做动画长片的，那时候走的还是院线影视的路线，但现在很多设计师、创作师都想在新媒体创作，他们更需要把自己的作品变成一个动态的内容，这样才会有更好的曝光。包括很多人想做自己的IP，会有类似于原创角色的需求，他们可能已经不满足于只是去看一些影视作品里才有的角色。

张金：咱们的场景和消费者都非常有想象力，因为这是一套全新的制作方式，也是一个全新的分发展示的平台。

April：我觉得好处是可以在 C 端规模化，我们的用户大概分四个阶段：首先是本来就会 3D 的艺术家，用户量大概数百万；下一阶段是数字媒体的创作者，比如他需要更新短视频、发动画，可能之前只是一个 2D 设计师想升级到3D，这一类用户应该是有千万级，Midjourney 都已经有千万用户了，我们很多用户可能就是拿 Midjourney 生图、生模型、生动画；再往后就是类似于偏设计创作类的需求；再下一个，类似于 “Prosumer”（Producer（生产者）和Consumer（消费者）的结合体），会做那些同人创作原创角色的人，比如对喜欢的游戏动画类角色，他会自己再做二创、写故事，这个成本很高，甚至他们都会找人做 live2D 的动画。

张金：你提到的这些或者未来更多群体，是会做矩阵产品还是一体化产品来满足他们？

April：其实就是一个一体化的产品，交互会尽量端到端，比如用户输入脚本分镜，它就可以生成 3D 动画，因为每一个组件可以下载，你也可以再导回自己的工作流修改，它是兼容的，但我们也会给他直接提供一个新的工作流。

张金：现在 VR 或者 XR 发展非常迅速，咱们以后会在这些新的硬件里面有不一样的展示，或者提供给开发者专门的产品吗？你们在 Vision Pro 或者其他一些新的眼镜硬件产品里会做一些打板的内容吗？

April：这一类 3D 内容的好处就是做动画可以被渲染成视频，在新媒体上传播，同时它也相当于空间视频，或者有三维原生数据，可以兼容到下一代的 Vision Pro 里。前几天我体验了迪士尼在 Vision Pro 里的一个应用，把部分经典的 IP 动画做成三维原生版，完全是一个空间视频，某个角色可能突然跳到你面前跟你说话，这确实是下一代的内容。

我们还是会关注内容本身，不完全局限在哪个平台。我们现在的格式，可以导出成 3D 原生，也可以渲染，但主要还是先让创作者来用。

张金：接下来关于 3D 生成产品，包括未来 4D 的发展，在技术路线或产品系列上，怎么考虑 ChatGPT 呢？

April：产品系列上，我们会把算法做得更多模态一点，比如上了 3D 生成、360 度的全景生成，其实还可以让生成的模型进入全景中，做组合式的渲染。接下来我们主要还会给 3D 的模型加时间轴，让它们可以生成动画。此外，我们也会基于骨骼动画生成，直接训一些顶点动画（vertex animation，指的是通过改变3D模型顶点的位置来实现动画效果的过程）的方案，通过 AI 增强画质，保证渲染的质量。

张金：接下来还有哪些需要团队攻克的技术难点？

April：还是 4D 方面，要同时把泛化性和运动的精度都做好，是接下来一个重点挑战。现在如果我们只做人物类型或者近似人的动画，其实已经可以生成比较好的骨骼动画，但如果想要保证泛化性，就是任意一个物体我们都可以做动画，需要有更泛化的数据，包括可能在算法层面要创新。

吴凯路：从技术上讲，最难的反而是物体和物体的交互，相当于生成了一只猫、一条狗，但怎么生成猫和狗在打架。现在我们其实已经收集了几十万的数据，训练了一个初步的模型出来，可以做简单点的交互，比如这个人物能拿个瓶子、能走能坐，等到简单版能用之后就可以上线，用户使用时会把一些生成不合理的东西给踢掉，这样我们就可以进一步累积数据，因为 4D 动画数据是非常少的，获取难度也很高，所以我们还是会更倾向于从一些动画数据中去还原，因为动画数据运动和几何结构都更加明确，有助于机器学习模型学到相对合理的初始知识。

因为本质上机器学习模型是数据驱动的，模型会自己试图在数据里寻找一些知识，如果是拿动画数据去训练，它能够非常清楚知道哪个东西在怎么动，从而学到一些更加正确的概念。

张金：3D 尤其 4D 更缺数据集，你提到用动画数据还原，你们有一些相对独有的训练数据获取渠道吗？

吴凯路：因为我们之前有做一些搭建，自动化渲染管线、基于程序建模的动画生成管线也都有，所以能在一定程度上弥补数据的不足。其实比起 3D，我们觉得 4D 数据可能需求量反而没那么大。因为 4D 核心关注物体怎么动，比如不同的猫、狗，它的动法基本一样，但不同的猫、狗，要把它画出来，颜色、建模出来的形态是有很大差别的，但在运动规律上是高度相同的。从这个角度来看，4D 数据其实不一定要那么多，就能得到一个相对不错的效果就行。

April：或者说感觉不同算法需要的数据也挺不一样的。如果结合一些视频视觉的模型去做，可能它就会有一些泛化性。如果你训的是类似于骨骼这个模态，就像人体的骨骼也就那么多关节点，它其实对数据的需求也没有那么大，就看你用哪种算法。

张金：我们生成的3D、4D 内容，除了在一些 VR、XR 设备里，还会存在哪种形式的展现平台上呢？商业化可能会是怎样的？

April：我们现在关注的应用领域还是数字媒体，就是渲染成动画，或者作为视频，只是它比起 AI 视频，会有更好的角色、场景的一致性，以及可以渲染更长的视频的，让角色有比较精准可控的表达表演。像这一类场景，我们会更关注 2C 一点，只要让用户创作之后，都愿意继续分享到新媒体平台。

张金：有没有可能以后会有一个3D、 4D 的抖音？或者是专门承载这种新格式内容的平台？

April：我觉得是有机会的，但关键在于 MR 到来之前，你就已经有了一个很大的内容矩阵，这样可以迁移到下一代 MR 平台。其实现在各种 MR 设备都在找新的内容，如果这些内容既可以在新媒体互联网上积累流量，又可以在 MR 中有一个更好的呈现，我觉得是有机会的。但我自己觉得这个东西很难做，如果就是一个 2D 或者视频的内容，也很难在MR 那边形成一个新平台。

张金：那你觉得时间可能会是多久呢？

April：我们现在想做的 AI 生成动画 IP 这个事情，其实这几年就会比较 ready。比如今年的目标，至少会生成口播视频和那种单角色的动画视频，这两个肯定是可以落地的，并且只要做了，在新媒体平台，无论创作者还是消费者，都会有一个很好的数据反馈，我们会先积累这一部分，接下来就是看 MR 的成熟。我自己用 Vision Pro 的体验确实比之前的要好，漫威、迪士尼也是主打多元宇宙的概念，你在里面可以和各类超级英雄的 IP 互动，确实还挺下一代的。

张金：所以这个“ChatGPT 时刻”可能会很快到来。

April：反正会比预想的快，就像我们2023年在做 3D 生成的时候，大家都觉得可能还要三五年你的这个精度才可用，但现在要单说模型的效果质量，我觉得其实已经可商用了。只是3D 领域还是要扩展一些应用场景，现在的问题是你不能直接给别人分享一个 3D 文件，对方收到也打不开。所以我们很关注它是否能被渲染成动画，因为这样才可以分享和传播。

张金：哪些挑战是没有办法在这一两年内解决的呢？

April：首先是 4D 更泛化性和更高精度的生成，还有就是 3D 的多模态之间的交互。这两个领域包括学术上也都还算是在探索。

张金：目前大家都在摸索，没有一个 Benchmark 去做成效的对比，那在研究的过程中，你们怎么去看自己的进度是否是领先的？或者路线有没有出现偏差？

吴凯路：目前整个 3D 和 4D 生成领域，更多是偏相对主观的评价，说白了拿着你的模型的效果和别人模型效果测一下，其实你自己心里就有数了。虽然在论文上大家会用很多非常客观的指标，但其实可能指标上领先一些，看起来使用起来感受却不一样。我们能直接接触到很多 3D 或者动画的设计师，他们能给出很好的评价，还是要更多贴近真正的使用者，让他们来评判好不好。

张金：那就需要你们跟这些创作者，算是小 B 端经常去做沟通和测试。

吴凯路：所以我觉得雅婷能组好这样一个团队非常重要，因为里面有做 4D 动画非常厉害的创作者，我们基本每周会线下沟通一次，看看他们的想法和建议。

张金：在 3D 和 4D 生成领域，AVAR 作为中国头部的团队，和海外，尤其美国顶尖的学者团队会存在一定的差距吗？还是说大家其实现在是在同一条起跑线上？

吴凯路：整体来讲差不多，而且最近一年，在学术领域，很多更重要的工作基本都是国内的学校在发文章，海外反而缺少一些创新性，竟然还有人在做 SDS。国内公司反而能让大家眼前一亮。

张金：海外为什么反而会落后一些呢？

April：我们今天还和一个投资人在聊，总结下来就是很多 AI 大模型的方向，总体还是算力驱动，或者是偏算力大于数据、大于算法，就导致这种方向可能美国会更有优势。但 3D 方向，现在完全是算法大于数据、大于算力。其实很多学术上的创新工作也是华人在提出，就像当时算法竞赛的时候，可能中国队的成绩都会比美国队好。像算法尤其是我们做这种偏图形学的多模态，包括偏工程上的事情，华人可能会更强。

吴凯路：确实是这样，全球算法竞赛，基本上就是中国队可能包揽前四，接着后面就是美国队，然后美国队清一色讲中文，都是华裔。

张金：所以在算法才能上，中国团队其实是非常占优势的，人才密度也非常集中。

咱们会考虑在海外设立一个分公司吗？因为刚刚提到海外有非常多的创作者需要我们的产品，可能那边也需要运营的团队去满足他们的一些需求。

April：我们现在定位是 global 的，目前我们海外用户也比国内用户多一点。中国团队可能运营能力更强一点，最终做内容，其实也挺拼运营能力的。我们现在也会把一些特效的流程自动化，在 TikTok 和 Snapchat 中都有 AR 特效，我看到过一个分析认为 TikTok 的运营能力比 Snapchat 要强很多，所以特效内容可能华人背景的团队也可以做得更好。

张金：你们在分析这些用户的需求上会发现什么有意思的吗？

April：确实在后台发现很多角色二创的，也有传自己的真人照片、设计的 IP，我们现在会更关注偏原创角色或者 IP 设计的场景，因为这一类模型，比起做游戏道具或普通的静态模型，IP 属性的模型接下来会更有创造力和生命力。和这一类用户聊时发现，他们也会希望他的角色能进一步做成动画，觉得这是比较有生命力的一种存在。我们接下来也会更关注这个场景的一些创作。

张金：我听到有用户把咱们比作中国的“Luma AI”。

April：我感觉 Luma AI 和我们都是基于 3D 的算法在做，它们可能会更偏 3D 高斯，最终导出视频的模态，这样比较容易扩用户场景，这个思路是比较一致的。但不同的是，它们是基于 3D 高斯表示的，3D 高斯在还原一些真实场景可能会占优一点。我们是基于 Mesh 表示的，更多地结合一些图形学动画的工作流，所以我们角色的可控性和可编辑性会更强，更适合风格化创作的场景。

张金：大家走不同路线，它们可能是美国的“AVAR”。未来你们希望做成一家什么样的公司？

April：我希望是“年轻版皮克斯”，能用 AI 实现 4D 动画，或者是 AI 让每个人都能像皮克斯一样去创作这些 IP 和动画，这对我们来说已经是一件很宏大的事情了。当初皮克斯要完全用计算机做整个电影的时候，他们虽然觉得这是一个十年的命题，但依然要完成。我们要用 AI 重塑整个流程，可能也需要这样一个时间。

张金：我们起步早，毕竟都是 00 后团队，十年后也才 30 来岁。

吴凯路：我说点更实在的，希望三年后我们的用户量能够突破 300 万，毕竟视频受众广泛，自媒体用户也非常多，这个目标应该还算保守。同时也希望进一步推动大家能比较轻松、便捷地创造动画的内容，进而训练出一些关于空间智能的模型，能有助于机器人的发展。

张金：我明白了为什么你们搭配得那么好，因为 CEO 负责说公司愿景，CTO 负责说技术目标，非常互补。对 AI 生成非常感兴趣的听众，如何使用你们的产品呢？

April：可以直接在浏览器输入域名（https://aiuni.ai），目前还在内测，登录进去有我们各种社群的联系方式。小红书也有很多活跃用户和社群。

张金：今天的播客「牛白丁」录制就到这里，谢谢 April 和凯路来做客。如果听众朋友们对AVAR 有任何兴趣，或者有想进一步了解的话题，也可以反馈给华创。

谢谢大家。

分享到：