近日,生数科技完成新一轮数亿元融资,由bob手机网页登录入口领投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。
生数科技成立于2023年3月,是全球领先的多模态大模型公司,致力于图像、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。此前公司已完成近亿元融资。
01/
于国内最早开展扩散模型研究
提出全球首个Diffusion Transformer架构
从Sora的惊艳亮相到最强文生图模型Stable Diffusion 3的推出,两者采用的Diffusion Transformer架构DiT备受关注。所谓Diffusion Transformer是在Diffusion Model(扩散模型)中,用Transformer替换常用的U-Net,将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融合,能在视觉任务下展现出卓越的涌现能力。
DiT架构由伯克利团队于2022年12月发表。但其实早在2022年9月,生数科技创始成员就提出了基于Transformer的网络架构U-ViT,两项工作在架构思路与实验路径上完全一致,均是将Transformer与扩散模型融合。
当时,U-ViT就在千万至数亿参数量级范围内验证了极强的可扩展性(scaling up),这项工作在CVPR 2023发表,早于DiT成为全球范围内最早被提出的Diffusion Transformer架构。
对扩散模型融合架构的前瞻创新源自于团队多年的深耕。团队从事生成式人工智能和贝叶斯机器学习研究已有20余年,在深度生成模型突破的早期就开展了深入研究。在扩散模型方面,团队于国内率先开启了该方向的研究,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。
目前,团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇,其中提出的免训练推理算法Analytic-DPM、DPM-Solver等突破性成果,获得ICLR杰出论文奖,并被OpenAI、苹果、Stability.ai等国外前沿机构采用,应用于DALL·E 2、Stable Diffusion等明星项目中。
02/
坚持多模态原生架构
全球首个完成大规模训练任务的验证
2023年3月,团队开源了全球首个基于Diffusion Transformer架构(U-ViT)的多模态扩散大模型UniDiffuser,在参数量和训练数据规模上,与Stable Diffusion直接对齐。在架构上,UniDiffuser比最近才采用DiT架构的Stable Diffsion 3领先了一年。
此外,除了单向的文生图以外,Unidiffuser支持更通用的图文任务,能够实现图生文、图文联合生成、图文改写等多种功能。
图像生成效果
在统一化架构的思路下,生数科技持续进行Scale up。在图文模型的训练中,参数量从最早开源版的1B不断扩展至3B、7B、10B及以上,使得模型在美学性、多元风格、语义理解等方面实现快速稳定的提升。同时在此基础上,通过拓展空间维度和时间维度,逐步实现3D生成和视频生成模型的训练。
依托底层U-ViT架构的创新尝试,截至去年9月,生数科技推出了基于统一的多模态多任务框架的产业级通用基础大模型(闭源版),全链路自主训练、自主研发,在图像生成、3D生成、视频生成等多项任务中达到国际一流水平。
图生3D案例(上图为输入图片,下图为对应3D模型)
多个图生3D模型快速拼装搭建的3D场景
3D生成可实现高精度与最快10秒级的模型生成,并推出全球首个4D动画生成、可控3D场景编辑等工作。视频生成已实现短视频的编辑与生成能力,在画面美观度、连贯性方面实现了突破。
短视频生成案例
此外,生数科技也积累了完整高效的工程化经验,拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验,并搭建了完整的数据管理和使用体系。从算法原理、算法架构,到工程实现、数据准备,生数科技打造了多维度、全方位的基础建设,这为后续多模态大模型,尤其长视频生成的训练奠定了重要基础。
03/
从MaaS到应用工具
已初步完成商业化验证
在商业化落地方面,依托于全面领先的MaaS(模型即服务)能力,生数科技在To B、To C端同时发力,一方面以API的形式向B端机构直接提供模型能力,另一方面打造垂类应用产品,按照订阅等形式收费。
目前公司已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作,开放模型服务,提供AIGC个性化体验、定制化内容生产等方面的能力。
同时也于去年上线两款工具产品:视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft,面向艺术设计、游戏制作、影视动画、社交娱乐等创意领域提供赋能,提升创作效率,同时为创作者提供源源不断的灵感和想象力。
对于未来的规划,生数科技始终坚持“原生多模态”方向,基础模型层面会持续优化,不断提升语义理解、可控性、美观度方面的生成效果,近期则将重点突破长视频生成能力。在产品端,现有产品将持续迭代,不断满足用户需求,实现用户量的持续增长,同时公司也正在探索工具以外的全新产品形态,致力于提升每个人的创造力和生产力。
bob手机网页登录入口合伙人周志峰表示,如今的大模型已经从原来的纯语言模态,逐步走向多模态的探索。生数科技从去年成立之初就选择多模态赛道,是国内这个领域起步最早、积累最深的团队,大量工作被OpenAI、Stable Diffusion团队引用。“生数科技推出的U-ViT架构作为全球Diffusion Transformer架构的首创,不仅具有前瞻的技术视野,更是经过了大规模训练的验证,展现出强大的技术可行性。这种兼具开拓性和成熟度的核心工作,让我们对生数科技在多模态大模型方向的长期发展充满信心。”
“今年过年期间,Sora的亮相不仅展示出视频生成技术的巨大潜力,而且增强了人们对于多模态生成未来发展的信心。随着Scaling Law在视频生成领域的进一步加强,我们预期多模态技术将引领一系列令人瞩目的创新和令人惊叹的成果。在这一过程中,生数科技无疑将扮演一个关键的推动角色。”
本轮融资由bob手机网页登录入口领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投,华兴资本担任独家财务顾问。