“自动驾驶和图生视频从技术复用角度,互相搭不上”,“在市面上开源模型的基础上,收集一些数据,做视频模型门槛不高”,针对图森未来12月17日发布图生视频大模型Ruyi一事,自动驾驶和视频模型公司技术人员分别向北京商报记者表示。8月官宣进入生成式AI应用领域时,“自动驾驶第一股”图森未来的战略转型就曾引发争议,当下模型上线,不少业内人士依然有疑惑。对此,记者和图森未来工程高级副总裁李海泉聊了聊这款大模型背后的故事。
4个月
12月17日,图森未来正式发布图生视频大模型Ruyi,并将Ruyi-Mini-7B版本正式开源,用户可以从huggingface上下载使用。这是图森未来正式发布的第一款“图生视频”模型,也是图森未来进入生成式AI应用赛道,推出的第一款产品。
“我们是从8月开始做的,12月初训练进入尾声,后期跟其他模型做了比较,在内部做了很多测试,才选择现在发布出来。”谈到12月上线有无特别考量时,李海泉告诉北京商报记者。
外界获悉图森未来要跨界也是在8月,准确来说是8月15日。当天,图森未来宣布,与上海三体动漫有限公司达成合作,共同开发《三体》系列的动画长篇电影和视频游戏。图森未来借此宣布,正式进入生成式AI应用领域,甚至具体到正式进军动画与视频游戏市场。
从8月到12月,对于图森未来而言,4个月是做一款视频大模型最短的时间吗?
“对。这可能是对我们来说最短的时间了。”但李海泉也承认,因为牵涉到可以调动的资源,如何高效地调动资源,4个月并不是行业最短时间。
回到Ruyi,“它对有一定技术背景的个人小团体和公司会很友好,我们并没有上线一个网址或App。如果用户没有高性能的显卡,玩Ruyi是很难的”。李海泉介绍了Ruyi面向的用户群,他向北京商报记者“安利”:“我们不需要写提示词,把图片拽上去就可以。”
搭不上?能复用?
从流程上看,Ruyi和市面上其他的图生视频模型的差异不大。
按照图森未来的官方说法,Ruyi需要用户提供一张图片作为输入,并可以选择输出时长、输出分辨率、运动幅度和镜头移动方向等选项,Ruyi会根据输入的图像输出一个不超过5秒的视频。
图森未来相关人士在和开发者沟通时表示,“我们内部对比过,我们的主要特点一个是做动漫更好,一个是我们是24fps(每秒播放24帧画面)的,动作更丝滑”。
不过图森未来也承认,Ruyi目前仍然存在手部畸形、多人时面部细节崩坏、不可控转场等问题,公司正在改进这些缺点,在日后的更新中对它们进行修复。
另一个业内人士的关注点是自动驾驶和视频模型有什么关联?“从技术复用角度,互相搭不上。”一位自动驾驶从业者向北京商报记者表示。
一家视频模型公司CTO告诉北京商报记者,“准确说,视频模型和自动驾驶在技术上,或者经验复用上没啥关系,图森未来之所以能做,可能是基于市面上开源模型,收集了一些数据,门槛不高”。
对此,李海泉持不同意见。站在自动驾驶的角度,他认为,“自动驾驶领域的算法、规划控制这些肯定是没法用在视频模型上的,但是还是有很多东西可以复用的,比如模型设计、数据处理、基础工具类”。
关于基于开源模型,李海泉直言,“我们在设计上确实参考了很多开源方案的实现,不只图森未来会这样。我们一直关注大模型的发展,没必要关起门来”。
图什么
根据GIR调研,2023年全球文生视频大模型收入大约720万美元,预计2030年达到22.19亿美元,2024—2030年期间,CAGR(年复合增长率)有望达到56.6%。
数据很诱人,现实中视频生成的技术成熟度却还没有那么高,实现规模性商业化还需要时间。
在图森未来看来,最佳应用场景是孵化生成式AI工具的原动力。公司致力于利用大模型降低动漫和游戏内容的开发周期和开发成本。Ruyi大模型,已经可以实现输入关键帧后,生成之后5秒的内容,或输入两个关键帧,由模型生成中间的过渡内容,降低开发周期。这和图森未来想要入局的动画与视频游戏市场强相关。
不过,文渊智库创始人王超向北京商报记者表示,“我觉得图森未来是在赚吆喝,早期那些AI公司,在大模型这波是跟不上的”。
在和北京商报记者交流时,瑞达恒研究院经理王清霖认为,“从经营现状来看,图森未来的主营业务尚未展现出显著优势,且企业内部存在混乱。因此,图森未来亟须探索新业务领域,以开辟新的增长点。鉴于视图生成技术领域尚未形成清晰的市场格局,这为图森未来提供了尝试和突破的机会。不过,该领域的盈利能力尚待进一步验证和观察”。
一个插曲是:持续已久的图森未来内讧还不时被曝出新动态。近日有投资人士向媒体透露,即将于12月20日召开的图森未来股东大会正进行股东投票,届时将决定图森未来下一阶段的控制权。
李海泉12月17日向北京商报记者透露,“12月19日我们会把AIGC(人工智能生成内容)业务、其他业务和自动驾驶业务如何整合等,给大家讲清楚”。
(责任编辑:朱赫)