
在阅读此文之前,辛苦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持!
声明:本文内容均是根据权威材料,结合个人观点撰写的原创内容,辛苦各位看官支持。
文丨读瑶
编辑丨栀刊
最近AI圈有个挺炸的消息,谷歌DeepMind和苹果这两家巨头的前AI研究员凑一块儿创业了,新公司叫Elorian,一上来就搞到5000万美元种子轮融资。
这年头AI初创公司不少,但种子轮能拿到这个数的,确实得让人多看两眼。
这俩人一个是在DeepMind干了14年的戴明博,一个是苹果出来的视觉专家杨寅飞,他们想做的"视觉推理模型",据说要让AI真正"看懂"物理世界,听着倒是挺玄乎。
双雄联手:从DeepMind到苹果,20年技术积累的创业底气

先说说这两位创始人,戴明博在DeepMind可是实打实的元老,从剑桥本科读到爱丁堡博士,20年都扑在深度学习上。
他在谷歌大脑时期搞过自然语言处理模型,后来又去谷歌健康弄电子病历分析,最后在DeepMind负责Gemini模型的数据质量评估。
AI模型就像厨师做菜,数据就是原材料,能把数据质量体系搭起来的人,技术功底肯定差不了。
更有意思的是他爹戴建生,南方科技大学机器人研究院院长,国际机构学权威,家族四代都是搞学术的,这学术基因确实够强大。

另一位杨寅飞的经历也挺传奇,早年间在南京邮电大学Echo实验室就鼓捣机器人,2009年带着自己做的Apollo3D机器人拿了苏州机器人世界杯第五名。
后来跨界搞过癫痫诊断的MRI图像系统,还在谷歌深耕过语义检索,苹果时期又专研视觉-语言模型。
这种横跨产学研的经历,怕是最有体会多模态技术的痛点在哪。
本来以为搞AI的都是闷头写代码的书呆子,看这俩人的履历,倒像是把学术和工程玩明白了的实干派。

视觉推理:AI交互的下一个"卡脖子"难题?
他们这次瞄准的"视觉推理",说白了就是让AI同时处理文本、图像、视频、音频这些不同类型的数据,而且要能理解其中的逻辑关系。
现在的多模态模型虽然能看图说话,但让它指挥机器人拧个瓶盖、识别工厂流水线的瑕疵,就容易抓瞎。
Elorian想做的端到端系统,就是要解决这个"最后一公里"的问题,不用开发者自己拼接好几个模型,直接给机器人一套完整的"感知大脑"。

行业里其实早就盯上这块肥肉了,Gartner报告说多模态模型市场三年要涨470%,谷歌Gemini、GPT-4V、Claude3都已经抢跑。
但现有技术有个大麻烦,不同模态数据捏合到一起时效率特别低,就像用胶水硬把木头和塑料粘起来,看着像回事,一碰就散架。
戴明博的预训练数据经验加上杨寅飞的视觉-语言融合技术,说不定真能在这儿撕开个口子。
不过话说回来,创业哪有那么容易。

Striker这家投资机构刚成立半年就敢砸5000万,肯定是赌他们18-24个月内能拿出真东西。
但巨头们也不是吃素的,DeepMind自己就在搞机器人感知,特斯拉Optimus团队更是财大气粗。
更何况AI这行当,人才和数据都是硬通货,小公司想从巨头嘴里抢食,怕是得有点真本事。
现在Elorian还躲在"隐形模式"里,具体技术细节没怎么往外露。

但从这俩人的背景和融资规模来看,他们想做的肯定不是小打小闹的应用层创新。
AI行业从去年就开始从"拼应用"转向"啃硬骨头",多模态视觉推理正好踩在这个风口上。
至于能不能成,还得看他们能不能把论文里的算法真正变成能用的产品。
毕竟学术圈和创业圈是两码事,戴明博和杨寅飞这对"双引擎",能不能把20年的技术积累转化成市场竞争力,才是接下来最让人好奇的地方。
[免责声明]文章的时间、过程、图片均来自于网络,文章旨在传播正能量,均无低俗等不良引导,请观众勿对号入座,并上升到人身攻击等方面。观众理性看待本事件,切勿留下主观臆断的恶意评论,互联网不是法外之地。本文如若真实性存在争议、事件版权或图片侵权问题,请及时联系作者,我们将予以删除。
亿配资提示:文章来自网络,不代表本站观点。