科技旋涡编辑部
就在全球华人喜迎除夕之时,DeepSeek又“偷偷”发布了新的视觉多模态模型Janus-Pro-7B!
在多个基准测试中,该模型击败了OpenAI的DALL-E 3以及Stable Diffusion。
最关键的是,它只有7B,这意味着即使是普通电脑也能运行,真可谓把低成本贯彻到底了。
有趣的是,就在不少人质疑DeepSeek-R1多模态能力不行的时候,DeepSeek直接就在美国时间甩出新模型狠狠打脸。
不出意外,英伟达的股价再次惨跌。
业界认为这是受到中国AI大模型DeepSeek人工智能模型冲击,导致美国芯片股集体下跌,英伟达受到最严重冲击。
虽然股价惨遭暴击,但英伟达仍夸赞DeepSeek的R1模型是出色的AI进步。
据媒体报道,英伟达发言人表示:“DeepSeek是一项出色的AI进步,也是Test Time Scaling的完美范例,DeepSeek的工作说明了如何使用该技术创建新模型,利用广泛可用的模型和完全符合出口管制的计算。”
英伟达还声称,它认为DeepSeek的突破将为英伟达带来更多需求。
此外,据报道,美国总统特朗普也发表了对DeepSeek的看法,中国公司开发出了比美国更快、更便宜的人工智能模型是件好事。“如果这是真的,那很好,我认为这是一个非常积极的发展。”
他直言:DeepSeek的崛起应当为美国企业敲响“警钟”,美国公司“需要专注于竞争以赢得胜利”。
开源多模态小模型,强到离谱?
DeepSeek多模态模型的名字叫Janus(雅努斯),在罗马神话是罗马人的门神,也是罗马人的保护神。同时,这也是英文一月的来源。
巧的是,该模型发布的时候刚好是中国人的除夕,刚好也有“贴门神”的习俗。
一家当前火遍科技圈的中国公司用这样一个名字震撼了华尔街,真实的商战果然十分朴实无华。
回到模型上,据官方介绍,Janus-Pro 是一个统一的理解和生成 MLLM,它将视觉编码解耦,以实现多模态理解和生成。
此外,该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建,使用 SigLIP-L 作为视觉编码器,支持384 x 384 图像输入。
重点就是这个独立视觉编码,即通过独立设计的理解编码器和生成编码器,显著减少生成和理解任务之间的冲突。
因此从相对于其他的模型,Janus-Pro的优势在于简单性、高度灵活性和有效性。说简单点,就是不需要什么条件,甚至用消费级GPU就能运行。
当然,毕竟是小模型,Janus-Pro虽然理解能力达标,但在图像生成能力上还是受到了分辨率的限制(384 x 384),这会对部分操作产生影响。
例如在生成人脸细节时,低分辨率以及画质损失就会被无限放大。
当然,作为一个完全开源的多模态模型,Janus-Pro再次为DeepSeek赚足了话题度。
做空英伟达?多只美股再次暴跌
就在Janus-Pro发布的同时,美股再次集体暴跌,包括英伟达、台积电、博通在内的多只美股都暴跌超过10%,且在收盘前还有下跌的空间。
简单来说,支撑英伟达高股价背后的核心逻辑还是AI的“高成本”,包括高算力、高端芯等等。
包括前不久特朗普上台后力推的星际之门计划,同样也是用烧钱的方式撑起一个夸张的AI基础设施体系,并且真实的花费可能远不止5000亿美元。
然而DeepSeek的做法,就是用轻量化证明了算力也可以低成本,这无疑直接打了这些美国科技公司的脸。
最直接的例子就是将AI与超大规模算力中心绑定的博通,这家靠着ASIC芯片低调赚钱的半导体公司,在这两天股价跌得比英伟达还离谱,可以想象投资者们看到DeepSeek的产品后,突然恍然大悟!
当然,我们也不能一味吹捧DeepSeek,无论是DeepSeek-R1还是Janus-Pro,缺陷还是存在的。
但当这家中国公司成为开源模型的代表“意外”戳破了美股的AI泡沫后,这些缺点都可以被忽略不计了。
往期推荐