B12
-
PaliGemma 2 mix— 谷歌DeepMind推出的升级版视觉语言模型
谷歌deepmind发布了强大的多任务视觉语言模型:paligemma 2 mix。这款模型集图像描述、目标检测、图像分割、ocr和文档理解等多种功能于一身,并支持灵活的任务切换。它提供三种不同参数规模(3b、10b、28b)和两种分辨率(…
-
ICRA 2025|清华x光轮:自驾世界模型生成和理解事故场景
aixiv专栏持续报道全球顶尖ai研究成果,已收录2000余篇来自高校和企业实验室的学术技术文章,助力学术交流与传播。欢迎投稿或联系报道,邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.c…