模型
-
MoE与Mamba携手合作,将状态空间模型推广至数十亿参数规模
状态空间模型(SSM)是一种备受关注的技术,它被认为是Transformer的替代选择。相比于Transformer,SSM在处理长上下文任务时能够实现线性时间的推理,同时具备并行化训练和出色的性能。特别是基于选择性SSM和硬件感知型设计的Mamba,更是展现出了卓越的表现,成为了基于注意力的Tra…
-
阿里开源 14B 电影级视频模型!实测来了:免费可玩,单次生成时长可达分钟级
ai 视频生成正迎来属于“通义”的高光时刻! 就在昨晚,阿里巴巴悄然推出了一款由音频驱动的 14B 视频大模型——Wan2.2-S2V。 只需上传一张静态图片和一段音频,就能生成出面部表情生动、口型精准匹配、肢体动作流畅自然的电影级数字人视频,效果惊艳。 实际效果展示如下: △来自 @AIMIRAI…
-
文心大模型 X1.1 深度思考模型发布 三大能力显著提升
雷峰网讯,9月9日,wave summit 深度学习开发者大会 2025 在北京隆重召开。百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰在会上正式推出文心大模型 x1.1 深度思考版本。该模型在事实准确性、指令理解与执行、智能体能力等方面实现显著增强。即日起,用户可通过文心一言官网及文…
-
能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么
大型语言模型(LLM)正在改变每个行业的用户期望。然而,建立以人类语音为中心的生成式人工智能产品仍然很困难,因为音频文件对大型语言模型构成了挑战。 将 LLM 应用于音频文件的一个关键挑战是,LLM 受其上下文窗口的限制。在一个音频文件能够被送入 LLM 之前,它需要被转换成文本。音频文件越长,绕过…
-
Think2Drive:首个用于自动驾驶的基于模型的RL方法(上海交大)
在carla v2中以专家级的熟练程度运行。 题目:Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in C…
-
清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回!
大型模型仅能记忆和理解有限的上下文,这已成为它们在实际应用中的一大制约。例如,对话型人工智能系统常常无法持久记忆前一天的对话内容,这导致利用大型模型构建的智能体表现出前后不一致的行为和记忆。 为了让大型模型能够更好地处理更长的上下文,研究人员提出了一种名为InfLLM的新方法。这一方法由清华大学、麻…
-
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
大模型的幻觉终于要终结了? 今日,社交媒体平台Reddit上的一则帖子引起网友热议。帖子讨论的是谷歌DeepMind昨日提交的一篇论文《Long-form factuality in large language models(大语言模型的长篇事实性)》,文中提出的方法和结果让人得出大语言模型幻觉不…
-
商汤、清华通才AI智能体,100%解锁我的世界!单CPU训2天,白手起家打造红石电路
在AI发展进程中有一个非常有趣却有违常识的现象—— 「一些对人类而言相对困难的任务,例如下棋,对AI来说却相对容易实现。而在开放世界中与环境交互、进行规划和决策等对人类来说较简单的事,AI却面临巨大挑战」 而这,就是莫拉维克悖论。 不过,现在GITM成功打破了这一悖论限制,在复杂且类似于现实世界的环…
-
H100推理飙升8倍!英伟达官宣开源TensorRT-LLM,支持10+模型
「GPU贫民」即将告别困境! 刚刚,英伟达发布了一款名为TensorRT-LLM的开源软件,可以加速在H100上运行的大型语言模型的推理过程 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 那么,具体能提升多少倍? 在添加了TensorRT-…
-
LLaMA微调显存需求减半,清华提出4比特优化器
大模型的训练和微调对显存要求很高,优化器状态是显存主要开销之一。近日,清华大学朱军、陈键飞团队提出了用于神经网络训练的 4 比特优化器,节省了模型训练的内存开销,同时能达到与全精度优化器相当的准确率。 4 比特优化器在众多预训练和微调任务上进行了实验,在保持准确率无损的情况下可将微调 LLaMA-7…