模型
-
努比亚推出自研星云大模型:编程性能国内排名第一
7月23日消息,今天下午,努比亚举行努比亚ai+双旗舰新品发布会,推出自研的星云大模型。近年来,ai技术正值井喷式的爆发,努比亚定义了“al+”的产品战略和理念,联合ai大模型研发团队潜心钻研,重磅推出自研的星云大模型,提供了自然语言大模型、视觉大模型等一系列高度专业的ai大模型,模型能力行业遥遥领…
-
思维链如何释放语言模型的隐藏能力?最新理论研究揭示其背后奥秘
大模型涌现中最神秘的现象之一是思维链提示(cot),尤其在解决数学推理和决策问题方面展现出惊人的效果。cot到底有多重要呢?它背后成功的机制是什么?本文中,北大的几位研究者证明了cot在实现大语言模型(llm)推理中是不可或缺的,并从理论和实验角度揭示了cot如何释放llm的巨大潜力。 最近的研究发…
-
想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速
Sora 在 2024 年初的惊艳表现成为了新的标杆,激励着所有研究文生视频的人士争相追赶。每个研究者都怀着复现 Sora 成果的渴望,争分夺秒地努力着。 根据 OpenAI 披露的技术报告,Sora 的一个重要创新点是将视觉数据转换为 patch 的统一表示形式,并通过 Transformer 和…
-
几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling
在标准的UNet结构中,long skip connection上的scaling系数 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 一般为1。 然而,在一些著名的扩散模型工作中,比如Imagen, Score-based generati…
-
揭秘扩散模型背后的“硬核骨架”:一文读懂Backbone在生成艺术与智能决策中的关键作用
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 引子:揭开扩散模型及其“脊梁骨”的神秘面纱 如今,AI创作的精美画作、音视频内容层出不穷,其中有一项技术犹如魔法般从无到有地创造出惊艳作品,那就是扩散模型。而在其运作机制的核心深处,有一个至关重…
-
LLaMa 3或将推迟到7月发布,剑指GPT-4,从Gemini吸取教训
过去的图像生成模型经常因为主要呈现白人形象而受到批评,而谷歌的 Gemini 模型则因为极端的矫枉过正而陷入困境。它的生成图像结果变得过分谨慎,与历史事实出现显著偏差,令用户感到惊讶。谷歌声称,该模型的谨慎程度超出了开发者的预期。这种谨慎不仅体现在生成的图像中,还表现在通常将一些提示视为敏感提示,进…
-
ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star
“绝不是简单的抠图。” ControlNet作者最新推出的一项研究受到了一波高度关注—— 给一句prompt,用Stable Diffusion可以直接生成单个或多个透明图层(PNG)! 例如来一句: 头发凌乱的女性,在卧室里。Woman with messy hair, in the bedroo…
-
字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM
随着对sora技术分析的展开,ai基础设施的重要性愈发凸显。 来自字节和北大的一篇新论文在此时吸引关注: 文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜…
-
白宫发文,呼吁开发者放弃C、C++:Rust被「钦点」内存安全
最近,白宫国家网络主任办公室(ONCD)在一份长达19页的报告中提出了一个重要观点:开发者应该采用内存安全的编程语言,比如 Rust 语言。这份报告指出,选择内存安全的编程语言是确保软件以安全设计方式开发的关键方法。 ONCD还指出,报告中的建议是通过与科技公司、学术界和其他机构合作制定的,并获得了…
-
我们一起聊聊大模型的模型融合方法
在以前的实践中,模型融合被广泛运用,尤其在判别模型中,它被认为是一种能够稳定提升性能的方法。然而,对于生成语言模型而言,由于其涉及解码过程,其运作方式并不像判别模型那样直截了当。 另外,由于大模型的参数量增大,在参数规模更大的场景,简单的集成学习可以考量的方法相比低参数的机器学习更受限制,比如经典的…