smoldocling:轻量级多模态文档处理利器
SmolDocling-256M-preview 是一款高效、轻量级的多模态文档处理模型,能够将文档图像直接转换为结构化文本。它支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等各种类型的文档。该模型参数量仅为 256M,推理速度极快,在 A100 GPU 上每页处理时间仅需 0.35 秒,并与 Docling 完全兼容,支持多种格式导出。
高效的多模态文档转换: 将图像文档快速转换为结构化文本,涵盖科学和非科学文档。闪电般的推理速度: A100 GPU 上单页处理时间仅 0.35 秒,显存占用不到 500MB。精准的 OCR 和布局识别: 具备强大的光学字符识别 (OCR) 功能,同时保留文档结构和元素边界框。复杂元素的全面识别: 能够识别代码块、数学公式、图表、表格等复杂元素。与 Docling 的完美兼容性: 支持多种输出格式 (例如 Markdown、HTML),并与 Docling 系统无缝集成。强大的指令支持: 支持多种指令,例如将页面转换为 Docling 格式、图表转换为表格、公式转换为 LaTeX 等。
SmolDocling 技术原理:
SmolDocling-256M-preview 凭借其轻量级设计,在消费级 GPU 上也能高效运行。其核心技术包括:
轻量级视觉语言模型: 模型参数量仅 256M,专为文档 OCR 和转换而设计。高效的视觉骨干网络: 采用 SigLIP base patch-16/512 作为视觉骨干网络 (93M 参数),并通过像素压缩技术提高效率。强大的文本编码器: 使用 SmolLM-2 作为文本编码器 (135M 参数),实现视觉和文本信息的有效融合。多模态融合与输出: 能够处理图像和文本的多模态输入,生成结构化的文本输出,支持多种文档处理功能。优化的训练策略: 使用包含科学和非科学文档的数据集进行训练 (文档理解占比 41%),并采用更高的像素标记率 (4096 像素/标记) 提升效率。
SmolDocling 项目地址:
HuggingFace 模型库: https://www.php.cn/link/544217b77264db8da81cfe0dac39ec0aarXiv 技术论文: https://www.php.cn/link/544217b77264db8da81cfe0dac39ec0a
SmolDocling 应用场景:
文档数字化: 高效地将图像文档转换为结构化文本,保留原始布局和复杂元素。科学及非科学文档处理: 处理各种类型的文档,并提取关键信息。快速 OCR 和布局识别: 提供快速准确的 OCR 功能,并保留文档结构。移动设备及低资源环境支持: 可在移动设备或资源受限的环境中运行。
以上就是SmolDocling— 轻量级的多模态文档处理模型的详细内容,更多请关注【创想鸟】其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。
发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/3234081.html