SmolDocling— 轻量级的多模态文档处理模型

PHP中文网 • 2025年4月1日 20:51:24 • 编程技术 • 阅读 1

smoldocling：轻量级多模态文档处理利器

SmolDocling-256M-preview 是一款高效、轻量级的多模态文档处理模型，能够将文档图像直接转换为结构化文本。它支持文本、公式、图表等多种元素识别，适用于学术论文、技术报告等各种类型的文档。该模型参数量仅为 256M，推理速度极快，在 A100 GPU 上每页处理时间仅需 0.35 秒，并与 Docling 完全兼容，支持多种格式导出。

SmolDocling 主要功能：

高效的多模态文档转换: 将图像文档快速转换为结构化文本，涵盖科学和非科学文档。闪电般的推理速度: A100 GPU 上单页处理时间仅 0.35 秒，显存占用不到 500MB。精准的 OCR 和布局识别: 具备强大的光学字符识别 (OCR) 功能，同时保留文档结构和元素边界框。复杂元素的全面识别: 能够识别代码块、数学公式、图表、表格等复杂元素。与 Docling 的完美兼容性: 支持多种输出格式 (例如 Markdown、HTML)，并与 Docling 系统无缝集成。强大的指令支持: 支持多种指令，例如将页面转换为 Docling 格式、图表转换为表格、公式转换为 LaTeX 等。

SmolDocling 技术原理：

SmolDocling-256M-preview 凭借其轻量级设计，在消费级 GPU 上也能高效运行。其核心技术包括：

轻量级视觉语言模型: 模型参数量仅 256M，专为文档 OCR 和转换而设计。高效的视觉骨干网络: 采用 SigLIP base patch-16/512 作为视觉骨干网络 (93M 参数)，并通过像素压缩技术提高效率。强大的文本编码器: 使用 SmolLM-2 作为文本编码器 (135M 参数)，实现视觉和文本信息的有效融合。多模态融合与输出: 能够处理图像和文本的多模态输入，生成结构化的文本输出，支持多种文档处理功能。优化的训练策略: 使用包含科学和非科学文档的数据集进行训练 (文档理解占比 41%)，并采用更高的像素标记率 (4096 像素/标记) 提升效率。

SmolDocling 项目地址：

HuggingFace 模型库: https://www.php.cn/link/544217b77264db8da81cfe0dac39ec0aarXiv 技术论文: https://www.php.cn/link/544217b77264db8da81cfe0dac39ec0a

SmolDocling 应用场景：

文档数字化: 高效地将图像文档转换为结构化文本，保留原始布局和复杂元素。科学及非科学文档处理: 处理各种类型的文档，并提取关键信息。快速 OCR 和布局识别: 提供快速准确的 OCR 功能，并保留文档结构。移动设备及低资源环境支持: 可在移动设备或资源受限的环境中运行。

以上就是SmolDocling— 轻量级的多模态文档处理模型的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/3234081.html

压缩技术

0 0

关于作者

PHP中文网签约作者

575.4K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

生活模拟游戏《inZOI》预定 3 月 20 日先释出创意工作室供玩家体验角色客制化与建筑等功能

上一篇 2025年4月1日 20:51:08

IMAGPose— 南京理工大学推出姿态引导图像生成的统一框架

下一篇 2025年4月1日 20:51:35

编程技术

Swoole UDP 广播功能在物联网场景中的应用及实现

swoole udp广播在物联网中的应用包括设备发现和状态广播。1) 创建udp服务器并处理数据包，2) 使用定时器定期广播设备状态，3) 优化广播频率和数据包大小，4) 利用异步处理提高性能。引言在物联网（IoT）领域，设备之间的通信…

PHP中文网
2025年5月2日
0000
编程技术

Workerman 开发简单 TCP 服务器，消息收发异常怎么解决？

解决 workerman 中消息收发异常的方法包括：1) 使用 onclose 事件处理连接断开；2) 通过消息重试机制解决数据包丢失；3) 设置超时时间和重试机制处理超时问题。通过日志记录、调试模式和异常处理来调试，并通过异步 i/o、消…

PHP中文网
2025年5月2日
0000
编程技术

如何用 Swoole 搭建支持长连接的 IM 服务端？

使用 swoole 搭建支持长连接的 im 服务端的步骤包括：1. 创建 websocket 服务器；2. 处理用户连接和消息发送；3. 实现用户认证和群聊功能；4. 优化性能和应用最佳实践。swoole 提供了高性能的网络通信能力，适合构…

PHP中文网
2025年5月2日
0000
如何优化CentOS HDFS配置以提高效率

优化centos上的hdfs配置，提升大数据处理效率的关键策略为了优化CentOS环境下的HDFS配置，从而提高效率，需要从多个方面进行调整。以下是一些关键的优化技巧和配置建议：一、块大小调整 HDFS的块大小直接影响读写效率。较大的块…

PHP中文网
编程技术 2025年5月2日
0000
CentOS HDFS读写速度提升

centos系统下hdfs读写性能优化策略详解提升CentOS环境下HDFS的读写速度，需要从硬件、系统配置、网络以及HDFS自身配置等多个方面入手。本文将详细阐述具体的优化措施。一、硬件升级与选择资源扩充：增加服务器CPU、内存和…

PHP中文网
编程技术 2025年5月2日
0000
Linux Minimal系统如何优化性能

linux minimal系统优化性能可以从多个方面入手，以下是一些基本的优化步骤和建议： 1. 选择合适的硬件根据应用需求选择适合的CPU、内存和存储设备。使用SSD代替HDD以提高I/O性能。 2. 内核参数调整调整网络参数：例如，…

PHP中文网
编程技术 2025年5月2日
0000
Debian PostgreSQL内存管理技巧

在debian上优化postgresql的内存管理可以通过以下几种方法实现：调整PostgreSQL配置参数 shared_buffers：这是PostgreSQL用于缓存表和索引数据的内存区域。通常建议设置为系统内存的25%-50%。例…

PHP中文网
编程技术 2025年5月2日
0000
编程技术

夸克浏览器比其他浏览器快吗

是。夸克浏览器凭借极简设计、无痕模式、预加载、智能压缩和专有技术，在基准测试中常超越其他浏览器，提供更快的加载速度、JavaScript 执行和整体性能，获得用户好评。夸克浏览器是否比其他浏览器更快？答案：是夸克浏览器以其快速和轻便而…

PHP中文网
2025年5月2日
0000
编程技术

如何打开EPUB文件

打开epub文件的方法取决于你的设备和软件。最直接的方式是使用专门的EPUB阅读器。市面上有很多选择，比如Adobe Digital Editions、Calibre，以及各种手机和平板电脑自带的阅读应用。我个人曾经尝试过好几种，最终选…

PHP中文网
2025年5月2日
0000
编程技术

个人装win10哪个版本好用

在为您的 windows 10 系统选择版本时，面临着众多选择，每个版本都提供了一系列功能和特性。php小编小新在这份指南中将分解不同版本之间的差异，帮助您确定最适合您需求的版本。继续阅读，了解每个版本的独特优势和缺点，做出明智的选择，获得…

PHP中文网
2025年5月2日
0000