
https://www.php.cn/link/df2782c019d0d66a88af774011e8ab29
苹果公司近日推出了名为Pico-Banana-400K的大规模图像数据集,包含40万张精心筛选的图片。该数据集基于Google Gemini-2.5系列模型构建,相关论文《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》也已同步发布。
该数据集以OpenImages中的真实图像为原始素材,涵盖35种不同类型的编辑任务,归为8个主要类别。编辑图像由Gemini-2.5-Flash-Image(又称Nano-Banana)生成,随后通过Gemini-2.5-Pro对指令遵循能力与视觉质量进行评估和筛选。数据集中包含单步编辑、多轮编辑流程以及成功与失败结果的对比样本。

AI图像编辑器
使用文本提示编辑、变换和增强照片
46 查看详情

Pico-Banana-400K采用非商业性研究许可,仅供学术及人工智能研究使用,禁止用于商业用途。尽管苹果承认Nano-Banana在技术上存在一定局限,但仍希望该数据集能成为推动下一代图像编辑模型发展的重要资源,为训练和基准测试提供支持。论文已发布于arXiv,数据集亦可在GitHub上免费获取。
以上就是苹果发布 Pico-Banana-400K 数据集,助力文本引导图像编辑研究的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/319011.html
微信扫一扫
支付宝扫一扫