相似图片搜索的原理(二)

二年前,我写了《相似图片搜索原理》,介绍了一种最简单的实现方法。

昨天,我在isnowfy的网站看到,还有其他两种方法也很简单,这里做一些笔记。

相似图片搜索的原理(二)

一、颜色分布法

每张图片都可以生成颜色分布的直方图(color histogram)。如果两张图片的直方图很接近,就可以认为它们很相似。

相似图片搜索的原理(二)

任何一种颜色都是由红绿蓝三原色(RGB)构成的,所以上图共有4张直方图(三原色直方图 + 最后合成的直方图)。

如果每种原色都可以取256个值,那么整个颜色空间共有1600万种颜色(256的三次方)。针对这1600万种颜色比较直方图,计算量实在太大了,因此需要采用简化方法。可以将0~255分成四个区:0~63为第0区,64~127为第1区,128~191为第2区,192~255为第3区。这意味着红绿蓝分别有4个区,总共可以构成64种组合(4的3次方)。

任何一种颜色必然属于这64种组合中的一种,这样就可以统计每一种组合包含的像素数量。

相似图片搜索的原理(二)

上图是某张图片的颜色分布表,将表中最后一栏提取出来,组成一个64维向量(7414, 230, 0, 0, 8, …, 109, 0, 0, 3415, 53929)。这个向量就是这张图片的特征值或者叫”指纹”。

于是,寻找相似图片就变成了找出与其最相似的向量。这可以用皮尔逊相关系数或者余弦相似度算出。

二、内容特征法

除了颜色构成,还可以从比较图片内容的相似性入手。

首先,将原图转成一张较小的灰度图片,假定为50×50像素。然后,确定一个阙值,将灰度图片转成黑白图片。

相似图片搜索的原理(二)

如果两张图片很相似,它们的黑白轮廓应该是相近的。于是,问题就变成了,第一步如何确定一个合理的阙值,正确呈现照片中的轮廓?

显然,前景色与背景色反差越大,轮廓就越明显。这意味着,如果我们找到一个值,可以使得前景色和背景色各自的”类内差异最小” (minimizing the intra-class variance),或者”类间差异最大”(maximizing the inter-class variance),那么这个值就是理想的阙值。

1979年,日本学者大津展之证明了,”类内差异最小”与”类间差异最大”是同一件事,即对应同一个阙值。他提出一种简单的算法,可以求出这个阙值,这被称为”大津法”(Otsu’s method)。下面就是他的计算方法。

假定一张图片共有n个像素,其中灰度值小于阙值的像素为 n1 个,大于等于阙值的像素为 n2 个( n1 + n2 = n )。w1 和 w2 表示这两种像素各自的比重。

w1 = n1 / n

w2 = n2 / n

再假定,所有灰度值小于阙值的像素的平均值和方差分别为 μ1 和 σ1,所有灰度值大于等于阙值的像素的平均值和方差分别为 μ2 和 σ2。于是,可以得到

类内差异 = w1(σ1的平方) + w2(σ2的平方)

类间差异 = w1w2(μ1-μ2)^2

可以证明,这两个式子是等价的:得到”类内差异”的最小值,等同于得到”类间差异”的最大值。不过,从计算难度看,后者的计算要容易一些。

下一步用”穷举法”,将阙值从灰度的最低值到最高值,依次取一遍,分别代入上面的算式。使得”类内差异最小”或”类间差异最大”的那个值,就是最终的阙值。

相似图片搜索的原理(二)

有了50×50像素的黑白缩略图,就等于有了一个50×50的0-1矩阵。矩阵的每个值对应原图的一个像素,0表示黑色,1表示白色。这个矩阵就是一张图片的特征矩阵。

两个特征矩阵的不同之处越少,就代表两张图片越相似。这可以用”异或运算”实现(即两个值之中只有一个为1,则运算结果为1,否则运算结果为0)。对不同图片的特征矩阵进行”异或运算”,结果中的1越少,就是越相似的图片。

(完)

本文作者:阮一峰

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:卢松松,转转请注明出处:https://www.chuangxiangniao.com/p/1069336.html

(0)
上一篇 2025年1月13日 15:55:08
下一篇 2025年1月11日 02:06:51

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • Google Panda改进图片搜索算法

    今天我在用Google Images搜索图片的时候发现图片搜索来源质量更好了,比如搜“百度”位于前列的均是原创博客里的图片,尽管图片的样式没有变,但图片的来源都从以前盗链的网站变成了真正的图片出处网站,这对不使用盗链的原创博客是个利好消息。…

    站长动态 2025年1月13日
    100
  • 高性能JavaScript模板引擎原理解析

    随着 web 发展,前端应用变得越来越复杂,基于后端的 javascript(Node.js) 也开始崭露头角,此时 javascript 被寄予了更大的期望,与此同时 javascript MVC 思想也开始流行起来。javascript…

    2025年1月13日 好文分享
    100
  • Google图片搜索的原理

    针对这个问题,请教了算法组的同事,他分享了基本的思路: 对于这种图像搜索的算法,一般是三个步骤: 1. 将目标图片进行特征提取,描述图像的算法很多,用的比较多的是:SIFT描述子,指纹算法函数,bundling features算法,has…

    2025年1月13日 好文分享
    100
  • 一款用于改进图片搜索效果的标注游戏

    【摘要】: 图片搜索由于在搜索目标上的特殊性,往往依赖于图片所在网页的文本来判断图片的内容(我们成为图片周边文本)。而周边文本往往不能很好的表达图片的内容,并且一张图片往往在多个网页中被引用,图片周边文本也不太一致,甚至于很多图片并没有周边…

    2025年1月13日 好文分享
    100
  • 网站自动宣传机器原理

    我的博客提供的有这个网站自动化宣传机器,主要用于提高网站外链,是利用一些站长工具网站的查询功能。 工作原理,当用户查询某个网站的Alexa 排名、Google PR值、搜索引擎收录等信息之后,这些工具网站都会把查询情况记录到数据库,并留下所…

    站长动态 2025年1月13日
    100
  • 用网站快排系统好不好?,网站快排是什么原理

    [var] 在当今数字化时代,互联网已成为企业营销和品牌推广的重要渠道,而搜索引擎优化(SEO)作为提升网站在搜索引擎中排名的一种有效手段,受到了越来越多企业和个人的关注,网站快排系统作为一种辅助工具,被广泛应用于提升网站排名,关于其效果的…

    好文分享 2025年1月12日
    100
  • 用网站快排系统好不好?,网站快排是什么原理

    [var] 在当今数字化时代,互联网已成为企业营销和品牌推广的重要渠道,而搜索引擎优化(SEO)作为提升网站在搜索引擎中排名的一种有效手段,受到了越来越多企业和个人的关注,网站快排系统作为一种辅助工具,被广泛应用于提升网站排名,关于其效果的…

    好文分享 2025年1月12日
    100
  • 网站快排费用在火星推荐,探索星际时代的数字营销新纪元,网站快排是什么原理

    [var] 在浩瀚无垠的宇宙中,人类对未知的探索从未停歇,随着科技的飞速发展,我们不仅在地球上实现了信息的快速传递与共享,更将目光投向了遥远的星辰大海,在这个背景下,“火星推荐”这一概念应运而生,它象征着在星际时代,如何有效地利用数字营销手…

    好文分享 2025年1月12日
    100
  • 网站快排费用在火星推荐,探索星际时代的数字营销新纪元,网站快排是什么原理

    [var] 在浩瀚无垠的宇宙中,人类对未知的探索从未停歇,随着科技的飞速发展,我们不仅在地球上实现了信息的快速传递与共享,更将目光投向了遥远的星辰大海,在这个背景下,“火星推荐”这一概念应运而生,它象征着在星际时代,如何有效地利用数字营销手…

    好文分享 2025年1月12日
    100
  • 网站快排费用在火星,探索星际互联网营销的新纪元,网站快排是什么原理

    [var] 在浩瀚无垠的宇宙中,人类的探索脚步从未停歇,而互联网作为连接地球村的重要纽带,其边界也在不断向未知领域拓展,设想这样一个场景:在遥远的未来,当人类成功在火星建立殖民地,并构建起火星互联网——一个独立于地球网络、专为火星居民服务的…

    好文分享 2025年1月12日
    100

发表回复

登录后才能评论

联系我们

156-6553-5169

在线咨询: QQ交谈

邮件:253000106@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

联系微信