发布时间:2025-05-03 11:43:19 点击量:
HASH GAME - Online Skill Game GET 300
[0002] 随着信息时代数据的疯狂增长,图像数据总量也在超高速的增加着,因此如何在 基于哈希二值编码的的图像数据集中进行高效的检索也成为了一个重要的研究方向。而图 像检索的方法也经历了从需要人工标注关键词的基于文本的图像检索(TBIR)到基于内容 的图像检索(CBIR)的发展。并且为了更加高效地处理基于哈希二值编码的特征袋图像数据 集检索问题,引入了特征袋模型检索框架来进行快速的检索。在现实应用中图像并不会这 么小,图像所包含的内容也更加的丰富,一个图像文件由许多局部描述符构成。
[0003] 若直接使用哈希方法对每个描述符进行索引,那么例如局部敏感哈希(LSH)方法 需要100-500字节来索引一张图像。而当一个数据集有几百万图像并包含几十亿描述符的 时候依靠局部敏感哈希(LSH)方法是难以执行的。基于BoF词袋模型的图像检索,通过聚类 的方法将描述符量化为视觉词汇,同时建立以视觉词汇为索引的倒排索引系统。这样的方 法不仅能进行高速的图像检索,在空间效率上也更优于敏感哈希(LSH)方法。举例说明,使 用20个哈希函数的LSH需要160字节的大小来表示一个描述符,而BoF词袋模型只需要4字节 来存储一个视觉词汇。但基于BoF词袋模型的图像检索也存在着问题,在描述符量化为视觉 词汇的过程中很大程度上降低了局部特征的判别能力。并且聚类中心即视觉词汇的数量k 难以确定。Jegou等人提出的用哈希二值编码的方法为属于同一视觉词汇的描述符提供进 一步的划分。但此方法采用了选取随机投影构成哈希函数的方法,并没有解决相似性保留 问题。基于哈希二值编码的特征袋图像检索在性能和准确率上有待进一步提高。
[0015]采用词带模型(Bag_of-Words,BoW)完成对图像特征的向量化表达,先进行图像特 征提取,对训练图像数据集中的所有图像提取尺度不变特征SIFT( Scale-Invariant Feature Transform),每张图像提取d条SIFT特征,每条特征128维,将此特征称为局部特 征,每一条局部特征构建一条特征向量,对得到的特征向量利用K-Means算法进行聚类,聚 类中心为K个,则每一个聚类中心即为一个视觉词汇,所有的聚类中心构成大小为K的视觉 词汇表。
[0016] 步骤2包括:在训练图像数据集中统计每个视觉词汇出现的次数,通过视觉单词的 频度赋予每个视觉词汇权值:较少出现的视觉词汇被认为有着更高的判别能力,则赋予较 高的权值;而经常出现的视觉词汇则赋予较低的权值。根据步骤1建立的视觉词汇表,为每 个视觉词汇计算权值,首先计算tf-idf (词频-逆文本频率指数)的值作为视觉词汇的权值, 方法如下:Tf-idf (词频-逆文本频率指数)实际上是:TF*IDF,TF词频(Term Frequency), IDF逆向文件频率(Inverse Document Frequency) JF表示视觉词汇在训练集中出现的频 率。包含视觉词汇ti的数量越少,也就是数量m越小,IDF越大,则说明视觉词汇ti具有很好 的类别区分能力。某一类图像C中包含视觉词汇七的个数为m,而其它类包含七的总数为h, 则所有包含ti的图像数m=mi+ki,当mi大的时候,ηι也大,按照IDF公式得到的IDF的值会小, 就说明该视觉词汇ti类别区分能力不强。如果一个视觉词汇在一个类的图像中频繁出现, 则说明该视觉词汇能够很好的代表这个类的图像的特征,这样的视觉词汇应该给它们赋予 较高的权重,并选来作为该类图像的特征词以区别与其它类图像。词频(term frequency, TF)指的是某一个给定的视觉词汇在该图像中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。对训练集中每个视觉词汇的词频(Term Frequency)和IDF逆向文件频率(Inverse Document Frequency)进行统计求和。
[0020]倒排序索引需要根据属性的值来查找记录,索引表中的每一项都包括一个属性值 和具有该属性值的各记录的地址,由属性值来确定记录的位置,根据步骤1建立的视觉词汇 表,对提取到的特征建立索引系统,索引的每一项对应于SIFT (Seal e-Invariant Feature T r a n s f o rm)特征构成的视觉词汇表中的一个视觉词汇。给定一个训练图像总数为N的训练 图像数据集代表训练图像数据集中的第i张训练图像,每张训练图像包含一 个由SIFT算法提取到的局部特征集合{AV}^,Xj表示训练图像的第j个局部特征,d是局部特 征的数量,将大小为K的视觉词汇表记为彳:^,A表示第ji个视觉词汇,则一维倒排序索 弓丨表示为见=取為,…-IM,在R中,每个项包含一列已索引的特征,并存储着由步骤2计算 得到的图像ID、TF值以及IDF的值。