联系hashgameCONTACT hashgame
地址:广东省广州市
手机:13988889999
电话:020-88889999
邮箱:admin@qq.com
查看更多
Rhashgamehashgame
你的位置: 首页 > hashgame

基于深度学习的文档HASH GAME - Online Skill Game ET 300哈希

发布时间:2025-06-16 13:36:36  点击量:

  HASH GAME - Online Skill Game GET 300

基于深度学习的文档HASH GAME - Online Skill Game GET 300哈希

  浙江大学硕士学位论文 Abstract对文档进行语义哈希是一种比较常见的加速相似性查找的方法。所谓语义哈希就是将文档进行哈希编码,并且使得在语义上相似的文档能够被映射到相近的哈希编码,即具有较短的海明距离。目前现存的大部分文本哈希算法,都是依赖于从显式的特征空间进行哈希编码,比如词计数向量和TF.IDF向量,没有很好的利用单词的顺序和文本的句法和语义信息,而文本中单词的顺序和句法对其语义理解是极其重要的。因此,本文提出了两种利用深度学习自动从底层词汇序列抽取隐含语义特征的优势来对文档学习有效的具备语义信息的哈希编码的算法框架:基于Doc2Vec...

  浙江大学硕士学位论文 Abstract对文档进行语义哈希是一种比较常见的加速相似性查找的方法。所谓语义哈希就是将文档进行哈希编码,并且使得在语义上相似的文档能够被映射到相近的哈希编码,即具有较短的海明距离。目前现存的大部分文本哈希算法,都是依赖于从显式的特征空间进行哈希编码,比如词计数向量和TF.IDF向量,没有很好的利用单词的顺序和文本的句法和语义信息,而文本中单词的顺序和句法对其语义理解是极其重要的。因此,本文提出了两种利用深度学习自动从底层词汇序列抽取隐含语义特征的优势来对文档学习有效的具备语义信息的哈希编码的算法框架:基于Doc2Vec模型的无监督文档哈希算法,以及基于深度神经网络的有监督文档哈希算法。在基于Doc2Vec模型的无监督文档哈希算法框架中,首先借助于Doc2Vec模型对每一篇文档生成一个紧凑的向量表示。然后选择二进制化的拉普拉斯特征映射算法为所有文档寻找最佳的哈希编码;无监督的哈希算法逻辑简单、易于实现而且训练时间短,然而由于缺乏语义标签其哈希效果有限。于是本文又提出了另一种基于深度神经网络的有监督文档哈希算法。在基于深度神经网络的有监督文档哈希算法框架的设计中,借助于深度学习中的卷积神经网络和循环神经网络,将文档映射成具有丰富语义信息的特征向量,在此基础上新添加一层隐含层作为哈希层来保存文档的潜在含义,进而生成了包含潜在语义特征的哈希编码。有监督的文档哈希算法将文档检索和分类任务结合起来,通过训练同一个模型,能够同时学习包含文档潜在语义的向量表示和哈希编码、以及文档分类器;实验结果表明,本文提出的方法,尤其是基于深度神经网络的有监督文档哈希算法,在20-Newsgroup、Reuters.21 578、OHSUMED三个数据集上都取得了比以往的哈希算法更有效的结果。关键词: 语义哈希,信息检索,文档表示,相似性查找

【返回列表页】

顶部

地址:广东省广州市  电话:020-88889999 手机:13988889999
Copyright © 2018-2025 哈希游戏(hash game)官方网站 版权所有 非商用版本 ICP备案编: