英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
基于加密云数据的隐私保护多关键字排序搜索
摘要:
随着云计算的出现,其便利性和经济实用性促使数据拥有者将他们的数据从复杂的数据管理系统转移到公共的商业云。但是对于需要保护的隐私数据和敏感数据,则需要加密之后再导出,这必将舍弃明文关键字搜索。因此,启用加密的云数据搜索服务是非常重要的。考虑到云端往往有大量数据用户和文件,所以实现多关键字搜索请求并且能按照关联度返回所需的文件是非常必要的。现有的关于加密搜索的著作都注重于单关键字搜索或者布尔值搜索,并且几乎不对搜素结果进行排序。在这篇论文中,首先,我们定义并解决了云端加密数据多关键字排序搜素。我们建立一个基于安全的云数据使用系统的私密查询请求集合。在众多的多关键字语义中,我们选择“坐标匹配”这一有效的相似度测度。例如,尽可能多的去捕获与搜索请求关联度高的数据文件。我们进一步使用“内积相似”定量评价这种相似性度量。我们首先提出了基于MRSE安全的内积运算的一个基本的思想,然后给出两个显着改善MRSE模型,其可以在两种不同的威胁模型实现各种严格的隐私保护要求。深入分析的的调查隐私和所提倡模型的效率保障都已列出。在现实数据集的实验进一步证明本文所提倡模型只会引入较低的计算开销和通讯开销。
介绍:
云计算是一个具有长久愿景的的计算工具,云客户可以将他们的数据远程存储到云端,以便从可配置计算资源的共享池的享受高品质的应用和服务。云服务凭借其巨大的便利性和经济适用性吸引个人和公司将他们的数据从复杂的数据管理系统导出到云端。为了保护隐私数据和打击云端不请自来的非法数据访问以及一些敏感数据,例如:邮件,个人健康报告,图片集,税务凭证,金融交易等等。有许多可以在数据外包到商业云之前就被数据拥有者加密。然而,这摒弃了原来的基于明文关键字搜索的数据利用服务。由于云系统会有巨大的带宽花销,所以下载全部数据文件然后本地解密再搜索的做法已明显不切实际。此外,除了消除本地存储管理,存储到云端的数据是没有任何目的,除非它们可以很容易地被搜索和利用。因此,探索如何进行隐私保护和对加密云端数据的有效搜索是最重要的。考虑到潜在大量需求的数据用户和云端大量的外包数据文件,这个问题就变得特别具有挑战性,因为这是事关性能、系统可用性和可扩展性的难以满足的性能。
一方面,为了满足有效的数据检索需求,有大量的文件需要云服务器现实有相关度排序的结果输出,而不是返回未分化的结果。这种排序搜索可以让数据用户尽快找到相关度最高的信息,而不是从每一个匹配的文件集合中繁琐地进行选择。排序搜索能够明显的消除不必要的网络拥塞,因为他只发送关联度最高的数据,这非常适合“付费使用”云计算模式。对于隐私保护,这样的排名操作,不应该泄露任何与关键字相关的信息。另一方面,为了提高搜索的准确性以及强化用户的搜索经验,排序系统支持多关键字查询是非常必要的,因为单关键字搜索往往产生太粗糙的结果。作为当今网页搜索引擎的通用做法,数据使用者倾向于使用关键字集合进行搜索而非取单个关键字作为他们感兴趣指标去检索从而获得相关性最大的数据。并且,搜索请求每一个关键字都将进一步缩小搜索结果的范围。“坐标匹配”,尽可能多的匹配,是一种在多关键字语义中有效的相似度测量的方法在,并且已经广泛的应用于明文信息检索(IR)社区。然而,如何将其应用于加密的云端数据搜索系统仍然是一个非常具有挑战性的任务,因为数据本身存在的安全和隐私障碍。包括各种严格的要求,例如:数据隐私,目录隐私,关键字隐私等等。(看 III-B部分)
在文献中,加密搜索是非常有用的技术,它将加密数据作为文件并且允许用户通过单关键字搜索和获取自己感兴趣的文件。然而,直接将这些方法应用于安全的大规模的云数据利用系统不一定是合适的,应为他们被开发为密码原语并且不能适用于如此高水平的服务请求,例如:系统可用性,用户搜索体验,以及方便的信息探索。尽管最近出现了一些可以丰富搜索灵活性的支持布尔值检索的设计,他们的功能实现仍不足以为用户提供可接受的结果排序功能(看 VI部分)。我们一些早起工作已经注意到这个问题,并且我们就这个这问题提出了一个基于密文的安全排序检索解决方法,但是该方法仅限于包含单个搜索关键字的请求。如何设计出一种有效的支持多关键字语义并且没有隐私泄露的密文检索机制仍然是一个公开的挑战。
在这篇论文中,首先,我们定义并解决了在保留云计算范式中严格的系统隐私的情况下基于加密云端数据的多关键字排序检索方法。在众多关键字语义中,我们选择有效的相似度测量机制“坐标匹配”,即,尽可能的进行匹配,以便获取数据文件的相关性来满足该搜索请求。特别的,我们用“内积相似性”,即,查询关键字在文件中出现的次数,从而定量的评估该那个文件相对于该搜索查询的相似度测度。在索引建设中,每个文件是一个二进制向量作为一个分索引,其中的每一位代表是否有相应的关键字是包含在相关的文件中。这种搜素查询也常常表述为一个二进制向量,其中的每一位都代表相应的关键字是否出现在查询请求中,所以相似度可以准确的由数据向量和查询向量的内积决定。然而,直接外包数据向量或者查询向量将会威胁索引隐私或者查询隐私。为了面对基于多关键字语义且无隐私泄露的挑战,我们提议一个用于MRSE的基本方法即安全内积运算,这是由k-nearest neighbor 技术演变而来,并且在攻击能力不点提高的环境下,给出了两个性能显著提高的可以应对两种威胁模型,一步一步完成各种严苛的私密请求的策略。
我们的贡献概括如下:
- 首先,我们探索了基于加密云端数据的多关键字排序检索问题,我们建立一个基于安全的云数据使用系统的私密查询请求集合。
- 我们提出了两种基于“坐标匹配”相似度度量的MRSE策略,在两种威胁模型中可以面对不同的隐私要求。
- 所提议模型的深入分析调查的隐私性和有效性保障已给出,并且真实数据集的实验进一步说明所提议模型只会引入较低的计算开销和通讯开销。
本文的其余部分组织如下:在Section II我们介绍了系统模型,威胁模型,我们的设计目标,以及一些准备工作。Section III描述了MRSE框架和隐私请求,接下来的Section IV 描述了所提议策略。Section V 展示了仿真结果。在Section VI我们讨论了与但关键字和布尔值搜索的著作,并且在Section VII总结了论文。
II问题表述
- 系统模型
考虑到一个云数据托管服务涉及三个不同的实体,正如图一所示:数据拥有者,数据用户,云服务器。数据所有者有一个数据文件集合F,以加密的形式C外包给云服务器,为了使能搜索能力,使数据得到有效的利用,数据所有者在数据外包前,将首先从F中建立一个加密的可搜索的索引I,然后将索引I和加密的文档集合C外包到云服务器。为了在文件集合中搜索给定关键字t,一个授权用户通过搜索控制机制获得相应的陷门T,例如:广播加密。在接收来自数据用户的T时,云服务器负责搜索索引I并返回相应的加密文档集。为了提高文档检索的准确率,云服务器会将搜索结果根据一些排名标准进行排名(例如:坐标匹配,即将推出)。此外,为了减少通信花销,数据用户可以伴随陷门T发送一个可选的数k,云服务器只发送与搜索查询最相关的前k个文件。最后,访问控制机制来给用户管理解密功能。
B.威胁模型
在我们的模型中,云服务器常常被认为是“诚实而好奇”的,这与云安全的相关工作是一致的。特别的,云服务器以“诚实”的方式行事,并正确遵循指定的协议规范。然而,然而,它“好奇”的推断和分析它所存储和在协议间接收到的消息流(包括索引),从而了解更多的信息。基于云服务器知道的信息,我们考虑到两种具有不同攻击能力的威胁模型如下。
已知密文模型 在这个模型中,假设云服务器只知道加密数据集C以及可搜索的索引I,两者都是数据拥有者外包的。
已知背景模型 在这个更强大的模型中,云服务器会拥有比在已知密文模型中更多的信息。这些信息可能包括特定搜索请求的相关关系(陷门),以及数据集相关的统计信息。在这种情况下,一个可能的攻击实例,云服务器可以使用已知的陷门信息结合文档关键字频率推导确定查询中的某些关键字。
C.设计目标
为了在上述模型下实现排序搜索可以在外包的云服务的数据上得到有效利用,我们的系统设计可以同时实现安全与性能保证如下。
多关键字排序搜索 :设计搜索方案,允许多关键字查询,并提供有效的数据检索结果的相似性排名,而不是返回未分化的结果。
隐私保护: 防止云服务器从数据集和索引中获得额外信息,满足私密要求(详细请见Section III-B)。
有效性:上述关于功能性和隐私性的目标要在低通信和计算开销的条件下实现。
D.记号
E.坐标匹配的初步研究
作为一个合取索引和析取搜索的混合索引,“坐标匹配”[4]是中间相似性度量,其使用文档中出现的查询关键字的数量来量化该文档与查询的相关性。当用户知道要检索的数据集的确切子集时,布尔查询可以很好地满足用户指定的精确搜索需求。然而,在云计算中,在大量的外包数据情况下,这是不切实际的做法。因此,用户更灵活地指定指示其兴趣的关键字的列表,并且以排序顺序检索最相关的文档。
III MRSE的框架和隐私要求
在本节中,我们定义了基于加密云数据(MRSE)的多关键字排序搜索框架,并为这样的安全云数据利用系统建立各种严格的系统隐私要求。
- MRSE框架
为了易于呈现,数据文档上的操作未在框架中示出,因为数据所有者可以简易地使用传统的对称密钥密码术来加密数据然后再外包数据。 关注索引和查询,MRSE系统由四个算法组成如下。
bull;设置(1ℓ)以安全参数ℓ作为输入,数据所有者输出一个对称密钥作为SK。
bull;BuildIndex(F,SK)基于数据集F,数据所有者构建一个通过对称密钥SK加密的可搜索索引I,然后外包给云服务器。 索引构建后,文档集合可以独立加密和外包。
bull;Trapdoor(W)以W中感兴趣的t个关键字作为输入,该算法生成相应的陷门TW。
bull;查询(TW,k,I)当云服务器接收到查询请求(TW,k)时,它在陷门TW的帮助下对索引I进行排名搜索,最后返回FW, 按照与W 的相似性排序的前k个文档的排名id列表。
搜索控制和访问控制都不在本文的范围内。 前者是规范授权用户获取陷门的方式,后者是管理用户对外包文档的访问。
B.MRSE的隐私要求
相关文献中的代表性隐私保证(例如可搜索加密)是服务器应该仅仅搜索搜索结果。 有了这个一般的隐私描述,我们探索并建立一套严格的隐私要求专门为MRSE框架。
对于数据隐私,数据所有者可以借助传统的对称密钥加密技术在外包前对数据进行加密,并成功防止云服务器撬入外包数据。关于索引隐私,如果云服务器推断关键字和来自索引的加密文档之间的任何关联,则它可以学习文档的主要主题,甚至短文档的内容。因此,应当构造能够防止云服务器执行这种关联攻击的可搜索索引。虽然在相关文献中默认地要求数据和索引隐私保证,但是查询过程中涉及的各种搜索隐私要求更复杂并且难以解决,如下。
关键字隐私 由于用户通常倾向于保护他们的搜索不被暴露给其他人(如云服务器),他们最的关注的就是隐藏他们正在搜索的信息,即由相应的陷门指示的关键字。尽管可以用加密方式生成陷门来保护查询关键字,但是云服务器可以对搜索结果进行一些统计分析从而做出估计。 作为一种统计信息,文档频率(即,包含关键字的文档的数量)是足以识别具有高概率的关键字。当云服务器知道数据集的某些背景信息时,可以利用该关键字特定信息来对关键字进行逆向策划。
Trapdoor不可链接 陷门生成函数应该是随机的,而不是确定性的。 特别地,云服务器不应该能够推断任何给定陷门的关系,例如,以确定两个陷门是否由相同的搜索请求形成。否则,确定性陷门生成将给予云服务器优势使其可以累积关于不同关键字的不同搜索请求的频率,这可能进一步违反上述关键字隐私要求。因此,陷门不可链接性的基本保护是向陷门生成过程中引入足够的不确定性。
访问模式 在排名搜索中,访问模式是搜索结果的序列,其中每个搜索结果是具有排序次序的文档集合。具体地,将查询关键字集合W的搜索结果表示为FW,它是由与W的相关的按相关性排名的文档的id组成的列表。然后,访问模式被表示为作为顺序搜索的结果的(FW1,FW2,...)。 虽然已经提出了一些可搜索的加密工作,例如利用私有信息检索(PIR)技术来隐藏访问模式,但是我们提出的方案不是为了保护效率问题的访问模式而设计的。这是因为任何基于PIR的技术必须“接触”在服务器外包的整个数据集,这在大规模云系统中是低效的。
IV隐私保护和有效MRSE
为了有效地实现多关键字排序搜索,我们提出采用“内积相似性”来定量评估高效相似性度量“坐标匹配”。具体地,Di是文档Fi的二进制数据向量,其中每个位Di [j]isin;{0,1}表示该文档中对应关键字Wj的存在,并且Q是指示感兴趣关键字的二进制查询向量,其中每个 比特Q [j]isin;{0,1}表示查询W中对应关键字W j的存在。文档Fi到查询W f的相似性分数因此被表示为它们的二进制列向量的内积,即Di·Q。为了排序的目的,必须给予云服务器比较不同文档的相似性的查询能力。但是,为了保持严格的系统隐私,数据向量D i,查询向量Q和它们的内积D i·Q不应该暴露给云服务器。 在本节中,我们首先提出使用安全内积计算的MRSE的基本思想,其从安全 k-nearest neighbor(kNN)技术改编,然后示出如
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[137093],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。