基于云端的监测细粒度空气质量知识发现系统外文翻译资料

 2023-03-31 21:12:18

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料


基于云端的监测细粒度空气质量知识发现系统

摘要

最近,许多发展中国家正遭受着空气污染的困扰。政府已经在城市建立了一些空气质量监测站,用来告知人们空气污染物的浓度。不幸的是,一个城市的空气质量是高度不平衡的,这取决于多种复杂的因素,例如气象、交通量和土地利用。建设更多的监测站在资金、土地使用和人力资源方面的成本很高。因此,如果没有监测站,人们无法真正了解一个地方的细粒度空气质量。在本文中,我们介绍一种基于云计算的知识发现系统,该系统推断整个城市实时空气质量和细粒度信息,是基于现有监测站报告的(历史的和实时的)空气质量数据和各种在城市中观察到的数据源,例如气象、交通流量、人员流动性、道路网络结构和兴趣点 (POIs)。该系统还提供了一个移动客户端,用户可以通过它监控城市中多个位置的空气质量(例如当前位置、家庭和工作场所),以及一个允许其他应用程序调用任何位置的空气质量的网络服务。该系统基于北京、上海、广州、深圳等中国9个城市的真实数据进行了评估。该系统运行在Microsoft Azure上,移动客户端在Window Phone App Store公开提供,名为Urban Air。我们的系统提供了一个经济高效的示例,实现了一个涉及云上大数据的知识发现原型。

类别和主题描述

H.2.8【数据库管理】:数据库应用——数据挖掘、空间数据库和地理信息系统;

一般术语/统称/概述

算法、管理、实验

关键词

城市计算、空气质量、城市动态、人类流动性

  1. 介绍

许多发展中国家,例如中国、巴西和印度,最近都受到空气污染的困扰。许多政府在城市建立了空气质量监测站,向人们实时通报PM2.5等空气污染物的浓度。然而,在现实中,一个城市没有足够的空气质量监测站,因为建设和维护这样一个监测站在资金、土地利用和人力资源方面的成本很高[6]。不幸的是,城市空气质量因地点而异,并且在城市中高度不平衡,因为它取决于多种复杂因素,例如气象、交通、土地利用和城市结构。例如图1中的A) 所示,北京在城市空间中有22个车站。然而,正如图1中的B) 所示,根据2013年1月1日至2014年1月1日的空气质量指数(AQI)统计,在同一时间的22个站点,PM2.5最大和最小读数的平均偏差很容易得到超过 120。此外,如图1中的C) 所示,超过 50% 的时间,偏差都大于 100。 100 几乎表示两级差距,即当一个地方的空气质量是中等时,另一个地方可能是不健康的。

环境工程中提出的传统离散度模型通常基于经验假设和参数,可能不适用于不同的城市环境[3]。基于人群感知的方法[1]可以适用于CO2等极少数几种气体,但不适用于PM2.5、PM10等气溶胶。检测这些污染物的设备不易携带,通常需要较长的感应时间(例如1~2小时)才能产生准确的AQI。最近,反映城市动态的大数据已被广泛使用[7],例如交通流量、人口流动性和气象学,使我们能够从数据角度解决这一具有挑战性的问题。

在本文中,我们提出了一个系统,通过“云端 客户端”架构为人们提供整个城市的实时和细粒度的空气质量。在该系统中,云端根据现有监测站的(历史和实时)空气质量数据和其他相关数据集,如气象、交通流量、道路网络结构和POIs,观察周围的位置,以此来推断某个位置的空气质量。使用机器学习和数据挖掘技术,我们在这些数据源中观察到的空气质量标签和特征之间建立了一个网络。该系统还提供了一个移动客户端,用户可以通过它在智能手机上监控城市中多个细粒度位置(例如当前位置、家庭和工作场所)的空气质量,以及允许其他应用程序的网络服务调用任何位置空气质量的网络服务。该系统可以为人们的决策提供信息,例如,在何时何地慢跑,并帮助诊断空气污染的根本原因。

本文介绍了该系统的实现,因为该系统的推理模型已在论文[6]中进行了评估。本文的贡献在于以下三个方面:

我们提出了一个混合框架(即本地服务器 云端),以一种经济高效的方式在云端上快速实现研究原型。该框架利用云平台的稳定性来接收即时数据、执行推断和提供在线服务,同时使用本地服务器来训练模型和维护不经常更改的数据源。该框架极大地节省了云端上的存储和CPU资源(即降低了货币成本),同时为研究原型的开发提供了一定的灵活性(例如,在本地服务器上测试模型的不同参数比在云端方便得多)。我们的系统已部署在微软运营的云服务Azure上,提供北京、上海、深圳、广州等九个中国城市的实时细粒度空气质量数据。

我们设计了一个移动客户端和一个网站,允许用户监控任何位置的空气质量。移动客户端和网站通过网络服务与云端进行通信。移动客户端(名为Urban Air)可以通过Window Phone App store安装。该网站托管在Azure上,可通过 http://urbanair.msra.cn/ 公开访问。

2、框架

如图2所示,我们的系统由三个主要部分组成:本地服务器、云端和消费者(例如移动客户端和网站),分别产生在线和离线数据流。本地服务器存储静态数据集,例如POIs,并定期(例如每月)训练推理模型。云端接收即时数据,包括气象和交通数据,每小时推断每个位置的空气质量,并通过网络服务为消费者提供推断结果。消费者访问空气质量数据,将其显示在移动客户端或网站上。

2.1 云端

云端每小时从公共网站抓取现有监测站的空气质量读数和气象数据(如天气状况、湿度和气压)。云端还不断接收出租车的GPS轨迹,然后使用地图匹配算法[5]将每个轨迹映射到道路网络上。为了节省云端上的资源(存储越多,支付越昂贵),我们只存储在线轨迹数据库中的最近轨迹。历史轨迹可以定期移动到本地服务器。云端从网络爬取的数据中提取气象特征,从出租车轨迹中提取人员流动和交通特征。这里使用的出租车轨迹只是可选的,并且最好选中。在没有数据的情况下,推理模型仍然可以达到0.75以上的准确度。

提取的特征存储在在线特征数据库中。由于存在不同种类的特征,例如POI特征和气象特征,我们需要对一个位置进行一些特征组合,然后再将它们输入推理模型。请注意,我们并不是简单地将不同的特征放在一个单一的特征向量中,并平等地对待它们。相反,它们将被输入到我们模型的不同部分,并以不同的方式组合(详细信息请参阅第3节)。根据某个地点的特征,云端会推断其空气质量,然后将结果存储在数据库中,之后移动客户端或网站可以通过网络服务访问。

我们使用 Azure 平台作为服务 (Paas)。表1详细介绍了我们系统的Azure资源。网络爬虫和推理模型共享一个小型虚拟机(具有1个核心和1.75GB内存),因为它们在一小时内只能工作一段时间。考虑到许多消费者的潜在大量访问,该网站和Web服务共享一个中型虚拟机(A2)。由于混合框架将静态数据(如POIs)和历史轨迹数据存储在本地服务器中,5GB足以存储9个城市的在线特征和推断结果。云资源的总费用约为每月350美元。

2.2 本地服务器

基本上,如果不考虑费用,所有的工作都可以在云端完成。然而,使用云服务,我们需要为CPU时间、存储和I/O带宽付费。节省不必要的成本对于研究原型至关重要。此外,由于网络带宽有限,将大数据从本地服务器迁移到云端非常耗时。例如,POIs和道路网络数据的大小可能是数百千兆字节,导致将数据从本地服务器复制到云端的时间很长(例如几周)。

鉴于上述原因,我们提出了一种将本地服务器与云端相结合的混合框架。具体来说,我们可以离线从POI和道路网络数据集中提取特征,然后将这些特征插入到在线特征数据库中。由于特征的大小远小于原始数据,因此可以节省大量的存储和传输时间。此外,两个数据集的值不会随时间频繁变化。这样,我们就可以在每个季节更新相应的特征。同样,我们可以离线训练推理模型并定期更新在线模型,例如每个月更新一次。由于动态特征是在云端提取的,我们在每次训练之前将在线特征数据库同步到本地服务器。通过这种方式,我们可以灵活地尝试新想法(例如重新训练模型),同时大大降低研究原型的费用。

2.3 消费者

图3描述了移动客户端的用户界面。如图3中的A)所示,用户选择了四个位置,例如家庭和工作场所,在她的手机上进行监控。

在这里,每个条幅代表一个位置,每个条幅中显示的数字是该位置的AQI。条幅的颜色是根据其空气质量来确定的,例如,在中国AQI标准中,“绿色”表示“良好”,“黄色”表示“中等”。每个位置都是通过长按地图上的相应场所来选择的,如图 3中的B)所示,其中一个图标代表用户选择的场所。我们的移动客户端会根据POIs的名称和场地周围的道路网络自动命名一个选定的场地。然后,用户可以将名称修改为一些语义标题,例如家。通过点击位置列表中的条幅,用户还可以看到一个位置的空气质量趋势,如图3中的C)所示。一旦这些位置的空气质量超过一定的阈值,用户的手机就会收到警报,然后打电话给她的父母关闭窗户或打开空气过滤器。细粒度的空气质量信息还可以告知用户在何时何地慢跑。

图4展示了网站的用户界面,其中一个图标代表政府建设的空气质量监测站,与图标相关的数字表示该站的AQI。同样,图标的颜色也是根据站台的AQI设置的(参见图4右下方的彩条描述符)。图4的右上角显示了一个城市的平均AQI、湿度以及风速。该框还显示了过去48小时内推断的城市AQI的准确性。为了验证我们推断的准确性,我们特意从标记数据中删除了一个站点,并使用我们的方法预测了该站点的空气质量。然后将来自站点的读数用作衡量推理结果的凭证。我们每小时对每个站点进行评估,最后计算一段时间内的平均准确度。该网站覆盖了中国9个城市(每个城市名称后的数字是该城市的监测站数量)。我们可以通过单击列表中显示的城市名称在城市之间切换。

浮动在图4左上角的工具栏帮助我们与地图进行交互。最左边的按钮可以打开和关闭地图上重叠的交通流(这是为了通过探索性可视化帮助诊断交通与空气质量之间的相关性)。接下来的三个按钮分别为我们提供了查看某个点位置、空间范围和整个城市的空气质量的能力。例如,如图4的左下部分所示,即使没有监测站,我们也可以通过点击地图查看任何位置(标记为蓝色气球图标)的空气质量。一旦点击第三个按钮,用户将看到如图5所示的结果。第四个按钮显示一段时间内(例如过去一年)空气质量最好和最差的200个位置。该信息可以帮助用户做出决策,例如,何时购买房地产。点击最后一个按钮,我们将看到最近60天的空气质量统计,如图6所示,左上图和右上图分别显示了白天和晚上不同AQI等级的比例。一般来说,北京夜间的空气质量要好于白天,因为我们可以在右上角的图表中观察到更多的绿色区域。下面三幅图分别表示三种污染物全天的平均AQI。

移动客户端和网站通过网络服务与云通信,如图7所示。为了减少对请求的响应时间,我们将最近一小时的推断空气质量从结果数据库加载到Azure虚拟机的记忆。为移动客户端和网站定义了两组API,分别基于SOAP和HTTP协议。内部接口旨在通过API接收和响应请求,根据来自内存的请求检索结果。

3.学习与推理

推理模型是在我们之前的出版物[4]中提出的。在这里,我们只是做一个非常简短的介绍,使这个演示论文自成一体。

我们将一个城市划分为不连贯的网格(例如1kmtimes;1km),假设网格单元中的空气质量是均匀的,而不同网格单元的空气质量可能不同。如果有空气质量监测站,则该监测站上报的空气质量监测机构将标注为网格单元。我们分别从单元格及其周围八个单元格中观察到的相应数据中提取五类特征(即交通、气象、人类流动性、POI和道路网络)。模型输出的是一个空气质量等级,包括良好、中等、不健康的敏感组、不健康、非常不健康和危险(我们使用中国AQI标准,例如0-50表示良好)。我们用标记数据训练模型,并在没有监测站的情况下推断网格单元。在推断出一个位置的AQI类别后,我们根据地理空间上距离该位置最近且与该位置具有相同 AQI 类别的前三个监测站的读数,进一步插值该位置的真实 AQI 值。

由于一个城市只有几个空气质量站,而要推断的地方很多,因此带有标签的数据很少。为了解决这个问题,我们提出了一种基于协同训练的半监督学习方法,其中使用未标记的数据来提高推理的准确性。如图8中的A) 所示,圆圈表示位置,平面表示这些位置在时间戳上的状态。我们构建了两个分类器,空间分类器(SC)和时间分类器(TC),分别对单个位置的空气质量的时间相关性和不同位置之间空气质量的空间相关性进行建模。两个分类器在框架内相互强化学习协同训练[1]

空间分类器使用静态特征(例如POIs)来模拟不同位置空气质量之间的非线性空间相关性。如图8中的B)所示,SC由两部分组成:输入生成(在左侧框中)和人工神经网络,其中??、??、??和??表示POI特征、道路网络特征、位置和网格k的AQI标签;?是要推断的网格;?1是特征之间的距离函数(例如,实验中的 Pearson 相关性),?2计算两个网格中心之间的地理距离。我们随机选择带有标签的?网格单元与要推断的单元配对(例如?=3在实验中达到最佳精度)。为了了解网格之间距离的不同尺度的影响,我们执行这个成对的过程?次,来制定输入集合。在推理过程中,我们还将要推理的网格与一组?标记的网格配对,为每个集合生成AQI标记的预测。然后将每个推断标签的频率作为标签的概率得分,并选择出现频率最高的标签作为??的预测结果。

时间分类器基于线性链条件随机场 (CRF),它使用动态特征(例如气象学)来估计一个位置的空气质量的时间变化。图8中的C)显示了时间分类器

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[588348],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。