英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料
COVID-Scraper:一个用于自动抓取和处理全球多尺度时空COVID-19记录的开源工具集
摘要:
2019年,2019冠状病毒病在全球迅速蔓延,感染数十亿人,扰乱了各国公民的正常生活。世界各地的政府、组织和研究机构正在投入大量资源,研究有效的战略,以抗击这种迅速传播的病毒。在病毒检测方面,大多数国家定期通过各种渠道和形式公布确诊病例数、死亡病例数、康复病例数和地点。这一重要的数据来源使世界各地的研究人员能够开展不同的COVID-19科学研究,如对这种病毒的传播模式建模,制定预防策略,以及研究COVID-19对社会其他方面的影响。然而,一个主要挑战是,没有标准化、更新和高质量的数据产品涵盖全球COVID-19病例数据。这是因为不同的国家可能以独特的渠道、格式和时间间隔发布数据,这阻碍了研究人员有效获取必要的COVID-19数据集,特别是对精细尺度的研究。尽管Johnrsquo;s Hopkins COVID-19 Dashboard和1point3acres COVID-19跟踪器等现有解决方案得到广泛使用,但用户很难访问其原始数据集并定制这些数据以满足类别、数据结构和数据源选择方面的特定需求。为了应对这一挑战,我们开发了一套工具,使用基于云的web抓取技术自动提取、精化、统一和存储世界上所有可用国家的多个尺度的COVID-19病例数据。然后,该工具集以有效方式发布数据供公众访问,可以为用户提供具有全局视图的实时COVID-19动态数据集。介绍了两个关于如何利用数据集的案例研究。这个工具集也可以很容易地扩展,以实现其开源性质的其他目的。
关键词:Web scraper, COVID-19,时空数据,多尺度
1. 简介
在过去的一年里,全球COVID-19大流行感染了数十亿人。这场全球危机导致世界上大多数国家封锁了数月,希望减缓这种新病毒的传播,拯救生命。市民的正常生活不可避免地受到严重干扰和影响。全世界的科学家都在研究这场大流行来分析其传播动态,设计有效的控制政策,预测下一个可能的爆发中心,开发疫苗,并优化疫苗接种策略。COVID-19病毒样本、阳性病例统计、现有政策和环境因素已成为COVID-19相关研究的重要数据[3]。另一个例子是COVID-19时空记录,自2020年初以来,大多数国家都通过病毒检测逐步公布了这些记录。收集、组织和分发COVID-19时空记录为公共卫生、经济学和环境科学等不同领域的COVID-19研究提供了途径和数据来源。每个国家的政府和组织都认识到公共记录的必要性。例如,大多数COVID-19病例数据来自国际机构(即世界卫生组织(世卫组织)和全球卫生理事会(GHC)),或单个国家组织(即疾病预防控制中心(CDC)和中华人民共和国国家卫生健康委员会)。这些组织有小组委员会收集和产生向公共[4]发布的数据集。然而,对于研究人员来说,获取这些数据集的一个困难是,不同国家的信息以不同的来源、格式、类型、规模、渠道和时间间隔发布。这使得获取每个国家最新的融合结构化数据变得非常耗时,从而阻碍了抗击COVID-19的应对进展。为了解决这一问题,我们开发了COVID-Scraper,这是一个工具集,可以自动聚合来自不同尺度的多个源的COVID-19时空数据到一个具有定制数据结构的时空框架,有利于相关研究。
对于一些行为体,如大型机构,这一任务自2019冠状病毒病暴发以来一直在进行。约翰霍普金斯大学是一个典型的例子,它提供了一个每日更新COVID-19仪表板来自八个不同的非政府数据源的数据,包括世界卫生组织、美国疾病控制和预防中心,欧洲疾病预防与控制中心(ECDC),和许多国家的数据存储库并将数据组织成一个数据集公共共享[5]。然而,约翰霍普金斯大学系统科学与工程中心(CSSE)的“COVID-19仪表盘”的数据收集、组织和构建过程并不透明,这导致了另一个挑战,即一些用户不能将其作为工具,从具有定制数据结构的首选数据源获取数据集,并设置用户定义的获取频率。另一个广为人知的系统是1Point3Acres COVID-19仪表盘,它已经获得了超过28亿访问[6]。与JHU的COVID-19 Dashboard类似,用户无法定制国家的数据源。另一个问题是,对于显示仪表板来说,原始数据很难被公众访问(即使它声称数据可以在许可的情况下分发)。因此,用户不可能定义数据的粒度,过滤数据的内容,选择数据的类别用于定制学者研究。换句话说,现有的解决方案对用户来说不够灵活,尤其是对获取目标数据集有特定需求的用户。
我们开发的COVID-Scraper是一个开源的COVID-19抓取工具集,采用网络爬虫技术,收集、过滤、组织、预处理和存储世界各国的多尺度时空COVID-19记录,一次性生成一个全面的数据产品。它是高度灵活的,允许用户自定义数据源、数据结构、筛选标准、数据库设置和可视化格式,只需稍加调整。一旦设置了这些参数,这个工具集就会可轻松部署在任何云平台上,自动获取所需的COVID-19时空数据集。此外,COVID-Scraper使用方便,能够有效地处理数据。例如,它可以在大约6分钟内从世界各国获取可用的COVID-19数据集。此外,COVID-Scraper对于那些没有从其官方报告中提供关于其COVID-19现状的良好、结构良好的数据(除了便携式文档格式(PDF))或报告中提供图片的国家尤其有效。对于只提供最新COVID-19数据报告的一些国家,它还可以作为建立COVID-19历史时空数据记录的强大工具集。
本文将在第三节讨论COVID-Scraper所使用的来自不同国家的不同类型的COVID-19时空数据源。然后,该工具集的组件、机制和实现将在第四节详细介绍,包括:1)关于COVID-Scraper如何工作的工作流,2)如何设计它以满足不同类型的数据源,以及3)自动化配置的处理。第五节详细介绍了两个案例研究,说明刮刀如何发挥作用并为国家特别是那些没有便于获取的详细记录的资料的国家提供数据。执行性能测试是为了演示单个完整的数据搜集流程的整体性能和不同数据类型的处理时间。我们还介绍了2例利用COVID-Scraper生成的最终数据产品来监测医疗资源短缺动态以及社会距离措施对COVID-19病例和死亡率的影响的病例。最后讨论了该刮板的意义和未来的发展方向。这项工作的主要贡献是:
1)一个带有网络爬虫的开源COVID-19抓取工具集,用于收集、过滤、组织、预处理和存储世界各地每个国家的多尺度时空COVID-19记录。
2)数据抓取脚本列表,以适应COVID-19时空数据抓取任务,针对各国发布的各类源数据。
3)一个可以自动驱动抓取工具集并在一次运行中生成全面数据产品的工作流
4) GitHub存储库和云端数据库为公众提供最新的多尺度COVID-19记录数据产品。
5)维护一个操作仪表板,以可视化数据产品,以便快速查询和访问。
2. 相关文献
Web抓取是一种数据挖掘技术,通常用于从不同的在线数据源提取非结构化数据,并将获取的数据重组和转换为结构化形式,以便在数据库[7]中进一步存储和分析。设计良好的web scraper的好处在于它能够自动地筛选目标数据源并将有价值的信息形成一个全面的数据集。web抓取有不同的形式,包括复制和粘贴、文本抓取、HTML解析和其他[7]。web抓取的一个好处是它模拟了人与网页的交互,可以从网页本身获得属性数据[8]-[10]。这是有益的,因为它引入了与指定查找的主题相关的相关信息,而不是搜集错误信息。例如,翁和他的同事利用网络刮板技术收集大规模的园艺产品信息数据集,利用自回归综合移动平均线(ARIMA)和综合回归神经网络(RNN)模型[11]预测价格波动趋势。Pawar和他的同事们在印度阿育吠陀系统[12]中使用了一个刮网器来搜索药用植物和相关疾病。
Web抓取被广泛应用于流行病学研究和公共卫生研究。通过从互联网上抓取和分析基于文本的数据,研究人员可以成功地检测疾病和食品危害,以及预测潜在的流行病。例如,Pollett和他的同事使用网络scraper作为一种工具来抓取非结构化的互联网新闻数据,以及时发现来自媒介传播疾病[13]的暴发和流行。瓦利德和他的团队花了两年时间收集了全世界的推特数据。通过对瓦利德的数据进行情感分析和自然语言处理,他们建立了一个检测和预测癌症的模型。除疾病检测外,网刮技术也应用于食品危害检测和传播。任教授等人从新闻和社交媒体(sns)上搜集有关食品危害事件的资料,建立了韩国食品危害预防和控制系统[15]。Majumder等利用HealthMap收集的web抓取数据结合谷歌趋势时间序列数据计算R0,预测2015年寨卡病毒的爆发水平[16]。除了从互联网资源中抓取基于文本的数据外,还将图像作为有价值的数据集来支持公共卫生研究。例如,Li等人从Instagram上抓取了与非法毒贩相关的照片和帖子。应用3种不同的深度学习模型,[17]成功检测出1129名毒贩。
同样的技术也可以应用于COVID-19相关的数据收集。Chen等采用网络爬虫收集在线教育平台的情感和体验数据,用于用户评估大流行[18]下的在线教育满意度和质量。La等人扫描和收集了越南有关COVID-19的官方媒体新闻,以评估政策制定、社交媒体和科学新闻对疫情的反应。Xu等人在新冠肺炎疫情爆发初期抓取中国武汉的微博,分析公众反应、知识和态度[20]。他们的发现可能为未来的政策制定和未来可能的疫情应对提供支持。
然而,值得指出的是,由于信息搜集者可以获取个人信息并将其发布给开放数据库[21]-[23]。当刮刀检索医疗记录时,这变得更加敏感。在我们的研究中,COVID-19网络scraper旨在收集正在全球发布数字数据的国家的精细尺度的COVID-19时空记录,并将它们聚合到一个中央数据库中,而不是直接处理个人医疗记录。
3. 数据类型和可用性
COVID-Scraper是为了自动和定期收集世界各国发布的COVID-19时空记录而开发的。然而,这些记录在不同国家的可获得程度不同(图1)。一些国家,如美国和中国提供了可靠的、全面的、经过充分处理的、准备通过官方门户使用数据集。这些数据集通常是逗号分隔值(CSV)表格或JavaScript对象表示法(JSON)结构化格式,存储在独立文件或云共享文档中,如谷歌Spreadsheet[24]。土耳其和智利等其他一些国家也提供了有关COVID-19的信息,但组织不力。例如,数据可以发布在PDF文件中的动态网站上,也可以嵌入到基于图像的文件中。在这些上下文中,数据集不能由基于文本的处理算法直接和自动地读取和解析。因此,应该开发和集成先进的技术来挖掘预期的数据集,从那些非结构化数据源中提取所需的信息,并将它们转换为用户定义的数据结构,以便存储和共享。目前,COVID-Scraper每天扫描和刮除所有有可用数据源的国家(图1),并将跳过没有任何可用数据源的国家。
国家表1中列出的主要焦点COVID-Scraper,提供COVID-19记录在非结构化和组织良好的格式(表1)。我们的工具集每次运行前检查数据源确认可用性和报告例外如果数据源是不再有效或数据类型/格式已经改变。
从计算的角度来看,不同国家发布的COVID-19记录数据类型分为结构化和非结构化两种。CSV是结构化数据最常用的格式之一。然而,官方来源也采用其他格式发布表格案例数据。例如,来自巴西[32]的案例数据是Microsoft Excel格式(.xlsx),在进一步处理之前需要将其转换为CSV。JSON是结构化数据的另一种格式,通常作为独立的JSON文件或由数据源通过API提供。除结构化数据格式外,非结构化数据格式还包括原始HTML、PDF或图像(jpg、png、bmp等)。
开发COVID-Scraper是为了适应各种类型的结构化或非结构化格式的COVID-19案例数据集。在我们的研究中,开源软件包和浏览器渲染工具[83]已经被应用于支持抓取、解析和分析不同的数据格式。一旦从数据源中提取所需的COVID-19时空记录,COVID-Scraper将对数据进行过滤、组织并存储到同一数据框架下的单个数据库中。在第六节中,将讨论COVID- Scraper的自动化方法、结构和详细实现方法,针对来自不同国家的每种类型的数据。
图1:全球范围的数据可用性和COVID-Scraper覆盖范围。
图2:总体工作流程。
4. 方法
COVID-Scraper工具集的整体工作流程包含七个步骤(图2):
1.检测官方的、值得信任的COVID-19时空数据记录的每个人的国家。为每个目标国家选择一个首选的数据源。
2.扫描所有目标数据源,分析需要收集和提取的数据类型。
3.调整模板爬虫单元,以适应每个独特数据源的特定需求。测试它并验证只从目标数据源收集预期的数据。
4.将所有爬虫程序组装成一个工具集,并托管在一个自动化平台上。在我们的运营版本中,GitHub的行动已经被用于此目的。通过利用GitHub动作,开发和配置了一个工作流,包括管理抓取任务、处理异常和处理频率,以按需自动运行COVID-Scraper。
5.从配置的临时数据存储路径获取收集的结果。根据唯一的地理id合并和匹配这些数据。根据用户设置统一数据结构。
6.验证数据质量并将它们作为数据产品推送到数据库中。
7.可视化生成的数据产品,并将其作为web服务发布,用于共享、交互式查看和查询。
从算法实现的角度来看,在COVID-Scraper的初始化阶段,将HTTP请求发送到所有选定的数据源(图3)。通过开源包对获取的数据集进行不同格式的解析,可以提取每个国家的COVID-19时空记录。在所有需要的数据集被自动收集、解析、匹配和合并之后,整个数据集将作为最终的数据产品被推送到数据库中。
为了成功地容
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[589793],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。