开放可获取、完整、细颗粒、及时、可机读、结构化数据,对疫情防控尤为重要。
疫情防控,科技公司一直在行动。
在全球疫情蔓延的情况下,3月31日,谷歌启动了一项名为“covid-19 public datasets(新型冠状病毒公共数据集)”的项目,托管一个与疫情相关的公共数据资料库,并免费向外界开放,用户可以自由访问,以及自由分析其中的数据信息。
“covid-19 public datasets”是什么?
据项目官方解释,“covid-19 public datasets”中的数据,囊括了jhu csse(约翰·霍普金斯大学系统科学与工程中心)数据集、世界银行的全球健康数据和openstreetmap数据,它们都被存储在了google cloud 上,并带有“covid-19 ”标签,研究人员可以免费访问和查询,并通过bigquery ml服务(一个完全托管的数据仓库)直接在内部使用这些数据训练高级机器学习模型,直至2020年9月15日。
谷歌方面表示,“covid-19 public datasets”的启动是为了更好的为‘以教育和研究为目的’的工作者提供赋能服务,我们不会加入或管理phi(一个致病菌的数据库)或pii(个人验证信息)数据,希望尽最大努力阻止疫情蔓延。
不过需要注意的是,如果用户要将“covid-19 public datasets”和其它非新冠病毒数据集结合使用,那么bigquery sandbox将以字节为计,在每月的免费额仅有10gb存储空间和1tb查询空间之外,超出部分则按量收费。
疫情之下,开放数据集意味着什么?
数据统计显示,截至到昨日下午2点,全球covid-19病毒确诊感染人数已超72万人,死亡人数达3.4万人。
但与此同时,正因数据量庞大、分散,研究人员面临着极高强度的数据分析工作。除此之外,数据信息的不完整和部分不公开,也在一定程度上让大众对疫情了解不够全面。也因此,开放可获取、完整、细颗粒、及时、可机读、结构化数据尤为重要。
此前,为加强全球疫情防控联动,多个科技界、学术界机构便联合推出了一个公开数据集“cord-19”,其中涵盖了截至3月13日之前的近3万篇新型冠状病毒相关论文,以及针对文本进行优化的文本处理工具包scispacy、在科学文本上进行预训练的bert模型scibert、开放研究语料库和api等。
而针对谷歌的“covid-19 public datasets”数据集,descartes labs的工程主管sam skillman评论称,“谷歌在bigquery中开放并提供covid-19数据将极大的推动研究人员进行数据分析,特别是免费查询服务的推出,会吸引更多人参与到这一项目中来,这对全球数据共享、提升数据分析能力、普及病毒信息非常有帮助。”