域名解析_香港服务器可以备案吗_免费

企业应用 虚拟云 浏览

小编:最近,大田宣布了我们与云数据平台雪花的战略合作关系。在Dataiku,我们通过协作、弹性和负责任的人工智能支持组织数据工作的敏捷性,所有这些都在企业范围内。雪花帮助组织在

Dataiku与雪花数据科学的整合:一个真实的例子

最近,大田宣布了我们与云数据平台雪花的战略合作关系。在Dataiku,我们通过协作、弹性和负责任的人工智能支持组织数据工作的敏捷性,所有这些都在企业范围内。雪花帮助组织在所有主要云上轻松地转换、集成、分析和安全地共享数据,使它们能够收集和处理比以往任何时候都多的数据。因此,毫不奇怪,这种伙伴关系是一种有机的配合,帮助组织建立端到端的数据科学工作流程,并加快其数据科学和人工智能计划。为了演示Dataiku和Snowflake集成的机器学习如何帮助组织部署和管理其分析和人工智能项目,以及快速生成可操作的数据科学见解,从而推动经常性的商业价值,我们将分享Dataiku和Snowflake团队最近的一个项目一起。在这篇文章发表时,美国各州目前都在关注COVID-19的回收以及逐步放宽限制并最终重新开放。随着州和县开始放宽限制,案件可能再次激增是一个严重和合理的关切。然而,我们对这一风险在不同地区之间的差异知之甚少。Dataiku和Snowflake合作分析疫情的数据,以确定数据中的模式,这些模式可能会推动地方和个人的决策,并最终改善恢复。这篇博客文章的其余部分重点介绍了项目期间采取的关键步骤。项目背景及假设使用的数据通过雪花数据市场公开。它由Starschema管理,由来自可靠来源的多个COVID-19数据集组成。我们使用的数据集是《纽约时报》、亨利·J·凯泽家族基金会的几个数据集以及美国人口普查的人口统计数据。以下是项目中使用的数据集:NYT_US_COVID19:每天每个县的病例数和死亡人数(3/24/20至今)KFF美国政策行动:国家颁布的健康相关政策(如带薪病假)肯德基州缓解措施:各州的社会政策(例如,禁止大型集会)KFF逯US逯ICU逯床:按县划分的医院数量、ICU床位人口统计:男性/女性,按县划分的总人口利用与COVID-19发病率和人口统计学相关的特征对相似的县进行分组。例如,我们可以根据发病率的增加,进一步按高风险和低风险对县进行分组。然后,我们可以看到哪些政策和资源与高风险和低风险集群相关,以潜在地为减轻COVID-19的传播和个人风险提供信息。项目内部首先,我们从数据准备开始。我们选择并请求访问雪花数据市场中的相关数据集。一旦访问了数据集,我们就在Dataiku中创建了一个到Snowflake实例的连接。接下来,我们使用Dataiku提供的各种配方,按县和日期将数据集连接在一起。然后,我们计算了每个县从一天、一周和两周的新增病例和死亡的百分比变化。最后,我们将数字特征(如医院数量)按人口进行标准化。建模:我们使用K-均值聚类将相似的县分组在一起(K=8是基于轮廓得分的最佳聚类数)。每个群集由以下功能定义:每个县的病例总数和死亡人数与前一天相比病例和死亡人数的变化上周病例和死亡人数的变化两周前病例和死亡人数的变化每个县的医院数量每个县的ICU床位数纬度经度男性人口女性人口总人口日期在查看结果时,两个集群似乎从其余的数据集中突出,这两个集群被确定为高风险。推动聚类结果的主要因素是病例数和人均死亡率(每天、每周和前两周)的增加。这两个集群被标记为高风险县,所有其他集群被标记为低风险县。结果数据在聚类之前是标准化的,这意味着没有自然偏向于人口稠密或人口较少的地区。也就是说,高风险县的人口平均比低风险县多,但人口范围更大。它们基本上覆盖了美国的所有地区,特别是中西部和东部地区,包括受COVID-19影响显著的地区(如密歇根州、路易斯安那州)。与低风险县相比,高风险县(下图中较暗的点)的人均病例数和死亡人数显著增加,病例增加率更高(每天、每周、每两周),医院更少,但人均ICU床位比低风险县多(通过两个样本t检验来衡量)。比较高风险与低风险:地区政策在确定高风险县和低风险县之后,我们研究了风险与州和县政策之间的关系。以下图表显示了高风险组和低风险组每个县每天病例数的平均差异。然后,每个国家的平均案件数量每天都在增加,而风险则是按居家订单、基本业务运营以及酒吧和餐厅的限额来划分的1在家待命令案件增加总体而言,低风险人群的病例增长相对平稳。高风险县的人均病例一天增加量几乎是高风险县人均新增病例数的两倍,在高风险县,存在全州范围内的、解除的或脆弱的人口只留在家里的秩序。*y轴的值在前一天的情况下发生变化,按人口标准化 2非必要业务关闭导致案件增加低风险人群的病例增长持平。当没有非必要的业务关闭指导方针时,高风险群体的增长率最高。三。酒吧和餐厅数量增加高风险县的病例增长率最高,这些县重新开放后只提供有限的用餐服务。除外卖/送货或因容量限制而重新开放的餐厅外,酒吧和餐厅关闭时,病例增长率最低。展望未来像这样一个数据驱动的项目的价值使人们能够从更微观的层面了解正在发生的事情,特别是在他们所在地区颁布的政策,最终更好地为他们的个人决策提供信息。很明显,并不是所有的郡都是一样的——它们的风险程度各不相同,而且不可能在全美国范围内实行全面的重新开放解决方案。人们现在可以搜索他们所在的县,看看他们是否生活在高风险或低风险的县。他们还可以看到哪些政策在本县实施,这些政策是与高风险县还是低风险县相关联,并根据自己的舒适程度做出决策。Dataiku的协作驱动平台和Snowflake的性能和易部署性使客户能够在其组织内实施全面、无缝的数据科学和分析集成,从而消除数据和流程孤岛,促进跨职能协作,为团队提供有价值的见解,以便进行深思熟虑的决策。

当前网址:http://vmchk.cooou.com/share/28304.html

 
你可能喜欢的: