您现在的位置是:首页 >互联网 > 2021-05-05 01:19:20

科技前沿信息:基于Web的系统自动评估来自遥远数据科学家的提案

相信很多人在写稿子的时候,大多数人都会特殊关注文章的开头怎么写得美丽,小编也不例外,但是今日小编就只想简答开头介绍一下关于基于Web的系统自动评估来自遥远数据科学家的提案的消息!

在分析大数据集时,第一步通常是识别“特征” - 具有特定预测能力或分析效用的数据点。选择功能通常需要一些人的直觉。例如,销售数据库可能包含收入和日期范围,但可能需要人们认识到平均收入 - 收入除以范围的大小 - 才是真正实用的指标。

麻省理工学院的研究人员开辟了一种新的协作工具,名为FeatureHub,旨在使功能识别更加高效和有效。使用FeatureHub,有关特定主题的数据科学家和专家可以登录到中心站点,花一两个小时检查问题并提出功能。然后,软件针对目标数据测试无数的功能组合,以确定哪些对于给定的预测任务最实用。

在测试中,研究人员招募了32位具有数据科学经验的分析师,他们每人花费5个小时使用该系统,熟悉它并使用它为两个数据科学问题中的每一个提出候选特征。

该系统产生的预测模型与那些提交给名为Kaggle的数据科学竞赛的人进行了测试。Kaggle条目得分为100分,FeatureHub模型在两个问题的获胜条目中分别位于三和五分之内。

但是,如果得分最多的是数周甚至数月的工作结果,那么FeatureHub条目就会在几天内完成。虽然单个数据科学项目的32名合作者按照今天的标准很多,但麻省理工学院电气工程和计算机科学研究生Micah Smith在帮助领导该项目方面有着更大的抱负。

FeatureHub - 就像它的名字一样 - 受到GitHub的启示,GitHub是一个开源编程项目的在线存储库,其中一些已经吸引了数千名贡献者。史密斯希翼FeatureHub有朝一日能达到类似的规模。

“我希翼我们可以帮助成千上万的人在单一解决方案上预测交通事故最有可能在纽约市发生的地方,或预测医院中哪些患者最有可能需要一些医疗干预,”他说。“我认为大规模和开放数据科学的概念可以真正用于那些具有强大社会影响但不一定是单一盈利或政府组织协调响应的领域。”

Smith和他的同事们在IEEE国际数据科学与高级分析会议上发表了一篇描述FeatureHub的论文。他的论文合着者是他的论文顾问,麻省理工学院信息与决策系统实验室的首席研究科学家Kalyan Veeramachaneni和Roy Wedge,他开始与Veeramachaneni的团队一起担任麻省理工学院的本科生,现在是Feature Labs的软件工程师,一家基于集团工作的数据科学公司。

FeatureHub的用户界面建立在一个名为Jupyter Notebook的通用数据分析软件套件之上,功能集的评估由标准机器学习软件包执行。功能必须用Python编程语言编写,但它们的设计必须遵循故意保持语法简单的模板。典型功能可能需要5到10行代码。

麻省理工学院的研究人员编写的代码介于其他软件包之间,治理数据,汇合许多不同用户提交的功能,并跟踪那些在特定数据分析任务中表现最佳的功能集合。

在过去,Veeramachaneni的小组开辟了一种软件,通过从数据组织方式判断数据之间的关系,自动生成功能。但是,当缺少该组织信息时,该方法效果较差。

史密斯想象,自动特征合成可以与FeatureHub结合使用,在志愿者开始为他们做出贡献之前开始项目,节省了计算明显特征的笨拙工作,并增强了人类贡献的最佳功能集。