如今,数据科学几乎都会引起IT和业务主管们的兴趣。但数据科学确实会出问题。
事实上,利用科学方法、流程、算法和技术系统从结构化和非结构化数据中获取各种见解的数据科学项目可能会以多种方式失败,从而导致时间、金钱和其他资源的浪费。存在缺陷的项目可能会导致决策者误入歧途,从而导致企业遭受的损害大于收益。
以下是数据科学项目未能如预期那样成功的一些最常见原因。
数据质量差
不良数据会导致数据科学工作变得很糟糕,因此花时间来确保数据的质量,这是至关重要的。任何分析工作都是如此,数据科学当然也是如此。
当企业在数据科学项目中使用不干净的数据时,他们最终将“看到会产生奇怪输出的模型,(并且)会看到该输出并没有代表实际情况或没有表现出使事情变得更好的一个过程,”莱利说。
有时,由于数据集中存在偏差或差异,所以数据质量很差。
对要解决的问题没有明确定义
如果团队成员不了解他们试图解决的业务问题,那么数据科学项目如何能成功完成?然而,当数据科学团队在开展某些项目时,他们有时就会遇到这一问题。
网络安全公司Kenna security的首席数据科学家迈克尔•罗伊特曼(Michael RoytMan)表示:“定义某一问题的过程通常是数据科学家的工作,而实际上,定义某一问题(包括)多种业务情况,既涉及确定工作范围,又涉及界定潜在的投资回报。”
医疗咨询公司IMpact AdvisoRs的高级顾问兼虚拟首席信息官马克•约翰逊(MaRc Johnson)表示,希望利用数据科学的业务用户需要就他们想要解决的问题提出一些探索性问题。
缺乏相关数据
数据科学工作必然出问题的另一方式是不提供解决某一特定问题所需的特定类型数据。
对某一问题提供大量数据并不能解决问题。有一种想法是,大数据会带来洞察力,但实际上很少有这种情况,罗伊特曼说。适合的、定制的且通常较小的数据集常常会带来完善的和可归纳的模型。
缺乏数据透明度
团队需要对他们用于构建任何给定模型的数据保持透明度。当人们不信任该模型或不理解该解决方案时,数据科学项目就会失败,新泽西州司法机构的首席信息官杰克•麦卡锡(Jack McCaRthy)说。
数据科学家需要解释数据的来源,他们为计算模型做了什么,并要提供对所有相关数据的访问权。透明度是项目成功的关键,麦卡锡说。
不愿意承认研究结果的不确定性
罗伊特曼表示,有时需要获得洞察力的业务团队或数据科学团队本身根本不愿意承认其研究结果不确定、不清楚或不够完善,或者甚至无法进行业务应用。
缺乏执行负责人
数据科学工作需要一位来自高管层的负责人,以确保项目获得足够的资源和支持。
数据科学不是正确的解决方案
如果某个特殊问题起初不需要数据科学作为其解决方案,那该怎么办?这种对数据科学的错误使用可能会导致项目的失败,因此应仔细考虑何时该使用以及何时不该使用数据科学方法、流程和工具。