数据科学家 (Data Scientist) 的核心技能是什么?

关注者
6,842
被浏览
1,218,095
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

对数据有极端敏锐的直觉,对数据背后的本质有天才般的认知。

对业务、问题、理论知识拥有科学家一般的洞察力和深入的理解。


Qiang Yang

老师曾经说过:【对数据非常敏感的人,我们要把他们供起来。】

Chih-Jen Lin

老师曾经说过:【‘Feature engineering往往比model selection重要。】

作为一名data scientist,可能需要很多技能:data management, statistic,machine learning,coding,visualization等等;每种技能展开来说,又有五花八门的工具和知识需要学习,颇有写full stack的味道。

但是data scientist之所以为data scientist,而仅仅是programmer或者statistician,正是因为它的名字里同时有datascientist两个单词。

data:data scientist的所有工作都是data motivated的。不管掌握的知识和技能多么眼花缭乱,最终都是要回归到数据上去的。因此对数据的敏感程度直接决定了你将会如何使用手头的工具和知识,最终影响到conclusion的质量。庖丁解牛,之所以游刃有余,在于其【目无全牛】,每一刀下去都及其精准,而不在其用的是牛刀还是电锯;同样的,上个月有幸听取

Chih-Jen Lin

老师的讲座:Machine Learning on big data,全程不过Linear Regression和Linear SVM两个模型,但在他手里却能解各种复杂的、非线性模型解决不了的问题,其功底在于feature engineering,在于洞察big data背后的本质,进而化为己用,最后不管在准确度、性能、稳定性上都高出同行的其他工作。因此对数据及其深入的了解和极端敏感的直觉,是data scientist的首要核心技能。

scientist: data scientist的另外一个区别于其他类似职业的特性就是深入。且不管scientist这种叫法是否合适,但是被称作scientist的人必须永远是走在cutting-edge的人才,同时也必须是对问题、数据、方法、结论都有着深入理解的人,而不仅仅是停留在数据、现象、问题的表面,否则就变成了机械、简单、重复的统计分析。因此,data scientist作为交叉学科人才,并不仅仅要求你拥有七十二般武艺,更需要你在关键的领域拥有对知识全面而深入的理解,看问题的角度需要独到犀利。除此之外,你还要像一名真正的scientist一样,拥有强烈的探索欲、好奇心、行动力。

现在,人人都在说大数据时代来了,中关村大大小小的咖啡厅里都在谈论着big data,到底什么才是big data?big data不是单纯的大数据,不是几千几万的数据变成了千万、上亿的数据。还原论的反对者告诉我们,简单个体的重复累加,产生的不只是量的变化,更是质的飞跃。数据量从几千几万编程几千万几亿,改变的也不仅仅是量,更是数据本质的改变。

大数据真正代表的是复杂数据,而非单纯的大量数据。

对数据有极端敏锐的直觉,对数据背后的本质有天才般的认知、对业务、问题、理论知识拥有科学家一般的洞察力和深入的理解,这两种能力,正是探索复杂数据所必备的;更一般地说,数据科学家不管掌握什么样的技能,最后一定要落到解决复杂数据所带来的问题,就一定不会错。这样的能力也是任何程序员、工程师、设计师、各种分析师所没有的,That is what makes you irreplaceable。