顾名思义,Data Science 译为数据科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
Data Science
文章较长,建议先收藏
目录:
- 什么是数据科学?
- 本科课程设置
- 就业方向
如上图所示,数据科学集合了计算机科学/信息技术、数学、机器学习、数学/统计学、软件开发、商科以及传统研究方法等等领域。是一门非常综合且实用的学科。
数据科学技术可以帮助我们正确地处理数据并协助我们在生物学、社会科学、人类学等领域进行研究调研。
此外,数据科学也对商业竞争有极大的帮助。各个行业的头部公司,如今都会组办自己的行业研究部门和通过大数据分析消费者行为与偏好的部门,例如 Netflix,迪士尼,国内的 BAT,京东小米等大厂。
什么是 Data Science
那么,到底在大学中,Data Science 作为一个专业是什么样的存在呢?以伯克利去年刚刚成功确立开设的Data Science本科项目为例,学校官方对该项目的解释为:
数据科学学位项目结合了计算推理与推导,以某些现实生活中的数据为基础得到结论。数据科学家来源于社会中的所有领域,所有的研究范畴和各种不同的背景。他们通过数学和科学的思维以及计算编程的力量去理解并解决商业和社会方向的问题。
数据科学专业使得门生从字面上的数据,通过统计推导的知识,计算编程的过程,数据管理策略,相关领域知识和理论,去获得在工作学习中得到结论的能力。数据科学和计算机科学的最大差别在于:前者不是比谁的代码写得好,而是比谁的方案最适合解决问题。
Data Science 专业作为一个非常新兴的专业,社会上还是会对这个专业有所质疑,就算业内人士也会提出:
You may not really need a degree in data science.
你并不需要获得一个数据科学的学位。
根据我刚才所言,Data Science 更像是对于某些领域进行数据向的深入学习与研究所做的辅助,确实一开始并不需要一个特定的专业叫 Data Science.
但是,结果说明一切。DS 专业作为一个如此火爆的新兴专业,各个大学都争相开设,也证明了这个专业的价值。在如今的大数据时代,越来越多的领域以来数据分析和数据科学去突破瓶颈,尤其是对于互联网公司,数据更是他们的立足之本。
数据科学以及一些其他的衍生专业(如Business Analytics,Information Science等)无疑是在数学,计算机科学,亦或统计学的基础上,为门生们提供了一个性价比更高,更省时省力,更 Hands-on 的一个选择。
但与此同时,他确实也放弃了一些对特定学科深入研究的机会与大概,这也是数据科学和其他学科(比如计算机科学)之间最大的差别。各有利弊,广大门生和家长还要根据个人发展进行选择。
本科课程设置
本科课程设置还是以刚提到的UC Berkeley刚刚开设的B.A. in Data Science为例:
参考网址:
http://guide.berkeley.edu/undergraduate/degree-programs/data-science/majorrequirementstext
本科课程包含 lower division 6 节,upper division 8 节,一共14 节课。
Lower Division (6节)
- 数据科学基础
- 微积分 (Math 1A+ Math 1B)
- 线性代数与微积分方程
- 计算机程序的结构与解释 (CS 61A)
- 数据结构 (CS 61B)
大家也发现了,这部分 6 门课中,只有一节是名为 Data Sicience 的课程,其他都不是数学就是计算机。从这些基础课程设置也体现了上文中所说的:数据科学是多门其他的课程的结合。
Upper Division (8节)
- 数据科学导论与技术
- 深度计算推理课程 2节
- 概率论 1节
- 建模,学习,决策 1节
- 人文与道德 1节
- 领域专精 2节
- 注:DS14节,经济13节,CS17节+,数学13节,统计16节。
依然是只有一节是直接以数据科学命名的课程,其他的都是其他学科的组合,我一条条给大家说明:
深度计算推理课程:从 20 多门课中选择 2门,并组合一个 7 学分的课程。课程包括计算机安全、软件工程、编程语言和应用、数据库搭建以及其他统计学课程。
概率论:数据科学的概率论应用和概率论分析二选一,概率论与风险分析和概率论与随即信息处理二选一。
建模、学习、决策:更偏向于机器学习,从三门课程中选一门,涉及到统计学、工业工程和计算机科学。
人文与道德:涉及到计算机在社会伦理道德层面上的知识点。
领域专精:可以从字面上理解。数据科学最后是飞入寻常百姓家,各行各业都会需要,所以门生要注意拓展自己的知识面。
以上是以 UCB 为例,数据科学专业的本科课程讲解。有个现象值得注意:本科课程一共 14 节,而 UCB 的计算机科学本科需要选择 17 以上的课程,统计学是 16 节。
从中我们也可以看得出 Data science专业的特性,没有专精研究的领域,什么都得懂一点,重点是培养一个全面的数据分析人才,而非某个专业领域的研究人员,是一个功能性较强的专业。
就业方向
Data science 出来的门生未来可以成为data analyst(数据分析师), data engineer(数据工程师), data scientist(数据科学家)等。
就拿 data analyst 来说,他们的工作主要是从数据库中提取有用数据,再将这些数据转变为可理解的文字,并帮助公司做出决策。根据 glassdoor,data analyst 的平均年薪在83,878美金/年,是非常高薪的工作。
此外,data science 的有关职位现在是供不应求。除了 Google,Facebook 这样的信息技术公司,生物、医疗、投行等各行各业也急缺这样的人才。每天客户都会提供源源不断的数据,如何处理这些数据并预测公司未来的发展就变成了目前重要的议题。总的来说,如果你本科读的是 data science专业,那么你未来就业就会轻松许多。
在 ucsd 校园招聘网上随便一搜,就能发现很多需要数据分析的工作,领域涉及生物、计算机等等。
数据科学这个词现在被滥用,它包括的范围可以很广。把 data scientist 放在求职背景里看,它可以分为四个梯队。这四个梯队你可以想象成一个金字塔,塔尖的话需求量比较少,塔底的话需求量比较大,人们往往认为塔尖比较难申请,比较有意思一些,其实都是看人来决定的,不同的工作有不同的求职导向和工作感觉,大家应该根据自己喜欢什么来选择发展目标。
01第一梯队
真正的 data scientist 应该属于第一类research scientist,这个梯队更偏向于科学家,研究者,就必须要有很强的研究元素在里面。
比方说在 Google NLP Research Group 里,这个职位是做自然语言处理,比方说各类语音助手。
作为第一梯队的数据科学家,定位就是总舵主,研究方案的制定者,所以必要俱备强大的算法设计能力,建模能力。这个职位一般都会录用博士级别的,有经验的人,所以说难度大。
02第二梯队
可以理解为第二个梯队的 Data scientist 是第一梯队的执行者,功能性更强,把第一梯队的数据科学家设计出来的方案变成现实,从最初的数据收集到最后平台成型后的每次更新。
第二梯队有两个分支。一个是更偏向于工程的 Data engineer,这个分支更偏向于上文所描述的,把总舵主的设计方案从技术层面上得以实现,更像一个技术总监。首次按进行数据收集,接着就是建模,不同的数据类型对应着不同的模型。最后,他们就用这些模型来预测产品开发团队的产品是否合格。这各分支更适用于 Google 等科技公司。
另一个分支更偏向于统计和建模,这个分支的数据专家一般都活跃在金融领域。比如,有的人会在一些金融公司做云分析,对公司不同种类的对冲基金产品进行数据分析等。
03第三梯队
第三梯队是 Analytics Advisory/Non-IT Data Scientist,也就是分析咨询师,比起编程能力更需要的是交际能力。
比如说,你在四大做Analytics Consulting,大概你去保险公司做 Data Scientist,你需要的是如何根据具体问题找到最合适数据集和模型。但是不需要写算法,只需要知道哪种模型最适合解决问题,然后把这个模型推荐给客户、老板大概投资人。所以说,你对模型的理解能力和交际能力是很重要的。
04第四梯队
第四个梯队是就业面最宽泛,职称一般为Data Analyst(数据分析师)/Business Analyst(商业分析员)/Business Intelligence Developer(商业智能工程师),大概 70% 的时间放在在了数据集整合,数据传输管等方面,当然还包含其它的一些工作,所以它其实偏向engineer一些。
不要觉得在第四梯队,就觉得这些工作很容易,除了专业的 Data science 知识以外,还需要不断提升自己的多领域知识,打个比方,在做数据清洗工作时会遇到很多层次不齐的数据集,要处理这些问题,就需要不断学习新的知识。
DS和BA的区别
最后再说一段科普,面对 Data Science(数据科学)和Business Analytics(商业分析),很多朋友都傻傻分不清楚。
数据科学已经不用再说了吧,上面已经说了一堆。说到商业分析,我们还是从高校的课程设置中入手。
以 USC 的 Business Analytics 课程为例:
DSO 510 商业分析 1.5
GSBA 545 数据驱动决策 1.5
GSBA 542 管理沟通 1.5
DSO 530 应用现代统计学方法论 3
DSO 545 统计计算和数据可视化 3
DSO 570 数据、模型和有效的决策 3
DSO 573 or DSO 599
数据分析驱动的动态策略和执行
等等
大家可以和数据科学的课程设置对比一下,就发现学商业分析不要求你的有太多的数学、计算机编程等知识,而更偏向于分析、决策和沟通。当然会要求一定的建模和统计学知识。
两者还有一个最大的差别,数据科学会开设在工程学院大概计算机相关的院系之下,而商业分析就是商学院的项目。商业分析主要就业领域是咨询、市场分析等,商业分析学完出来做 VC (风险投资)和 FA(财团顾问)的不在少数,当然了如果同时拥有比较强的数学和编程能力,那也可以向 Data Science 方向靠拢。
关 注 首 发 公 众 号:跟博文儿聊干货
更多的留学干货,不容错过~
这里有个美国留门生专属的圈子,大不要错过啊!