从事数据分析行业已过三年,借鉴学习了很多大牛们的作品,一贯以来总想着整理总结自己在工作学习中的积累大概说是知识体系。但对于一个生活自律差的人来,大部分停留在脑海的边缘,时而想起痛苦,时而忘记回忆,终于在自己才华无法撑起自己的野心时,只有静下心来学习,才能慰勉自我,看清楚自己的未来。
作为开篇之作,我还是想以前人的总结和智慧之图,以此来描绘我的,你的,诸位立志从事数据科学的人们心中的疑虑和彷徨。
想必绘制此图的大神,定是一位温文尔雅、思维缜密的人,借此图为我们的数据科学之路导航。也祝这位大神平安健康,做你我数据科学远航途中永远的灯塔。
站在巨人的肩上,世界清晰了。下面是我结合活跃在各分享区的牛人们,以及自我数据实践总结出来的必备技能。
知识体系
- 学习线性代数、微积分、最优化、计算方法等,掌握计算推演能力;
- 概率论与数理统计中,掌握各类经典分布、假设检验、(非)参数估计、方差分析等知识;
- 机器学习中掌握常用的十大算法,算法原理,推演过程等;
- 深度学习中掌握感知机、BPNN、CNN、RNN、LSTM等理论;
- 逐步学习和掌握自然语言处理、语音识别、图像处理。
使用工具
- SQL能力,能够进行数据的增、删、改、查、汇总、简单ETL等;
- 核心武器之Python,掌握数据结构、函数、类;掌握常用库如scipy, pandas, MatplotLib,numpy,sklearn,...等;
- 核心武器之spark,熟练使用其进行各类的分布式机器学习;
- Linux,熟悉常用linux命令,熟练使用其进行数据分析,进行模型部署和自动调度;
- Tensorflow,最经典的机器学习框架,了解Tensorflow运行机制,灵活搭建常用模型和复杂模型。
- 其他工具如R、Scala、Java等。
落地实践
- 掌握实践方法论;如CRISP-DM,SEMMA,Tom Khabaza等
- 熟悉所属行业的业务模式,行业规范以及数据特点等;
- 具备实际业务场景的快速理解能力;如业务场景的流程和需求
- 具备实际业务中方案设计能力;如信贷关系中识别欺诈、高端客户流失预测等
- 具备对数据的好奇心和探索能力。
实践出真知,只有在更多的实践中,发现问题继而解决问题,才会真正将各个必备技能融会贯通。
大数据时代的到来,数据科学迅猛发展,掌握数据的往往是大型互联网、电商、金融、电信等企业,他们能够接触到相对前沿和亟待解决的数据挑战和技术难点,因此,学习和认知也不能闭门造车,要走出去,看世界,大概一切都会明朗起来。
借鉴警句,以此鞭策。
人一能之,己百之;人十能之,己千之。