|
|
51CTO旗下网站
|
|
移步端
  • 转业数据科学工作要求掌握哪些技能?

    本文通过国外KDnuggets论坛上Simplilearn的统计结果和国内某知名招聘网站的招聘要求信息进行分析,详细介绍在数量科学的上班中,要求掌握哪一部分艺术以及工具,以及当时数据科学工作中,哪些技能和工具是从事人员的读书首选。

    笔者:CDA数据分析师 来源:当日第一| 2020-01-09 17:28

    本文通过国外KDnuggets论坛上Simplilearn的统计结果和国内某知名招聘网站的招聘要求信息进行分析,详细介绍在数量科学的上班中,要求掌握哪一部分艺术以及工具,以及当时数据科学工作中,哪些技能和工具是从事人员的读书首选。

    海外KDnuggets血站曾发起民意测验调查,谈起了以下问题:

    1)您目前获得哪些与数据科学/机器学习相关的技艺?

    2)您想上学或进修哪些技能?

    KDnuggets检察结果分析

    该民意调查获得了1500份以上有效的答案,样本足够大,由此做出来的推断是比较有参考意义之。此次调查仅有两个问题,咱们将穿越这两个问题的结果:现已掌握&精算学习这两个指标进行分析。检察结果表现,平均每个人具有10种艺术,平均每个人愿意学习或进修6.5种艺术。

    下的向往1表现了第一发现,X轴显示已有技能,对应第一个调查问题的结果,Y轴显示想要技能,对应第二个调查问题的结果。每个圆圈的高低与拥有该技术的人头的比重成正比,而颜色则取决于需求/已部分比率(革命高-大于1,蓝色低-小于1)。

    转业数据科学工作要求掌握哪些技能?

    咱们注意到此图中的两个第一品种。 图片右侧蓝色虚线矩形中的第一类中包含了税率超过40%的技艺,他急需/获得的比率小于1。咱们称他为主干数据科学技能。

    转业数据科学工作要求掌握哪些技能?

    其中,最需要增加或改进的技艺是机器学习(41%)和Python(37%)。增强最少的技艺是Excel-只有7%的人数愿意增加或提高其Excel技术。

    其次个集群,是图1左侧用革命边框标记的这些,包括目前不那么受欢迎(%Have <30%),但是使用比例可能却在加强之技艺,需要/已有比超过1。咱们称他新兴的多寡科学技能。

    转业数据科学工作要求掌握哪些技能?

    有意思的是,尽管有见识认为Hadoop在下降,但在当年调查中,有更多的人数愿意学习Hadoop,而不是已经清楚的东西,故此他仍可能越来越流行。

    尽管Julia的急需/已有率高达3.4,但我们并未将他包括在热门/后来技术中,因为仅有2%的总占比,比例太低,没有有效的多寡支撑。

    其他技能划分为序三类,包含了XGBoost,软件工程,Java,MATLAB,SAS,虽然占比在10%至30%间,汇率并不算低,但并没有加强,需要/已有比率<1。

    转业数据科学工作要求掌握哪些技能?

    现实技能的排名情况如下所示,离别以已有率和需要率的高低进行排序展示。

    转业数据科学工作要求掌握哪些技能?
    转业数据科学工作要求掌握哪些技能?

    咱们可以发现,眼前和有理想的多寡科学家最想要上学之进修的技艺是深度学习,Tensorflow,机器学习和Python。

    根据调查,咱们发现有部分主导的、稳定的多寡科学技能,它们有的是死亡率很高,局部是目前非常关键、热门的技艺。

    艺术技能:计算机科学

    1、春风化雨

    数量科学家受过高等教育,并且有高达88%的人数至少具有硕士学位,46%的人数获得博士学位。尽管有特别,但通常需要特别强的启蒙背景,以提高成为多少科学家所需的所见所闻深度。要成为多少科学家,您可以获得计算机科学,社会科学,物理科学和伦理学的文人学位。最广泛的研讨领域是社会学和伦理学(32%),从是计算机科学(19%)和伦理学(16%)。该署学科中的任何一个学位都将为您提供处理和分析大数量所需的技艺。 形成学位课程后,并不意味着已经成功。真相是,绝大多数数目科学家都获得硕士学位或博士学位,并且他们还接收在线培训以读书特殊技能,例如如何使用Hadoop或大数量查询。故此,可以通过学习数据科学,考古学,天体物理学或其它其他相关领域的硕士学位课程。采取在学院学到的技艺使您轻松过渡到数据科学。 除了课堂学习的外,您还可以通过构建应用程序,创造博客或探索数据分析来练习在课堂上学到的所见所闻,以使您学到更多。比如CSDN、Github、Kaggle等。

    2、R编程

    在过去,普通首选R语音作为对数据科学的剖析工具。R是有哲学家,唯一为数据科学需求而设计的。可以运用R消灭在数量科学中遇到的其他问题。实际上,如今有43%的多寡科学家正在使用R来解决统计问题。但是,R具有陡峭的学习曲线。

    相对现在非常热门的python这样一来,R很难学习,尤其是如果您已经控制了编程语言。但是,互联网上有恢宏资源得以协助学习,对于有理想的多寡科学家来说,这是一番巨大的风源。

    3、Python编码

    不同于Java,Perl或C / C ++,Python是数量科学工作中常见使用到的最广泛的编码语言。对于数据科学家而言,Python是一种很棒的编程语言。这就是为什么接受调查的受访者中有40%表示,采用Python表现他首要编程语言的由来。

    出于他的多爆炸性,租用者几乎可以将Python用于数据科学过程中涉及的一切步骤。他可以行使各种体式的多寡,并且使用者可以轻松地将SQL表面导入代码中。可以创造数据集,并且可以在Google上找到所要求的其他类型的多寡集。

    4、Hadoop平台

    尽管Hadoop并不是不可或缺的,因为它是大数量平台,但在诸多情况下,他是首选。获得Hive或Pig的阅历也是一番刚。深谙诸如Amazon S3等等的云工具也可能会有所帮助。在对3490个数据科学工作者进行的一项研究调参中,Hadoop以49%的占比把评选为数据科学家第二重要技能。 表现数据科学家,可能会遇到这样一种情景,即拥有的多寡量超出了系统之内存,或者需要将数据发送到其它服务器,这就是Hadoop的用武之地。租用者可以运用Hadoop来快速将数据传输到各种玉器。同时可以运用Hadoop拓展数据探索,数量过滤,数量采样和集中等各个工作。

    5、必发娱乐登录/SQL编码

    尽管NoSQL和Hadoop已经化为多少科学的要害部分,但仍需要能够在SQL官方编写和推行复杂的询问。SQL(布局化查询语言)是一种编程语言,可以实行必发娱乐登录中添加,剔除和索取数据之类的借鉴。他还可以实行分析功能和转移必发娱乐登录结构。 表现数据科学家,要求精通SQL。这是因为SQL是绝无仅有为访问、打电话和处理数据而设计的。他具有简洁之指令,可以节约时间并减少执行困难查询所需的编程量。

    6、Apache Spark

    Apache Spark正在成为世界很受欢迎的大数量技术。就像Hadoop一样,他是一番大数量计算框架。唯一的分别是Spark比Hadoop快。这是因为Hadoop读写磁盘,这使他速度变慢,但是Spark名将他计算缓存在内存中。 Spark专为数据科学而设计,可帮助更快地运转其复杂算法。拍卖大量数目时,他有助于传播数据处理,故而节省时间。他还可以协助数据科学家处理复杂的非结构化数据集。可以在一台或多台微机上采取它。

    Spark使数据科学家可以防止数据科学中的数据丢失。Spark的劣势在于他速度和平台,这使得执行数据科学项目变得容易。采用Spark,可以拓展从数量获取到分布式计算的剖析。

    7、机器学习与必发娱乐手机版

    汪洋数目科学家并不精通机器学习领域和艺术。这包括神经网络,深化学习,对阵学习等。如果您想在任何数据科学家中脱颖而出,则要求了解机器学习技术,例如监督机器学习,决定树,逻辑回归等。该署艺术将救助您解决基于主要组织成果预测的不同数据科学问题。 数量科学需要在机器学习的不同领域中运用技术。Kaggle在这个项调查中表现,一小部分数据专业人员具备高级机器学习技能,例如有监督的机器学习,产业化监督的机器学习,时光序列,潇洒语言处理,离群值检测,微机视觉,引进引擎,生活能力分析,深化学习和对立学习。

    8、数量可视化

    商业世界经常产生大量数目。要求将这些数据转换为易于掌握的公式。人人自然比原始数据更了解图表和图表形式的图形。 表现数据科学家,必须能够借助数据可视化工具(例如ggplot、BI、Matplottlib和Tableau)可视化数据。该署家伙将救助您将项目中的复杂结果转换为易于掌握的样式。例如很多人口不了解序列相关性或p值等专业性的较强的词汇所发表的味道。您需要直观地向她们展示这些术语在您的结果中代表什么。 数量可视化使组织能够直接行使数据,可以快捷掌握见解,故而帮助她们把握新的商机并保持竞争劣势。

    9、非结构化数据

    数量科学家能够处理非结构化数据至关重要。非结构化数据是不适宜必发娱乐登录表的未定义内容。例如包括视频,博客文章,我家评论,张罗媒体文章,视频供稿,音频等。它们是纵横交错的公文、音频汇集在总共。 因为这些项目的多寡没有把简化,故此很难对他进行排序。 出于非结构化数据的纷繁,绝大多数人口将他称为“黑暗分析”。采用非结构化数据可帮助您揭示对决策有用之视角。表现数据科学家,必须具备理解和掌握非结构化数据的力量。

    骗术技能

    10、求知欲

    “我没有特殊才能。我只是充满好奇。” --达尔文。 好奇心可以定义为获取更多知识之心愿。表现数据科学家,要求能够提出有关数据的题材,因为数据科学家花费大约80%的年华来发现和准备数据。这是因为数据科学领域是一番提高很快的园地,数量科学家必须学习更多以跟上步伐。 数量科学家需要通过在线阅读内容并阅读有关数据科学趋势的相关书籍来定期更新知识。无需把遍布互联网的庞大数量量所淹没,数量科学家必须要能够理解如何理解所有数据。好奇心是成功成为多少科学家所需的技艺之一。例如,她可能不会对所收集的多寡有太多了解,但好奇心使她可以筛选数据以找到答案和更多见解。

    11、商业头脑

    要成为多少科学家,要求对自己所从事的行当有扎实的询问,并且知道本企业正在准备解决哪些业务问题。在数量科学方面,除了确定工作应该利用人家数据的新方法之外,还要能够辨别哪些问题对于业务而言至关重要。 故此,必须了解解决之题材是如何影响工作的。

    12、联系技巧

    追寻强大数据科学家的合作社正在搜寻可以知道,明快地将他艺术发现转化到非技术团队的口,例如市场或销售单位。数量科学家除了了解非技术同事的急需以适度地整理数据外,还必须越过用量化的视角武装他们来使企业做出决定。 除了说公司所能了解的相同语言外,还要求采取数据讲故事进行交流。表现数据科学家,必须掌握如何围绕数据创建故事情节,以使任何人都容易掌握。例如,呈现数据表,并不像以讲故事的措施共享来自那些数据的视角那样有效。讲故事将救助您正确地将您的意识传达给您的雇主。交流时,请注意在分析数据中嵌入结果和值。绝大多数企业所有者不指望知道您所分析的情节,而是对他如何对他们的工作产生积极影响感兴趣。欧委会专注于通过交流传递价值并成立持久的关联。

    13、团组织合作

    数量科学家不能独自工作。必须得和商社高管一起制定战略,与产品经营和设计师一起创建更好的产品,与市场人员一起开展转换效果更好的宣传,与客户和推进器软件生产商一起创建数据管道并改善工作流程。实际上,数量科学家将必须与商家中的每个人,甚至包括客户一起工作。 实质上,数量科学家将与组织成员合作开发数据产品,刺探解决问题所需的工作目标和数量。并且需要了解解决问题的科学方法,解决问题所需的多寡以及如何将结果转换和呈现为所涉及的每股人都容易掌握的情节。

    数据分析某知名招聘网站的招聘信息

    相对于国外的状况,境内的状况又是如何呢?拓展数据分析相关工作又要求哪些工作技巧呢?故此,特意爬取某招聘网站的有关数据分析相关职位的相关信息来开展分析,探讨国内数据分析工作之技艺要求。

    名将工具提取出来制作成词云图,其中字体越大,颜色越深的工具出现的效率越高,表明也越多企业希望能招到控制此技能的职工。可以很显然的看出,python是其中需求较高的技艺,从还有SQL、Spark、Hadoop、Excel等

    转业数据科学工作要求掌握哪些技能?

    根据工具与其出现的词频,测绘成条形图:

    转业数据科学工作要求掌握哪些技能?
  • python表现近年来最热门的编程语言,在数量科学领域也有这第一的位置,在一切招聘数据分析工作者的位置中,有多达1329专家集团公司明显希望找到能利用python的职工。
  • 而表现传统统计分析编程软件的R,位进第六,岗位需要仅有不到800,远不及python的发行量。
  • 同为编程语言的Hadoop和Spark离别位进第二、先后四,平均有1000内外的急需,表明当前大数量方向在数量科学中的重要性,市场对拥有大数据分析技能的人才有着很大的急需。
  • 表现非传统数据处理、清洗、剖析的编程软件Java和C语言,同样在这一世界有这不少之发行量,也在侧面说明了编程能力对于数据科学领域是一番重要的力量。
  • 在必发娱乐登录方面,Hive、Hbase、MySQL、Oracle出现的频数较高,sql表现必发娱乐登录的编程语句,并不属于一种独立的硬件,其实也包括了MySQL、Oracle在内的组成部分必发娱乐登录,故此MySQL和Oracle现实会有更高的市场人才需求。
  • Excel、SAS、SPSS也是数据分析工作中较多人采取的工具,脚下市场上对左右此类技能的人才也有这汪洋之急需。
  • 【编纂推荐】

    1. 让Python先后快30%的技艺
    2. TIOBE名单单发布:超越Python!C语言荣获 2019 寒暑最佳编程语言
    3. 写Python到底用什么编辑器好?鹅厂程序猿吵翻了
    4. 这5个Python特色,后悔没早知道
    5. 腾讯大佬告诉你,写Python到底用什么IDE正好
    【义务编辑: 华轩 TEL:(010)68476606】

    点赞 0
  • 编程语言  机器学习  Python
  • 分享:
    大家都在看
    猜你喜欢
  • 订阅专栏+更多

    Python使用场景实战手册

    Python使用场景实战手册

    Python使用场景实战手册
    共3章 | KaliArch

    14人口订阅学习

    一步到位玩儿透Ansible

    一步到位玩儿透Ansible

    Ansible
    共17章 | 骏马金龙1

    145人口订阅学习

    云架构师修炼手册

    云架构师修炼手册

    云架构师之必不可少技能
    共3章 | Allen在路上

    30人口订阅学习

    读 书 +更多

    网管员必读――网络组建(先后2版)

    《网管员必读――网络组建(先后2版)》仍是以一个中等规模之模拟局域网组建为思路,较全面地介绍了与局域网组建相关的各地方知识和组建、配...

    订阅51CTO邮刊

    点击这里查看样刊

    订阅51CTO邮刊

    51CTO劳务号

    51CTO官微




        &lt;form id="cdeaf74c"&gt;&lt;/form&gt;