100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 如何成为数据科学家

如何成为数据科学家

时间:2021-12-04 12:19:37

相关推荐

如何成为数据科学家

从前,我想成为一名进化生物学家。 长话短说,我改变了主意,退出了博士课程,转而从事计算机科学事业。 我现在是Red Hat的一名高级软件工程师,我在其中从事各种机器学习和数据科学项目(您可以在我的博客上阅读有关我的旅程的更多信息)。 加入Red Hat不久之后,许多人,包括三个不同的芝加哥大学的研究生,就让我开始向数据科学职业过渡,因此我开始进行研究。

现在进入数据科学的令人敬畏的事情是,一切(从软件,学习材料到讨论)都非常开放,因此再没有比这更好的时机了。 如果它可以帮助其他人考虑从事数据科学职业,这就是我所学到的实现这一飞跃的方法。

公开讨论

作为热身,我建议使用以下链接获取有关数据科学的背景信息:

成为数据科学家需要具备的8种技能 数据架构师,数据分析师,数据工程师和数据科学家之间有什么区别? (对于具有科学背景的人来说,“数据分析师”可能不如“数据科学家”那么激动) 来自Quora的数据科学家的建议 / r / MachineLearning是一个很棒的子目录,用于保持机器学习领域的最新动态和研究最新 其他需要检查的优质subreddit包括/ r / Statistics和/ r / DataIsBeautiful (数据可视化subreddit)

通常,数据科学社区的成员非常乐于分享他们的各种经验和背景,这在您选择要追求哪种特殊的数据科学风格时非常有帮助。

开放经验

如果您认真从事数据科学事业,那么获得经验比其他任何事情都更为重要。 我知道这条建议对其他许多领域都是正确的,但是由于数据科学需要如此高的数学和统计成熟度,因此可能很难向潜在的雇主传达信号,即您知道如何在没有相关工作经验的情况下有效地运用这些复杂的技术。 。

如果您是一名学生,那么您的头等大事应该是实习。 这将使最终的全职工作搜索变得更加容易。 不幸的是,实习也是数据科学家追求的“开放性”最低的方面,因为实习通常只对学生开放。 但是,还有很多其他开放的机会可以获取经验。 例如,您可以尝试公开比赛,例如Kaggle上的比赛。

还有开源软件开发。 为开源项目做贡献和/或将您的个人项目放在GitHub( 这是我的 )上,是展示您的数据科学专业知识的一种好方法。 您也可以考虑公益(“ open open heart?”)工作。 有最喜欢的当地餐厅吗? 询问其管理层是否对免费的数据科学咨询感兴趣。 (我认识一个确实这样做过的人!)

最后,请确保创建一个LinkedIn帐户并保持更新( 这是我的 )。 LinkedIn已成为招聘人员极为宝贵的工具 ,因此在这里被发现很重要。

开放教育

接下来,我最喜欢的部分是开放式教育 。 在过去的几年中, 大规模的在线公开课程 (又名MOOC)出现了令人振奋的趋势,这些课程基本上是顶级机构和公司(例如,斯坦福,哈佛,谷歌)提供的完整课程(包括家庭作业和考试)。各种各样的话题。 有许多提供MOOC的公司和网站,但我最喜欢的一些包括: Coursera , edX , Udacity , Saylor和Khan Academy 。

为了指导选择哪些课程,我整理了详细的数据科学课程,并发表了自己的完整课程历史 。 您肯定要涵盖的一些主题包括:

微积分,至少可达偏导数,通常为微积分III 线性代数 统计,包括贝叶斯理论和惯常论 演算法 机器学习及其大型算法; 自然语言处理可能是最有用的学习领域 其他主题包括图论 , 博弈论和信息论

开源软件

最后,大多数读者都将熟悉的部分:开源软件。 开源软件在数据科学中比比皆是,但是,与Linux一样,免费和开放的代码并不意味着它不如其专有的同类产品。 实际上,开源解决方案通常是同类中最好的。

可供数据科学家了解的重要开源软件包括:

几乎所有数据科学家职位都需要大规模清理和转换数据,而Python是必不可少的,因为它通常是此任务的首选语言。 重要的Python软件包/库包括: scikit-learn , NumPy , Keras , TensorFlow , Theano , SciPy , pandas和StatsModels 了解用于统计计算的R软件 许多数据科学工具都有命令行界面,因此对* nix很满意终端可以极大地提高生产力 专门了解Git的基本知识和一般的版本控制 资料库 学习数据库的最佳方法是与它们合作。 查找数据库并练习为其编写查询 SQL知识至关重要,熟悉NoSQL数据库(例如MongoDB )也很有用 大数据工具 熟悉Apache Hadoop , MapReduce , Apache Spark , Apache Pig , Apache Hive , Apache Mahout , Apache Solr和Apache Lucene

开始吧

这些准则可以使您在从事数据科学职业时一路顺风。 如果您知道任何其他有用的数据科学资源,请确保在评论中共享它们。

翻译自: /article/17/9/data-scientist

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。