上犹电脑信息网我们一直在努力
您的位置:上犹电脑信息网 > 电脑怎么了 > 收藏好这些网站,你也可以零基础入门「数据科学」

收藏好这些网站,你也可以零基础入门「数据科学」

作者:上犹日期:

返回目录:电脑怎么了

今天小编给各位分享brilliant的知识,文中也会对其通过收藏好这些网站,你也可以零基础入门「数据科学」和零基础如何系统学习数据分析?等多篇文章进行知识讲解,如果文章内容对您有帮助,别忘了关注本站,现在进入正文!

内容导航:
  • 收藏好这些网站,你也可以零基础入门「数据科学」
  • 零基础如何系统学习数据分析?
  • 如何入门大数据
  • 零基础小白怎如何学习数据分析?
  • 一、收藏好这些网站,你也可以零基础入门「数据科学」

    目录

    为什么要学习数据科学为什么用 MOOC入门数据科学网站推荐更多的学习网站结语

    先做一个简单的自我介绍:某 985 大学自动化在读,即将本科毕业去美国就读金融科技硕士。一年以前我还是一个连机器学习是什么都不知道的小白,只上过 C 语言和数据结构两门编程基础课,通过下面的网站一步步自学 Python、SQL 以及机器学习的各种方法,成功入门数据科学。下面是我在学习过程中使用的和了解的有关数据科学的网站,每个网站都配有自己的经历或者相应的介绍,每个网站也给出了相应的价格,希望可以帮你快速入门数据科学,从容应对这波数据浪潮。

    为什么要学习数据科学

    在今天,只要你身处互联网,就一定能频繁听到大数据、机器学习、人工智能等字眼。数据科学已经深入产业界,银行、保险、零售行业等都在使用机器学习方法为自己的商业运作赋能,机器学习等数据科学方法代替人的新闻也层出不穷,即使我们应该保持冷静、克制焦虑,但科技的大趋势我们也不能视而不见。

    从职业发展来说,学习数据科学或许可以让你在今后的发展中占得先机,在这波科技浪潮中取得优势;从个人角度来说,未来数据分析是必不可少的,将来明白如何利用数据可能就和今天明白如何使用电脑一样稀松平常,掌握数据分析的一些技能或许可以让你生活地更有效率。

    What is Data Science?

    为什么用 MOOC

    尽管数据科学炒的火热,想要入门一门学科绝非一件容易事。纵使有些网站有着系统的培训班,动辄 1000 大洋以上的报班费真的伤不起;而对着网上的免费资料自学,从各种公众号免费获取到 10 个 G 的资料,但大多资料凌乱且没有体系,永远都是放在硬盘里「吃灰」;对着各种工具书学,虽然系统但难免概念的堆砌,有时候看完所有基础操作也做不完一个完整的项目。

    我个人觉得学习数据科学这类需要实际操作的学科,最好的方式是learning by doing,即在学完了一个方法后要立马实际操作并感受,哪怕不报错地完成一个最简单的项目也会有极大地自信心。所以我认为,网站和 MOOC 类学习是学习数据科学最好的方式。在看完或者阅读完教程后,这些课程也会留有相对的作业,通过一个一个章节的学习,会不断巩固基础,也完成一个一个的项目。

    入门数据科学网站推荐

    下面这些 MOOC 类网站都是英文网站,按推荐顺序排序。我经过对比之后,发现相比于国内的学习网站,这些英文网站课程质量会更好,有些完全免费,有些需要付费但价格着实不贵,性价比都比较高。

    别担心,这些课程的英文难度都不会太高,很多都配有字幕,有些网站甚至有中文翻译。利用英文网站学习,一方面可以学到质量更高的课程,另一方面还能潜移默化地锻炼英语,何乐而不为呢。(但有些可能科学上网速度会更快。)

    DataCamp.com

    DataCamp 是一个互动性的 MOOC 网站,视频类的讲解偏少,更多的是文字直接指导你进入实战项目。同时 DataCamp 也是我最推荐的数据科学入门网站,从 Python 与 R 的基础讲解到数据处理流程,从机器学习到深度学习,它都有涉及。如果没有时间尝试不同的 MOOC,认真刷完它的一个 Career Track 就够用了。

    DataCamp

    DataCamp 有以下三个特点:

    直接开始上手做:不像通常的 MOOC 是视频讲解后课下留作业,DataCamp 确实做到了让你在做的过程中学习,如下图:左边是指导性文字,右边是你需要填写的 code。这样做可以说把 learning by doing 做到了极致

    DataCamp 学习界面

    不用在自己电脑上安装 Python 或 R 的环境:网站上有云端的运行环境,写完代码后直接提交就可以看到结果了,可以说非常省心省力。作为经历了小白阶段的我,可以说非常理解装环境的痛苦。代码还没写一行,装环境就费了半天劲。有例如 Anaconda 的集成包顺利安装完还好说,要是出了什么问题网上一搜全是用命令行,很多写的又不详细,完全不知道每个命令是干嘛的,还没入门就已经放弃。但在这个网站学习完全不用担心这些事,先学习代码如何写,完整地写一个项目入门,那些装环境的琐碎事情等到深入了解了再做也不迟。帮你预先安排好了课程列表:网站将一个个课程打包为 Skill Tracks 和 Career Tracks ,如下图。不论你是想学 Python 还是 R,想成为数据分析员还是数据科学家,只用找到相应的 Track 点进去跟着学就好了,不用再纠结下一步学什么技能。当然,这些列表是灵活的,你完全可以跳过某个 Track 的一些课程。

    DataCamp 的 Career Track 界面

    同时,DataCamp 还提供了一些语言(如 Python)、工具(如 Jupyter Notebook)以及各种包(如 NumPy、Pandas、Matplotlib)的 cheatsheet(小抄) ,简洁而美观。

    价格:一些课程免费,解锁全部课程 $25 / 月。

    Coursera | Machine Learning Specialization - University of Washington

    Machine Learning Specialization - University of Washington 是入门机器学习的优质课程,由华盛顿大学两位教授主讲。此课程是一个系列,原本总共有 6 个 course,分别讲解机器学习基础(Machine Learning Foundations)、回归(Regression)、分类(Classification)、聚类(Clustering)、矩阵分解(Matrix Factorization)、深度学习(Deep Learning)。每个 Course 大约 6 个章节,每个章节学习时间大约 3 小时。

    Machine Learning Specialization

    此课程最有特色的地方,是用第一个 Course:Machine Learning Foundations 统领接下来 5 个 Course,每个章节对应着接下来 5 个 Course,用最简单的案例和现成的工具,利用上述的 5 种机器学习方法分别完成 5 个项目。也就是说,在第一课里你就完整地利用机器学习解决了一个个现实的问题,然后再在接下来的 5 个课中深入学习每一个机器学习的方法。我对这种自顶向下的学习方式的方式完全赞同,因为一开始我就宏观了解了该用什么方法解决什么问题,而不是学了一堆命令却不知道解决问题的流程;而且经过第一个 Course 的学习,会有极大地成就感,因为每次都成功完成了一个项目,接下来会更想了解这个现成工具是怎么制作的,也就更想深入剖析机器学习的各种方法。

    Course 的每周内容

    但是为什么说是原本有 6 个 Course 呢,因为现在这个系列只有 4 个 Course 了…… 教授老爷子课程开发到一半跳票了,据说是因为他开发的 Trui 软件包被苹果收购以后忙得没时间开发完课程了。不过别担心,即使只有前四个课程,回归、分类和聚类依旧是机器学习的重头,学完四个课程会掌握绝大部分的机器学习技术。如果时间有限想快速入门,建议学习第一个课程,同样会比较全面地了解机器学习的各种方法,同时也能利用软件包解决一定的问题。

    对比大名鼎鼎的吴恩达的机器学习课程,这个机器学习可能更适合小白,同时课程内使用 Python 这一对新手更加友好的语言,而吴恩达的课程用的是 MATLAB,所以华盛顿大学的课程更适合入门机器学习。依托于 Coursera 这一大平台,课程每个视频都配有英文文稿,部分视频有中文字幕,相信学习起来更易上手。

    价格:免费旁听(选择课程时点 Audit),上完课后拿证书要付费。

    Udemy | Complete Python Bootcamp

    Complete Python Bootcamp: Go from zero to hero in Python 3 是入门 Python 比较推荐的课程,导师讲解很细致,边编程边讲,从 Python 最基础的数据结构、到函数和方法,再到模块和类,内容安排很合理,且每章都有作业可以检测自己的学习。

    Complete Python Bootcamp 主页

    不过此课程是关于 Python 语言的课程,将 Python 作为开发语言完全讲解,实际上应用到数据科学的 Python,只用上到此课程的 Module & Package 就足够了,剩下的有兴趣也可以继续学习,但在数据科学中可能应用不大。

    价格:RMB 100 元左右。

    课程内的视频

    Khan Academy (可汗学院)

    Khan Academy 主页

    我在 Khan Academy 上学的 SQL 基础用法。同 DataCamp 一样,代码可以直接在这个网站上运行,无需本地安装环境。上课过程中互动性也很强,同时运用积分制让你每完成一个项目都会有成就感。

    可汗学院对于数据科学的课程较少。但其本身有着非常全面的课程,从计算机科学到人文社科都有。在计算机科学的门类中也有不少基础课,课程也比较通俗易懂,适合复习基础或拓展知识面。

    价格:完全免费。

    课程内学习过程:左边是代码,右边是结果

    更多的学习网站

    上述四个网站是我亲身体验过并用来入门数据科学的网站。在学习过程中也同样搜集了别人推荐的网站,但还没来得及体验,以下列出来供感兴趣的朋友们点击。

    Dataquest

    Dataquest 是以文字教程为主的网站,也是边看边学,与 DataCamp 很相似,有兴趣的朋友可以探索一下。

    价格:$29 / 每月。

    Udacity (优达学城)

    Udacity 内所有的课程都是和 IT 有关的,更 Geek 一点,不像 edX 或者 Coursera 还有人文社科类的课程。Udacity 优点是课程有体系化,有针对某个职位的专项课程,对职业发展比较友好;但价格真的不便宜,一般一个纳米学位都要上千大洋。网站内也有免费的课程,同时大多数课程都有中文版。

    价格:课程费用不等,都在几千左右。

    Udacity 主页

    edX

    edX 由麻省理工学院和哈佛大学共同创建,与 Coursera、Udacity 并称为 MOOC 三巨头。其实光看 edX 开课的大学列表就挺震撼的了,可以说足不出户也可以享受顶级大学的课程。关于数据科学,根据网上的评价推荐下面的课程系列:

    Complete Python Bootcamp 主页

    Data Science - Harvard University

    哈佛大学推出的数据科学系列课程 Data Science - Harvard University,共包含 9 个课程,主要使用的是 R 语言。顺便提一下,哈佛大学才新增了 Data Science 的硕士学位,2018 年秋季是第一批学生入学,从侧面也可见数据科学的发展。

    Harvard's Data Science Certificate

    Microsoft Professional Program in Data Science

    微软推出的数据科学课程 Microsoft Professional Program in Data Science,课程内容比较全面,有 Python 和 R 语言两条支线,可以任选一条完成课程,当然也可以都掌握。同时也将 Excel 以及自家云平台 Azure 融合进课程,用微软系的朋友可以更多关注一下。

    Microsoft Data Science Program

    价格:edX 所有课程都是免费的,不过上完课程要获取证书需要付费。

    Coursera

    Applied Data Science with Python Specialization

    密歇根大学的系列课程 Applied Data Science with Python Specialization,据说对新手比较友好,共 5 个 Course,从基础到机器学习以及深度学习都有介绍,比较全面。

    密歇根大学的数据科学课程

    Machine Learning - Stanford University

    这门课程 由大名鼎鼎的斯坦福教授吴恩达主讲,很多人就是冲着这个名号去学习这门课程的。此课程很全面的讲解了机器学习的各个部分,也会有很多案例应用。但是课程全程用的是 Matlab,并不是用现在数据科学最主流的 Python 和 R,从这方面来讲对新手来说可能不是很友好,建议有了一定机器学习基础后再用这门课补课。

    大名鼎鼎的斯坦福机器学习课程

    Deep Learning Specialization

    同样是吴恩达领衔的深度学习课程 Deep Learning Specialization,共有 5 个 Course,包括神经网络和卷积神经网络。

    在 Coursera 上的深度学习课程

    价格:所有课程均可免费旁听(点 Audit),获取证书需付费。

    Brilliant.org

    Brilliant.org 是我偶然间从 Instagram 推荐的广告上发现的网站,网站制作精良,多是数学与科学的主体。网站试图以最简单的方法出传达科学知识,绝对是不可多得的好网站。同时也有人工智能与机器学习的主体,但应该更偏重理论,有兴趣的朋友可以了解一下。同时这个网站还有同名 app:Brilliant。

    Birlliant 主打课程,多与数学及物理相关

    价格:基础课程免费,其他需要付费

    结语

    以上就是我用来入门数据科学的网站以及在学习过程中搜集到的感兴趣的网站,分享出来供想要入门的朋友参考。数据分析是一个趋势,且不说忽视它会不会被淘汰,但掌握它绝不是一件坏事,毕竟技多不压身。在入门数据科学时,看书或许有点沉闷,上线下的培训课或许又太花时间,而这些 MOOC 课程既让你可以自由安排时间学习,也更好地发挥了多媒体的优势,让你 Learning by doing。你只需要静下心来沉浸于英语的环境,并加上一点耐心,挑出自己喜欢的课程系列并持续学下去,相信你会在未来拥有更高的起点。

    一、零基础如何系统学习数据分析?

    【导读】随着大数据,人工智能的普及,数据分析也是越来越吃香了,市场人才需求量很大,吸引理论很多初学者和跨行的零基础小白,那么零基础如何系统学习数据分析?一起来看看吧!

    什么是初学者?——如果解析学和数据科学对你来说是全新的领域,你也不知该行业的发展模式,而你又想在这个行业大展拳脚一番,那么初学者就是你。以下这些应该在你的计划之内。

    1. R语言也好,Python语言也好,学习一门新的编程语言

    我曾见到有同学同时学习R语言和Python语言,最后落得两手空空。这种做法是很致命的。你一定要沉下心来专攻一门。鉴于这两种语言都是开放源代码工具,所以在公司里都有广泛运用。Python被公认为最简单的编程语言,而R语言一直都是最受青睐的统计工具。学习哪一门的决定权在你,因为两个同等出色。

    推荐课程:推荐R语言和Python入门课程《Python入门:数据挖掘实战》、《R语言入门》

    2. 学习统计学和数学

    统计学的内容全都是关于假设和数列,然而没有统计学和数学的知识你很难深入到数据行业里,这是数据科学家的重中之重。

    3.一次性完成一门网络开放课程(最难执行)

    大规模网络开放课程可以免费获取和学习,可这对你来说也是最难实现的诺言。很多学生通常一次性注册选修很多课程,结果一门也没有圆满完成。所以,你一定要一次专注一门课,完成之后再选下一门。

    推荐课程:推荐R语言和python进阶课程:《R语言实战》、《Python进阶:数据挖掘算法》

    4.了解业界动态,善于探索和发现

    你要了解业内动态。我们生活在一个变化的世界,一夜之间事物就可能发生重大变化,今日和流行的技术明日就很可能面临淘汰。你一定要多与一些富有经验的专业人士、业内专家交流,预见未来的自己。

    以上就是小编今天给大家整理发布的关于“零基础如何系统学习数据分析?”的相关内容,希望对大家有所帮助。

    二、如何入门大数据

    大数据
    数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。
    但从狭义上来看,我认为数据科学就是解决三个问题:
    1. data pre-processing;(数据预处理)
    2. data interpretation;(数据解读)
    3.data modeling and analysis.(数据建模与分析)
    这也就是我们做数据工作的三个大步骤:
    1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;
    2、我们想看看数据“长什么样”,有什么特点和规律;
    3、按照自己的需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。
    这三个步骤未必严谨,每个大步骤下面可能依问题的不同也会有不同的小步骤,但按我这几年的经验来看,按照这个大思路走,数据一般不会做跑偏。
    这样看来,数据科学其实就是门复合型的技术,既然是技术就从编程语言谈起吧,为了简练,只说说R和Python。但既然是荐数据科学方面的书,我这里就不提R/Python编程基础之类的书了,直接上跟数据科学相关的。
    R programming
    如果只是想初步了解一下R语言已经R在数据分析方面的应用,那不妨就看看这两本:
    R in action:我的R语言大数据101。其实对于一个没有任何编程基础的人来说,一开始就学这本书,学习曲线可能会比较陡峭。但如果配合上一些辅助材料,如官方发布的R basics(),stackoverflow上有tag-R的问题集(Newest ‘r’ Questions),遇到复杂的问题可在上面搜索,总会找到解决方案的。这样一来,用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松,紧贴实战。
    Data analysis and graphics using R:使用R语言做数据分析的入门书。这本书的特点也是紧贴实战,没有过多地讲解统计学理论,所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强,也就是说哪怕你手头没电脑写不了代码,有事没事拿出这本书翻一翻,也能读得进去。
    但如果你先用R来从事实实在在的数据工作,那么上面两本恐怕不够,还需要这些:
    Modern applied statistics with S:这本书里统计学的理论就讲得比较多了,好处就是你可以用一本书既复习了统计学,又学了R语言。(S/Splus和R的关系就类似于Unix和Linux,所以用S教程学习R,一点问题都没有)
    Data manipulation with R:这本书实务性很强,它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样,本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说,这本书的内容非常重要,因为对于任何研究,一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则,你的研究总是要等待你的数据。
    R Graphics Cookbook:想用R做可视化,就用这本书吧。150多个recipes,足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看,R是最容易做出最漂亮的图表的工具了。
    An introduction to statistical learning with application in R:这本书算是著名的the element of statistical learning的姊妹篇,后者更注重统计(机器)学习的模型和算法,而前者所涉及的模型和算法原没有后者全面或深入,但却是用R来学习和应用机器学习的很好的入口。
    A handbook of statistical analysis using R:这本书内容同样非常扎实,很多统计学的学生就是用这本书来学习用R来进行统计建模的。
    Python
    Think Python,Think Stats,Think Bayes:这是Allen B. Downey写的著名的Think X series三大卷。其实是三本精致的小册子,如果想快速地掌握Python在统计方面的操作,好好阅读这三本书,认真做习题,答案链接在书里有。这三本书学通了,就可以上手用Python进行基本的统计建模了。
    Python For Data Analysis: 作者是pandas的主要开发者,也正是Pandas使Python能够像R一样拥有dataframe的功能,能够处理结构比较复杂的数据。这本书其实analysis讲得不多,说成数据处理应该更合适。掌握了这本书,处理各种糟心的数据就问题不大了。
    Introduction to Python for Econometrics, Statistics and Data Analysis:这本书第一章就告诉你要安装Numpy, Scipy, Matplotlib, Pandas, IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面,但读起来比较枯燥,可以用来当工具书。
    Practical Data Analysis: 这本书挺奇葩,貌似很畅销,但作者把内容安排得东一榔头西一棒子,什么都讲一点,但一个都没讲透。这本书可以作为我们学习数据分析的一个索引,看到哪块内容有意思,就顺着它这个藤去摸更多的瓜。
    Python Data Visualization Cookbook: 用Python做可视化的教材肯定不少,我看过的也就这一本,觉得还不错。其实这类书差别都不会很大,咬住一本啃下来就是王道。
    Exploratory Data Analysis 和 Data Visualization
    Exploratory Data Analysis:John Tukey写于1977年的经典老教材,是这一领域的开山之作。如今EDA已经是统计学里的重要一支,但当时还是有很多人对他的工作不屑一顾。可他爱数据,坚信数据可以以一种出人意料的方式呈现出来。正是他的努力,让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了,内容略过时。要想完整地了解EDA,推荐下一本:
    Exploratory Data Analysis with MATLAB:这本书虽然标题带了个MATLAB,但实际上内容几乎没怎么讲MATLAB,只是每讲一个方法的时候就列出对应的MATALB函数。这本书的重要之处在于,这是我读过的讲EDA最系统的一本书,除了对visualization有不输于John Tucky的讲解外,对于高维的数据集,通过怎样的方法才能让我们从中找到潜在的pattern,这本书也做了详尽的讲解。全书所以案例都有对应的MATALB代码,而且还提供了GUI(图形用户界面)。所以这本书学起来还是相当轻松愉悦的。
    Visualize This:中译本叫“鲜活的数据”,作者是个“超级数据迷”,建立了一个叫的网页展示他的数据可视化作品,这本书告诉你该选择什么样的可视化工具,然后告诉你怎样visualize关系型数据、时间序列、空间数据等,最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么,可以直接点开下面这个链接感受下吧!A tour through the visualization zoo(A Tour Through the Visualization Zoo)
    Machine Learning & Data Mining
    这一块就不多说了,不是因为它不重要,而是因为它太太太重要。所以这一部分就推两本书,都是”世界名著“,都比较难读,需要一点点地啃。这两本书拿下,基本就算是登堂入室了。其实作为机器学习的延伸和深化,概率图模型(PGM)和深度学习(deep learning)同样值得研究,特别是后者现在简直火得不得了。但PGM偏难,啃K.Daphne那本大作实在太烧脑,也没必要,而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大,各个domain的应用如火如荼,但要有公认的好教材问世则还需时日,所以PGM和deep learning这两块就不荐书了。
    The Element of Statistical Learning:要学机器学习,如果让我只推荐一本书,我就推荐这本巨著。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了,大厦建得够高够大,结构也非常严谨,而且很有前瞻性,纳入了很多前沿的内容,而不仅仅是一部综述性的教材。(图表也做得非常漂亮,应该是用R语言的ggplot2做的。)这本书注重讲解模型和算法本身,所以需要具备比较扎实的数理基础,啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习(统计学习)的库现在已经非常丰富,即使你没有完全搞懂某个模型或算法的原理和过程,只要会用那几个库,机器学习也能做得下去。但你会发现你把数据代进去,效果永远都不好。但是,当你透彻地理解了模型和算法本身,你再调用那几个库的时候,心情是完全不一样的,效果也不一样。
    Data Mining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋,之所以推荐这本韩家炜爷爷的,是因为虽然他这本书的出发点是应用,但原理上的内容也一点没有落下,内容非常完整。而且紧跟时代,更新的很快,我看过的是第二版,就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了,我还没看过,但应该也加入了不少新内容。其实这本书并不难读,只是篇幅较长,啃起来比较耗时。
    其实这两本书里单拎出来一块内容可能又是几本书的节奏,比如bayesian方法,再拿出两三本书来讲也不为过,我个人用到的比较多,而且也确实有不少好书。但并非是所有data scientist都要用到,所以这一块就不再细说。
    还有一些印象比较深刻的书:
    Big Data Glossary: 主要讲解大数据处理技术及工具,内容涵盖了NoSQL,MapReduce,Storage,Servers,NLP库与工具包,机器学习工具包,数据可视化工具包,数据清洗,序列化指南等等。总之,是一本辞典式的大数据入门指导。
    Mining of Massive Datasets:这本书是斯坦福大学Web Mining的讲义,里面很多内容与韩家炜的Data Mining那本书重合,但这本书里详细地讲了MapReduce的设计原理,PageRank(Google创业时期的核心排序算法,现在也在不断优化更新)讲解得也比较详细。
    Developing Analytic Talent: 作者是个从事了十几年数据工作的geek,技术博客写得很有个人风格,写的内容都比较偏门,通常只有具备相关数据处理经验的人能体会出来,丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办,或者MapReduce在什么时候不好用的问题,才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结,用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。
    Past, Present and Future of Statistical Science:这本书是由COPSS(统计学社主席委员会,由国际各大统计学会的带头人组成)在50周年出版的一本纪念册,里面有50位统计学家每人分别贡献出的一两篇文章,有的回忆了自己当年如何走上统计学这条路,有的探讨了一些统计学的根本问题,有的谈了谈自己在从事的前沿研究,有的则给年轻一代写下了寄语。非常有爱的一本书。
    其它资料
    Harvard Data Science:这是H大的Data science在线课,我没有修过,但口碑很好。这门课需要费用8千刀左右,比起华盛顿大学的4千刀的Data science在线课虽贵一倍,但比斯坦福的14千刀要便宜将近一半(而且斯坦福的更偏计算机)。如果想自学,早有好心人分享了slides: ()和homeworks and solutions: ()
    PyData:PyData是来自各个domain的用Python做数据的人每年举行一次的聚会,期间会有各路牛人举行一些规模不大的seminar或workshop,有好心人已经把video上传到github,有兴趣的去认领吧(DataTau/datascience-anthology-pydata · GitHub)
    工具
    R/Python/MATLAB(必备):如果是做数据分析和模型开发,以我的观察来看,使用这三种工具的最多。R生来就是一个统计学家开发的软件,所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具,但因为很多人不是专业做数据的,做数据还是为了自己的domain expertise(特别是科学计算、信号处理等),而MATLAB又是个强大无比的Domain expertise工具,所以很多人也就顺带让MATLAB也承担了数据处理的工作,虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件,但作为一个面向对象的高级动态语言,其开源的生态使Python拥有无比丰富的库,Numpy, Scipy 实现了矩阵运算/科学计算,相当于实现了MATLAB的功能,Pandas又使Python能够像R一样处理dataframe,scikit-learn又实现了机器学习。
    SQL(必备):虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展,但对于很多人来说,他们每天都有处理数据的需要,但可能一辈子都没机会接触TB级的数据。不管怎么说,不论是用关系型还是非关系型数据库,SQL语言是必须要掌握的技能,用什么数据库视具体情况而定。
    MongoDB(可选):目前最受欢迎的非关系型数据库NoSQL之一,不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用,扩展性强,Web2.0时代的必需品。
    Hadoop/Spark/Storm(可选): MapReduce是当前最著名也是运用最广泛的分布式计算框架,由Google建立。Hadoop/Spark/storm都是基于MapReduce的框架建立起来的分布式计算系统,要说他们之间的区别就是,Hadoop用硬盘存储数据,Spark用内存存储数据,Storm只接受实时数据流而不存储数据。一言以蔽之,如果数据是离线的,如果数据比较复杂且对处理速度要求一般,就Hadoop,如果要速度,就Spark,如果数据是在线的实时的流数据,就Storm。
    OpenRefine(可选):Google开发的一个易于操作的数据清洗工具,可以实现一些基本的清洗功能。
    Tableau(可选):一个可交互的数据可视化工具,操作简单,开箱即用。而且图表都设计得非常漂亮。专业版1999美刀,终身使用。媒体和公关方面用得比较多。
    Gephi(可选):跟Tableau类似,都是那种可交互的可视化工具,不需要编程基础,生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。

    三、零基础小白怎如何学习数据分析?

    【导读】作为当下的热门,数据分析受到了很多小伙伴的欢迎,一方面是其比较高的薪资造就,另一方面也是数据行业的未来发展前景非常的不错。不过小编发现很多小伙伴们刚燃起进军数据分析行业的斗志,就被一些人的三言两语给劝退了。都0202年了,怎么还会有人以为,只有专业的同学,才能做数据分析师?今天小编就来和大家说说零基础小白怎如何学习数据分析?

    数据分析师需要掌握什么?

    数据分析师是一个收入高、待遇优的职业。但是天底下哪有那么好的事?没有人能随随便便成为数据分析师。为此,刚开始学习数据分析师的小伙伴们可以从这几个方面着手学习:

    1、编程语言。在数据分析师进行数据分析时,一定会用到Python或者R等编程语言。如果你是一个没有任何编程基础的小白,你可以先从最基础的C开始学起,然后再选择学习Python还是R语言。

    2、数学。有人就要说了:“我小学一年级就开始学数学了,数学能力肯定不在话下。”咳咳,数据分析可不是要你处理一加一等于几的数学问题,这些问题现在计算机可都会做啦!而作为机智的二十一世纪人类,有更伟大的事情等着我们——处理有关矩阵、微积分、积分以及线性代数等问题。

    3、统计学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。数据分析师通过使用统计方法,来分析和解释数据哦~

    非专业怎么学数据分析?

    1、了解企业有关数据分析师的招聘要求

    具备什么技能的人,才能成为企业所需要的数据分析师呢?在开始自己的学习之旅前,你可以先浏览一下各大招聘网站,看看各大公司的有关数据分析师的招聘要求。你要会什么样的软件,具备什么样的技能,招聘要求上都写得清清楚楚。多关注企业的招聘要求,要学什么,你心里就有数了。

    2、寻找与数据分析有关的学习资源

    网络上有数以万计的学习教程可供你选择,你可以在B站、知乎以及CSDN等各大平台搜索到。(PS:买瓶饮料不如买门课,我们博为峰的抖音账号上也有专门售卖数据分析的试听课程,巨划算哦~)

    但是,专门花几个月的时间学习数据分析的确能让你入门,但这并不意味着后续你就可以不学了。优秀的数据分析师一定懂得与时俱进,及时补充数据分析方面的知识。

    3、找相关数据分析的实习工作

    刚毕业或者在校的小伙伴们可以尝试找与数据分析相关的实习工作。实习过程中,你可以结实很多数据分析方面的大牛。脸皮厚一点,多向大牛问问题。等你真正工作了,你就会发现,企业的问题很多问题都需要你来处理,而不是说你给企业提问题。

    注意!实习一定不要太在意公司给的薪水,能学到东西的实习才是好实习!有些企业给的实习工资的确高,但是,要么他会让你做一堆与数据分析无关的工作(整理文档、买咖啡);要么他对你的数据分析能力要求非常高,可是,如果你能力很强,你却依旧拿着实习的工资,对你来说是很不公平的。因此,即便是实习工作,我们也要擦亮眼睛找哦~

    4、选择你感兴趣的行业着手

    各行各业都会运用到数据分析,你可以选择你喜欢的行业进行深入分析。如果你爱打游戏,你可以选择往游戏公司的数据分析师方向发展。同样,如果你是一个爱美的女生,你就可以选择时尚服装行业。

    5、结合你所学的专业学习数据分析

    大学所学的专业知识真的完全用不上吗?也不一定啦。比如,你大学学的专业是物流管理,当你掌握了数据分析能力后,你可以考虑去物流公司应聘,研究研究怎么才能更快地把快递送到客户手上,它不香吗~

    6、结交网络上的数据分析大神

    没有数据分析师会是周震南这样的2G少年,更多的应该是丁禹兮这样的5G冲浪选手。人们因为爱好和人生选择的一致,即使在网络世界,也可以成为朋友。数据分析界亦是如此哦。当你在知乎平台抛出一个问题时,一定会有很多人回复你。

    以上就是小编今天给大家整理发送的关于“零基础小白怎如何学习数据分析?”的相关内容,希望对大家有所帮助。想了解更多关于数据分析及人工智能就业岗位分析,关注小编持续更新。

    关于brilliant的问题,通过《如何入门大数据》、《零基础小白怎如何学习数据分析?》等文章的解答希望已经帮助到您了!如您想了解更多关于brilliant的相关信息,请到本站进行查找!

    本文标签:brilliant(4)

    相关阅读

    • 你知道receive和accept的区别吗?

    • 上犹电脑怎么了
    • 今天小编给各位分享accept的知识,文中也会对其通过你知道receive和accept的区别吗?和receive和accept的区别等多篇文章进行知识讲解,如果文章内容对您有帮助,别忘了关注本站,现在进
    • 读CNN学英语:乌克兰进入战时状态

    • 上犹电脑怎么了
    • 今天小编给各位分享intervention的知识,文中也会对其通过读CNN学英语:乌克兰进入战时状态和乌总统发布全国总动员令,总动员令是什么?等多篇文章进行知识讲解,如果文章内容对您
    • 每日一词 - affect 详解

    • 上犹电脑怎么了
    • 今天小编给各位分享influence的知识,文中也会对其通过每日一词 - affect 详解和affect和effect的用法等多篇文章进行知识讲解,如果文章内容对您有帮助,别忘了关注本站,现在进入正文!
    • windows2012 r2 添加IIS 提示找不到文件

    • 上犹电脑怎么了
    • 今天小编给各位分享windowsr的知识,文中也会对其通过windows2012 r2 添加IIS 提示找不到文件和急:服务器组建IIS装不上,提示找不到文件,是怎么原因?等多篇文章进行知识讲解,如果文章内容
    关键词不能为空
    极力推荐
    • 开关电源pfc的常见故障

    • 开关电源pfc PFC就是功率因数校正的意思,主要用来表征电子产品对电能的利用效率。功率因数越高,说

    电脑蓝屏_电脑怎么了_win7问题_win10问题_设置问题_文件问题_上犹电脑信息网

    关于我们