上犹电脑信息网我们一直在努力
您的位置:上犹电脑信息网 > 电脑怎么了 > 20种机器学习工具,哪种语言最适合程序员开始使用AI? (上)

20种机器学习工具,哪种语言最适合程序员开始使用AI? (上)

作者:上犹日期:

返回目录:电脑怎么了



训练有素的士兵无法空手执行任务。 数据科学家拥有自己的武器 - 机器学习【机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。】(ML)软件。 已经有大量文章列出了可靠的机器学习工具,并对其功能进行了深入的描述。 然而,我们的目标是获得行业专家的反馈。


这就是为什么我们采访数据科学从业者 - 大师,真正考虑他们为项目选择的有用工具。 我们联系的专家拥有各种专业领域,并且在Facebook【Facebook(脸书)是美国的一个社交网络服务网站 ,创立于2004年2月4日,总部位于美国加利福尼亚州帕拉阿图,2012年3月6日发布Windows版桌面聊天软件Facebook Messenger。】和三星等公司工作。 其中一些代表AI创业公司(Objection Co,NEAR.AI和Respeecher); 一些人在大学任教(哈尔科夫【乌克兰州名和市名(Харьков)。】国立无线电大学)。


最流行的机器学习语言


你在一个外国餐馆,你不熟悉这种文化。 你可能会问服务员关于菜单上的文字,他们的意思,甚至在你发现你将使用什么用具之前的一些问题。 因此,在谈论数据科学家最喜欢的工具之前,让我们弄清楚他们使用的编程语言。


Python【Python(英语发音:/ˈpaɪθən/),是一种面向对象、解释型计算机程序设计语言,由Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。】:一种流行语言,具有高质量的机器学习和数据分析库


Python是一种通用语言,因其可读性,良好的结构和相对温和的学习曲线而备受青睐。根据1月份进行的Stack Overflow【Stack Overflow是一个与程序相关的IT技术问答网站。】年度开发人员调查,Python可以称为增长最快的主要编程语言。它排名第七,最受欢迎的语言(38.8%),现在比C#领先一步(34.4%)。


Respeecher Grant Reaber的研究主管,专门研究应用于语音识别【语音识别是一门交叉学科。】的深度学习【深度学习的概念源于人工神经网络的研究。】,使用Python作为“几乎每个人都将其用于深度学习。 Swens for TensorFlow【TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。】听起来像一个很酷的项目,但我们会等到它更成熟才考虑使用它,“格兰特【格兰特,英国后印象派画家及图案设计师。】总结道。


NEAR.AI创业公司的联合创始人之前曾在Google Research【research是一个英语单词,可以用作名词和动词,可以翻译为研究、追究,等等。】深入学习NLU Illia Polosukhin的团队,他也坚持使用Python:“Python始终是数据分析的语言,并且随着时间的推移变成了事实所有现代化的图书馆都为深度学习提供语言。“


Python机器学习的一个用例是模型开发,特别是原型设计。


AltexSoft的数据科学能力领导者Alexander Konduforov表示,他主要将其用作构建机器学习模型的语言。


三星乌克兰【乌克兰(乌克兰语:УКРАЇНА)位于欧洲东部,东接俄罗斯、南濒黑海,北与白俄罗斯毗邻、西与波兰、斯洛伐克、匈牙利、罗马尼亚和摩尔多瓦诸国相连。】的首席工程师Vitaliy Bulygin认为Python是快速原型制作的最佳语言之一。 “在原型设计过程中,我找到了最佳解决方案并用项目所需的语言重写,例如C ++,”专家解释道。


Facebook人工智能研究员Denis Yarats指出,这种语言有一个非常棒的深度学习工具集,如PyTorch框架或NumPy【NumPy系统是Python的一种开源的数值计算扩展。】库(我们将在本文后面讨论)。


C ++:用于CUDA【CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。】并行计算的中级语言


C ++是一种基于C编程语言的灵活的,面向对象的静态类型语言。由于其可靠性,性能以及它支持的大量应用程序域,该语言在开发人员中仍然很受欢迎。 C ++具有高级和低级语言特性,因此被认为是一种中级编程语言。该语言的另一个应用是开发可以在实时约束下直接与硬件交互的驱动程序和软件。由于C ++足够清晰,可以解释基本概念,因此它可用于研究和教学。


数据科学家将这种语言用于各种具体的任务。哈尔科夫国家无线电电子学院(NURE)的高级讲师Andrii Babii使用C ++在CUDA(一种Nvidia【NVIDIA(纳斯达克股票代码:NVDA)是一家人工智能计算公司。】 GPU【图形处理器(英语:Graphics Processing Unit,缩写:GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图】计算平台)上并行实现算法,以加速基于这些算法的应用程序。


“当我为CUDA编写自定义内核时,我需要C ++,”Denis Yarats补充道。


R:统计计算和图形的语言


R是统计,可视化和数据分析的语言和环境,是数据科学家的首选。 它是S编程语言的另一种实现。


R和写在其中的库提供了许多图形和统计技术,如经典统计测试,线性和非线性建模,时间序列分析,分类,聚类等。您可以使用R机器学习包轻松扩展语言。 该语言允许创建高质量的图,包括公式和数学符号。


Alexander Konduforov指出,使用R进行机器学习可实现快速数据分析和可视化。


数据分析和可视化工具


pandas【Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。】:一个增强分析和建模的Python数据分析库


现在是时候谈谈Python熊猫了,这是一个最可爱名字的免费图书馆。数据科学爱好者Wes McKinney开发了这个库,以便在Python中方便地进行数据分析和建模。在大熊猫之前,这种编程语言仅适用于数据准备和修改。


pandas通过将CSV【逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。】,JSON和TSV【TSV的英文全拼是“Through Silicon Vias”,中文意思为“穿过硅片通道”。】数据文件或SQL数据库【SQL是Structured Query Language(结构化查询语言)的缩写。】转换为数据框,看起来像Excel【Microsoft Excel是微软公司的办公软件Microsoft office的组件之一,是由Microsoft为Windows和Apple Macintosh操作系统的电脑而编写和运行的一款试算】的Python对象或带有行和列的SPSS【SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。】表来简化分析。更重要的是,pandas与IPython【IPython是一个交互式计算系统。】工具包和其他库相结合,以提高性能并支持协同工作。


matplotlib:用于高质量可视化的Python机器学习库


matplotlib是一个Python 2D绘图库。绘图是机器学习数据的可视化。 matplotlib源自MATLAB【MATLAB是美国MathWorks公司出品的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境,主要包括MATLAB和Simulink两大部分。】:它的开发人员John D. Hunter模拟了Mathworks【The MathWorks 总部位于美国马萨诸塞州的Natick市,是世界领先的技术计算和基于模型的设计的软件开发商和供应商。】的MATLAB软件中的绘图命令。


虽然主要使用Python编写,但库使用NumPy和其他代码进行扩展,因此即使用于大型数组也能很好地执行。


matplotlib允许使用几行代码生成生产质量的可视化。库开发人员强调了它的使用简单:“如果要查看数据的直方图,则不需要实例化对象,调用方法,设置属性等等;它应该工作。“


可以使用seaborn,ggplot和HoloViews等第三方可视化软件包扩展库的功能。 专家还可以使用Basemap和cartopy投影和绘图工具包添加额外的功能。


数据科学从业者注意到matplotlib的灵活性和集成能力。 例如,Andrii Babii喜欢使用matplotlib和seaborn以及ggplot2。


Denis Yarats(Facebook AI Research)表示他选择matplotlib主要是因为它与Python工具集很好地集成,可以与NumPy库或PyTorch机器学习框架一起使用。


Alexander Konduforov和他的AltexSoft团队也使用matplotlib。 除了大量的Python机器学习库(如pandas)以及支持R和Python的Plotly之外,团队还选择了dplyr,ggplot2,tidyr和Shiny R库。 “这些工具可以免费使用,但你必须知道编程至少要使用它们,有时需要额外的时间。”


Jupyter Notebook:协同工作能力


Jupyter Notebook是一个用于交互式计算的免费Web应用程序。有了它,用户可以使用实时代码创建和共享文档,开发和执行代码,以及呈现和讨论任务结果。可以通过Dropbox【Dropbox(多宝箱)成立于2007年,提供免费和收费服务,在不同操作系统下有客户端软件,并且有网页客户端,能够将存储在本地的文件自动同步到云端服务器保存。】,电子邮件,GitHub【gitHub是一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本库格式进行托管,故名gitHub。】和Jupyter Notebook Viewer共享文档,它可以包含图形和叙述文本。


笔记本电脑功能丰富,提供各种使用场景。


它可以与许多工具集成,例如Apache【Apache是世界使用排名第一的Web服务器软件。】 Spark【造型设计出自乔治亚罗之手的雪佛兰SPARK,其短车身、轻质量和长轴距带来的灵活性让许多大车都自愧不如。】,pandas和TensorFlow。它支持40多种语言,包括R,Scala【Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。】,Python和Julia。除了这些功能,Jupyter Notebook还支持容器平台--Docker【Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。】和Kubernetes。


来自NEAR.AI的Illia Polosukhin表示,他主要使用Jupyter Notebook进行自定义临时分析:“该应用程序允许快速进行任何数据或模型分析,并能够连接到远程服务器上的内核。您还可以与同事分享最终的笔记本。“


Tableau:强大的数据探索功能和交互式可视化


Tableau是一种用于数据科学和商业智能的数据可视化工具。许多特定功能使该软件有效地解决了各种行业和数据环境中的问题。


通过数据探索和发现,Tableau软件可以快速从数据中提取洞察并以可理解的格式呈现它们。它不需要出色的编程技能,可以轻松安装在各种设备上。虽然必须编写一个小脚本,但大多数操作都是通过拖放完成的。


Tableau支持实时分析和云集成(即与AWS,Salesforce或SAP),允许组合不同的数据集和集中数据管理。


使用的简单性和功能集是数据科学家选择此工具的原因。 “Tableau具有许多内置功能,不需要编码。 您可以在UI中执行大量数据预处理,分析和可视化,从而节省了大量精力。 但是,你必须购买许可证,因为它不是免费产品,“Alexander Konduforov说。


用于一般机器学习的框架


NumPy:使用Python进行科学计算的扩展包


之前提到的NumPy是一个扩展包,用于使用Python执行数值计算,取代了NumArray和Numeric。 它支持多维数组(表)和矩阵。 ML数据以数组表示。 矩阵是二维数字数组。 NumPy包含广播功能,作为集成C / C ++和Fortran代码的工具。 其功能还包括傅里叶变换,线性代数和随机数功能。


数据科学从业者可以使用NumPy作为存储多维通用数据的有效容器。 通过定义任意数据类型的能力,NumPy可以轻松快速地与多种数据库集成。


scikit-learn:易于使用的机器学习框架,适用于众多行业


scikit-learn是一个开源的Python机器学习库,建立在SciPy(Scientific Python),NumPy和matplotlib之上。


最初由David Cournapeau于2007年开始作为Google Summer of Code项目,scikit-learn目前由志愿者维护。截至今天,已有1,092人参与其中。


该库专为生产用途而设计。简单,定性代码,协作选项,性能以及用简单语言编写的大量文档有助于其在各种专家中的流行。


scikit-learn为用户提供了许多成熟的算法,用于监督和无监督学习。来自Machine Learning Mastery的数据科学从业者Jason Brownlee指出,该库侧重于建模数据,而不是其加载,操作和摘要。他建议使用NumPy和pandas来实现这三个功能。


Denis Yarats使用NumPy,pandas和scikit-learn进行一般机器学习:“我喜欢它们的简洁性和透明度。这些工具被广泛采用并且许多人多年来一直在进行战斗测试,这也很有帮助。“


“AltexSoft数据科学团队主要使用像scikit-learn和xgboost这样的Python库来进行分类和回归任务,”Aleksander观察道。


Andrii Babii更喜欢使用sc语言学习R语言库和包。 “我正在使用这种组合,因为它是开源的,具有很强的功能并相互补充,”数据科学家解释道。


NLTK:基于Python的人类语言数据处理平台


NLTK是一个用于开发Python程序以使用人类语言的平台。


Aleksander Konduforov更喜欢这个工具用于NLP任务。 “NLTK几乎是Python中用于文本处理的标准库,它具有许多有用的功能。 例如,不同类型的文本,句子和文字处理,词性标注,句子结构分析,命名实体识别,文本分类,情感分析等等。 所有这些库都是免费的,并提供足够的功能来解决我们的大部分任务,“专家指出。


用于神经网络建模的ML框架


TensorFlow:用于大规模机器学习的灵活框架


TensorFlow是一个开源软件库,用于2015年谷歌人工智能组织内Google Brain团队开发和发布的机器学习和深度神经网络研究。


该库的一个重要特征是数值计算是由包含节点和边的数据流图完成的。 节点表示数学运算,并且边是多维数据阵列或张量,在其上执行这些操作。


TensorFlow非常灵活,可用于各种计算平台(CPU,GPU和TPU)和设备,从台式机到服务器集群,再到移动和边缘系统。它可以在Mac,Windows和Linux上运行。


该框架的另一个优点是它可用于研究和重复的机器学习任务。


TensorFlow拥有丰富的开发工具,尤其适用于Android。三星乌克兰首席工程师Vitaliy Bulygin表示,“如果你需要在Android上实现某些功能,请使用TensorFlow。”


Objection Co的首席执行官Curtis Boyd表示,他的团队选择使用TensorFlow进行机器学习,因为它是开源的并且非常容易集成。


由Google开源的两款AIY套件让个人可以轻松获得人工智能。 这两个套件专注于计算机视觉和语音助理,是一个小型自组装纸板箱,配有所需的所有组件。


如果你想更加了解TensorFlow,或者说想实践一下人工智能项目,谷歌的另一款工具或许可以帮到你,也就是谷歌的AIY Projects项目。 AIY Vision Kit附带的软件运行三个基于TensorFlow的神经网络。 其中一个基于谷歌的MobileNets平台,能够识别超过1,000个日常物品。 第二个可以在图像中发现面部和表情。 最后一个是专门用于识别猫,狗和人的神经网络。


TensorBoard:模型训练可视化的好工具


TensorBoard是一套工具,用于TensorFlow中机器学习的不同方面和阶段的图形表示。


TensorBoard读取TensorFlow事件文件,其中包含在TensorFlow运行时生成的摘要数据(有关模型特定操作的观察)。


用图表显示的模型结构允许研究人员确保模型组件位于需要的位置并正确连接。


使用图形可视化工具,用户可以探索模型抽象的不同层,放大和缩小模式的任何部分。 TensorBoard可视化的另一个重要好处是相同类型和类似结构的节点涂有相同的颜色。用户还可以查看按设备着色(CPU,GPU或两者的组合),使用“跟踪输入”功能突出显示特定节点,并一次可视化一个或多个图表。


这种可视化方法使TensorBoard成为模型性能评估的流行工具,尤其适用于深层神经网络等复杂结构模型。


Grant Reaber指出,TensorBoard可以轻松监控模型培训。 Grant和他的团队也使用此工具进行自定义可视化。


Illia Polosukhin也选择了TensorBoard。 “TensorBoard在模型开发过程中显示指标,并允许对模型做出决策。例如,监控模型在调整其超参数并选择性能最佳时的表现非常方便,“总结了Illia。


除了显示性能指标外,TensorBoard还可以向用户显示许多其他信息,如直方图,音频,文本和图像数据,分布,嵌入和标量。


相关阅读

关键词不能为空

电脑蓝屏_电脑怎么了_win7问题_win10问题_设置问题_文件问题_上犹电脑信息网

关于我们