雷竞技rebat年轻心灵的前沿

雷竞技rebat年轻心灵的前沿
菜单
核心概念 数学 发布日期:2021年4月15日

利用数据科学从大数据中提炼知识

摘要

大量收集的数据被称为大数据,大数据已经改变了我们在许多不同领域思考和回答问题的方式,比如天气预报和生物学。有了这些可用的信息,我们就需要计算机来帮助我们存储、处理、分析和理解它们。数据科学结合了统计学、数学和计算机科学等领域的工具,以发现大数据中有趣的模式。数据科学家编写称为算法的分步指令,教计算机如何从数据中学习。为了帮助计算机理解这些指令,算法必须从数据科学家提出的原始问题翻译成编程语言,并且必须将结果翻译回来,以便人类能够理解它们。这意味着数据科学家集数据侦探、程序员和翻译于一身!

数据,数据,无处不在

数据是信息的集合——数字、测量值、单词或描述——这些信息是出于特定原因而收集和存储的。最近,许多新工具被开发出来,使得收集大量数据变得相当容易。当数据大量可用时,它们通常被称为大数据.大数据已经改变了我们思考和回答许多不同问题的方式,例如预测天气,找到避免陷入交通堵塞的路线,或者根据你之前看过的电视剧为你推荐一部你可能喜欢的新电视剧。

大数据:生物学的一大挑战!

大数据还有助于推进生物学研究,生物学是对人类、动物、植物和细菌等生物的研究。现在,许多非常专业的工具可以在研究实验室、医院、大自然,甚至在家里收集大量的生物数据!例如,智能手表等可穿戴设备可以配备实时传感器,帮助医生监测你的睡眠质量。无人机可以飞越农田,拍摄农田照片,鸟瞰农作物的生长情况。新的实验室技术现在可以很容易地读取一个人的完整的遗传指令集,由大约30亿个字母组成(让你了解一下规模,30亿秒大约等于90年!)有了这些可用的信息,存储、处理、分析和解释数据是一项挑战,我们需要计算机来帮助。

数学+统计学+计算机科学+大数据=数据科学

大数据是如此之大,以至于它们已经导致了一个相对较新的和令人兴奋的领域的发展数据科学.数据科学结合了来自许多其他领域的工具,包括统计学、数学和计算机科学,从复杂的数据中发现有趣的模式。数据科学家在开始工作之前必须花费大量时间组织数据。为了回答一个特定的问题,数据科学家需要找到或创建一个数据集,或数据集的集合。一些数据集是公开的,任何人都可以使用,像谷歌数据集搜索这样的搜索引擎1可以用关键字帮你找到。其他数据集,如包括个人医疗信息的数据集,可能只对有限的人开放。数据科学家甚至可能需要收集新数据来回答问题。例如,如果你想知道你的同学最喜欢的颜色,你可以写一份调查来收集其他学生的答案。

从混乱到整齐的数据

数据科学家工作的很大一部分是将他们想要使用的数据转换成可用的格式。思考这个问题的一种方法是把大数据想象成你所有的乐高积木的混乱®散落在你家里各处。在你开始整理你的积木来建造一些东西之前,你必须做一些整理工作,把它们都堆在同一个房间里!大多数真实的数据集都非常“混乱”,这意味着它们可能包含错字甚至缺失的值。例如,你最喜欢的颜色调查的一些回答可能包括“蓝色”、“蓝色”、“蓝色”和“蓝色”。为了使这些数据更容易理解,您需要将所有这些变量更改为单个值来整理数据,如“蓝色”,因为它们都表示相同的颜色。

算法是数据科学的秘方

一旦你的乐高积木®都在一个地方,你可能有很多目标,例如将块分组成集合,或者预测你可能喜欢的下一个集合的类型。如果你有少量的乐高玩具®在美国,手工操作可能很容易,但对于大数据,我们需要特殊的工具来帮助。一个处理大数据的强大工具叫做机器学习也就是我们教计算机如何从数据中学习,而不先给它答案。要做到这一点,数据科学家必须给计算机一套详细的、循序渐进的指令,称为指令算法图1).这些指令必须以计算机能够理解的方式编写,这就是所谓的编码.你可以把算法想象成烤蛋糕的食谱。食谱从一组材料(你的数据)开始,它会告诉你(你的算法)如何混合面糊,加热烤箱,然后烘烤它来得到美味的甜点(你的结果)。然而,食谱和算法之间的区别在于,算法的指令必须非常精确,这样计算机才能确切地知道该做什么。在食谱中,不是说“在面糊中加入少量盐”,而是说“在面糊中加入1克盐,用木勺搅拌三次”。

图1 -算法是计算机的一组分步指令
  • 图1 -算法是计算机的一组分步指令
  • 可视化和构建算法的一个有用方法是绘制流程图,将每个步骤连接到另一个步骤。在流程图中,矩形可能表示行动,菱形表示决定。早上,你可以使用左边的流程图来决定你是否可以继续穿着睡衣,打开生日礼物,或者去上学。在绘制流程图之后,您可以将算法的步骤转换为更详细的描述,如右侧所示。

你和你的电脑都说什么语言?

编码是一种将科学问题翻译成计算机可以使用的语言的方法。世界各地的人们使用许多不同的语言(英语,法语,意大利语,德语,…),同样,也有许多不同的编码语言可用于编写算法(图2).就像用英语和法语写的食谱可能用两种独特的方式表达同一件事一样,不同的编码语言用不同的方式为计算机编写指令。每年都有新的编码语言被发明出来!甚至还有一种专门为8-16岁的孩子创建的编程语言,叫做Scratch21].现在数据科学家经常使用的两种流行的编码语言是R和Python。两种语言都是开源,这意味着用这些语言编写算法的数据科学家可以免费与所有人分享。这使得数据科学家可以很容易地一起工作,并帮助改进彼此的代码!

图2 -算法可以使用不同的编码语言来编码,就像思想可以使用不同的语言来表达一样。
  • 图2 -算法可以使用不同的编码语言来编码,就像思想可以使用不同的语言来表达一样。
  • 假设我们想写一个算法,取任意两个数,第一个数加1,第二个数减2,然后把它们加起来。如果我们从2和4开始,我们想教计算机给出(2 + 1)+(4 - 2)= 5作为答案。我们称之为my_sum的算法在R和Python编程语言中看起来很相似,但如果仔细观察,就会发现一些差异。

将计算机食谱组合成数据科学食谱

数据科学家可能需要编写几种算法,并将它们组合起来才能得到他们想要的答案。就像厨师可能会在烹饪书中收集几个食谱一样,数据科学家有时会创建或使用称为算法的捆绑软件包.当软件包是用R或Python等开源语言编写时,这可以帮助数据科学家创建可重复的工作。可重复数据科学意味着其他人可以轻松地重新运行、重复和重用科学家的工作。这有助于每个人更有效地工作,并轻松地与他人分享他们的发现。可重复性也有助于建立对算法正确性的信任。同样地,你可以把你最喜欢的食谱给朋友,这样他们就可以自己做美味的蛋糕了!

结论

无论是在生物学、银行业还是市场营销领域,大数据都在变得越来越大,大数据将继续对我们的生活产生巨大影响。然而,人们也越来越担心大数据收集对隐私的影响。当你注册一项免费服务或应用程序(如社交媒体、电子邮件、视频流媒体或位置共享服务)时,作为交换,你同意让一家私营公司收集你的数据。这些数据可能包括你搜索的关键字,你浏览的网站,你喜欢的视频,或者你去过的附近的地方。公司使用这些数据来制作专门针对你的广告,通常的目标是尽可能多地向你推销!你可以采取一些措施来了解你的哪些类型的数据正在被收集,例如查看应用程序的设置。这可以帮助你限制某些类型数据的收集,比如你的位置信息,还可以帮助你决定信任哪些应用程序和服务,应该考虑卸载哪些应用程序和服务。

在未来几年,我们将需要大量新的数据科学家,他们可以用机器学习方法帮助理解大数据。对于来自不同背景的人来说,帮助确保每个人都能平等地从这些分析中受益是特别重要的。对于数据科学家来说,这是一个令人兴奋的时代——我们集侦探、数学家、艺术家、计算机程序员和翻译于一身!

术语表

大数据极其庞大和复杂的数据集,对存储、处理、分析和解释具有挑战性。数据科学家通常需要使用专门的工具和方法来处理大数据。

数据科学跨学科领域,结合了统计学、数学和计算机科学的工具,从复杂的数据集(包括大数据)中发现有趣的模式。

数据集由于特定原因而收集和存储的相关信息(数字、测量、单词或描述)的结构化集合。

机器学习利用算法教会计算机如何在没有人类帮助的情况下自动从数据中学习并从经验中改进。

算法指令:计算机要遵守的一套详细的、一步一步的指令或规则

编码使用编程语言与计算机通信并向其提供指令,称为算法。

开源由社区开发和支持的计算机软件类型。开源代码和软件通常是免费的,任何人都可以使用、共享和修改。

软件包一种有组织的相关算法的集合,它们一起工作以完成特定的任务或具有类似的功能。

利益冲突

作者声明,这项研究是在没有任何可能被解释为潜在利益冲突的商业或财务关系的情况下进行的。

脚注

1.https://datasetsearch.research.google.com

2.https://scratch.mit.edu


参考文献

[1]马洛尼,J.,雷斯尼克,M.,鲁斯克,N.,西尔弗曼,B.和伊斯特蒙德,E. 2010。scratch编程语言和环境。ACM反式。第一版。建造。10:1-15。doi: 10.1145/1868358.1868363