阅读344 返回首页    go 阿里云 go 技术社区[云栖]


《数据驱动安全:数据安全分析、可视化和仪表盘》一2.3 数据帧介绍

本节书摘来异步社区《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第2章 ,第2.3节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 着 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.3 数据帧介绍

如果了解其他编程语言,一定会对通用的数据类型有一些基本认识,例如字符串、整型以及数组。R和Python提供了标准的数据类型集合,它们有一个共同的数据类型:数据帧,它给予R和Python强大的功能。从表面上看,数据帧仅仅是表现表格数据(标准的Excel电子表格中展示的数据类型)的一种方法,并且看上去像是二维数组。然而,如果深入剖析,就会发现数据帧是数据库表、矩阵、二维数组以及具有许多额外的省时特性的数据透视表的一体化组合。
像数据库表,每列在数据帧中有一个列名并拥有相同类型的数据元素。你可以在全列、全行以及各列/行子集中执行操作。增加、合并、扁平、扩展、修改、删除以及查找等针对数据的操作在R和Python中都只需要执行一行命令,就像从文件中读出或写入数据一样。从本质上看,Python和R通过将这种理解力融合进数据结构和相应的函数以获得了这项有表现力的功能。相反,其他编程语言缺少这种复杂的数据结构,这意味着你需要自己编写代码来建立自己的数据结构以获得相似的功能。
下面的代码(程序清单2-1和程序清单2-2)分别提供了关于R和Python中数据帧操作的概述,但是仍强烈建议在进入第3章之前阅读上述内容的资源。正如在前言中所指出的,可以在本书相应的网站(www.wiley.com/go/datadrivensecurity)获得代码。
程序清单2-1
image
image

程序清单2-2
image
image
image

对于大多数分析项目,数据帧是R和Python的核心数据结构。它使开发者专注于用数据来做什么而不是如何做。这是特定领域编程语言和通用编程语言的主要区别之一。如果你曾经对转向使用R或Python进行数据分析表示观望,希望这个关于每种语言能力的简单介绍能够说服你。

最后更新:2017-06-21 17:32:13

  上一篇:go  《数据驱动安全:数据安全分析、可视化和仪表盘》一2.4 组织结构
  下一篇:go  《数据驱动安全:数据安全分析、可视化和仪表盘》一2.2.2 设置R语言环境