microsoftexcel是世界上使用最广泛的电子表格软件,这是有充分理由的:用户友好的界面和强大的内置工具使处理数据变得简单。
但是,如果您想进行更高级的数据处理,就需要超越Excel的功能,开始使用类似Python的脚本/编程语言。这里不是手动将数据复制到数据库中,而是一个关于如何使用Pandas将Excel数据加载到Python中的快速教程。
注意:如果您以前从未使用过Python,那么本教程可能有点困难。我们建议从这些学习Python的网站和这些基本的Python示例开始。
Python数据分析库(“Pandas”)是Python编程语言的开源库,用于数据分析和数据操作。
Pandas将数据加载到称为Dataframes的Python对象中,Dataframes以行和列的形式存储数据,就像传统的数据库一样。一旦创建了数据帧,就可以使用Python对其进行操作,从而打开了一个充满可能性的世界。
注意:您必须拥有Python2.7或更高版本才能安装Pandas。
要开始在您的机器上使用Pandas,您需要导入Pandas库。如果你正在寻找一个重量级的解决方案,你可以下载anacondapython发行版,它内置了Pandas。如果你没有使用水蟒,熊猫很容易安装在你的终端。
Pandas是一个PyPI包,这意味着您可以通过命令行使用pipforpython进行安装。现代的Mac系统带有PIP。对于其他Windows、Linux和较旧的系统,很容易了解如何为Python安装PIP。
打开终端后,可以使用以下命令安装Pandas的最新版本:
>> pip install pandasPandas还需要NumPy库,让我们在命令行上安装它:
>> pip install numpy现在您已经安装了熊猫,并准备创建您的第一个数据帧!
在本例中,我们使用一个示例数据集:一个名为汽车.xlsx.
此数据集显示输入到表中的汽车的品牌、型号、颜色和年份。表格显示为Excel区域。熊猫足够聪明,能够正确地读取数据。
此工作簿保存到桌面目录,下面是使用的文件路径:
/Users/grant/Desktop/Cars.xlsx您需要知道工作簿的文件路径才能使用。让我们首先打开visualstudio代码来编写脚本。如果没有文本编辑器,我们建议使用visualstudio代码或Atom编辑器。
现在你有了你的文本编辑器的选择,真正的乐趣开始了。我们将把Python和Cars工作簿结合起来创建一个Pandas数据框架。
打开文本编辑器并创建一个新的Python文件。我们就叫它吧脚本.py.
为了在脚本中使用Pandas,需要将其导入到代码中。这是通过一行代码完成的:
import pandas as pd这里我们加载Pandas库并将其附加到一个变量“pd”。你可以用任何你想用的名字,我们用“pd”作为熊猫的缩写。
要使用Pandas处理Excel,需要一个名为ExcelFile的附加对象。ExcelFile内置于熊猫生态系统中,因此您可以直接从熊猫导入:
from pandas import ExcelFile为了让Pandas能够访问工作簿,您需要将脚本指向文件的位置。最简单的方法是为脚本提供工作簿的完整路径。
回想一下本例中的路径:/Users/grant/Desktop/汽车.xlsx
您需要在脚本中引用此文件路径来提取数据。不要引用Read\u Excel函数中的路径,而是通过将路径存储在变量中来保持代码干净:
Cars_Path = '/Users/grant/Desktop/Cars.xlsx'现在可以使用Pandas函数提取数据了!
导入Pandas并设置路径变量后,现在可以利用Pandas对象中的函数来完成任务。
您需要使用的函数恰当地命名为Read\u Excel。Read\u Excel函数获取Excel工作簿的文件路径,并返回包含工作簿内容的DataFrame对象。将此函数编码为:
pandas.read_excel(path)“路径”的论点将是我们汽车.xlsx工作簿,并且我们已经将路径字符串设置为变量Cars\u path。
您已经准备好创建DataFrame对象了!让我们把它们放在一起,将DataFrame对象设置为一个名为“DF”的变量:
DF = pd.read_excel(Cars_Path)最后,您想查看数据帧,所以让我们打印结果。使用DataFrame变量作为参数,将print语句添加到脚本末尾:
print(DF)该在终端上运行脚本了!
打开终端或命令行,导航到包含脚本的目录。在这种情况下,我有“脚本.py“位于桌面上。要执行脚本,请使用python命令,后跟脚本文件:
Python将从汽车.xlsx“输入新的数据帧,并将数据帧打印到终端!
乍一看,DataFrame与常规的Excel表非常相似。因此,数据帧很容易解释。
您的头被标记在数据集的顶部,Python用从汽车.xlsx“工作簿。
注意最左边的一列,一个从0开始并对列进行编号的索引。默认情况下,Pandas会将此索引应用于数据帧,这在某些情况下很有用。如果不希望生成此索引,可以在代码中添加其他参数:
DF = pd.read_excel(Cars_Path, index=False)将参数“index”设置为False将删除index列,只留下Excel数据。
现在您已经能够从Excel工作表中读取数据了,您可以选择任何方式应用Python编程。对于有经验的Python程序员来说,使用Pandas是处理Excel工作簿中存储的数据的简单方法。
Python能够轻松地用于分析和操作数据,这是Python成为未来编程语言的众多原因之一。
图片来源:Rawpixel/Depositphotos
...程语言和一个用于统计分析的软件环境,用于表示图形。使用R的主要优点是它可以用于实现统计概念,如线性和非线性建模、时间序列分析、聚类等。 R是一种解释语言,因此每一行都由解释器一行接一行地读。它是一种高级编...
...你不会得到任何有意义的度量,但是你可以看到每个组是如何与其他组相关联的。值为1表示绝对相关,表示两个值完全相同。相关值越接近1,相关性越强。 ...
...个很好的开始)。现在,浏览器端和服务器端逻辑都可以使用JavaScript,使用Meteor或React这样的框架很容易做到。 Python:Python用于服务器端逻辑,这意味着您将需要HTML、CSS和JavaScript作为您创建的任何web应用的浏览器...
...会遇到它的一个缺点:电子表格的大小。继续阅读,了解如何缩小Excel电子表格或将大型CSV文件拆分为多个文件。 ...
... 一旦您知道如何添加正确的引用,以及如何布局后台VBA代码的语法,那么将microsoftexcel数据集成到microsoftword中就非常容易了。 ...
有没有想过如何在两种编程语言之间发送数据?是否尝试发送一个对象或多个数据段? ...
... 在本文中,我将向您展示如何使用Python读写googlesheets。如果您刚刚开始Python之旅,那么以下5个学习Python的最佳网站是一个很好的起点。 ...
在这个快速简单的Raspberry Pi项目中,您将学习如何**Gmail电子邮件通知灯。如果您有任何未读的电子邮件,Python脚本会打开指示灯。这个项目需要很少的部分,可以在一个小时内完成!当然,你可以把你的LED打扮成任何你喜欢的...
... 在本文中,您将学习如何在Raspberry Pi上安装TensorFlow,并在预先训练的神经网络上运行简单的图像分类。 ...