pandasを使用してExcelデータをpythonスクリプトにインポートする方法

高度なデータ分析には、エクセルよりパイソンがいい...pandasを使ってエクセルデータをパイソンスクリプトに取り込む方法を紹介します!

microsoftexcelは、世界で最も広く使われている表計算ソフトです。その理由は、ユーザーフレンドリーなインターフェースと強力な内蔵ツールによって、データの取り扱いが簡単になるからです。

しかし、より高度なデータ処理を行いたい場合は、Excelの機能を超えて、Pythonなどのスクリプト／プログラミング言語を使い始める必要があります。手動でデータベースにデータをコピーする代わりに、Pandasを使ってExcelのデータをPythonに読み込む方法を簡単に説明します。

注意：Pythonを使ったことがない人には、このチュートリアルは少し難しいかもしれません。Pythonの学習用Webサイトや、Pythonの基本的な例から始めることをお勧めします。

パンダ（パンダ）は何ですか？

Python Data Analysis Library（以下、Pandas）は、データ解析やデータ操作に使用されるプログラミング言語Pythonのオープンソースライブラリである。

PandasはデータをDataframeと呼ばれるPythonオブジェクトにロードし、従来のデータベースと同様に行と列にデータを格納します。一度作成したデータフレームは、Pythonを使って操作することができ、可能性が広がります。

パンダのインストール

注意：Pandasをインストールするには、Python2.7以上が必要です。

あなたのマシンで Pandas を使い始めるには、Pandas ライブラリをインポートする必要があります。もし、ヘビー級のソリューションをお探しなら、Pandasが組み込まれたanacondapythonディストリビューションをダウンロードすることができます。

PandasはPyPIパッケージであり、pipforpythonを使ってコマンドラインからインストールすることができます。最近のMacシステムにはPIPが搭載されています。その他のWindows、Linux、古いシステムについては、Python用のPIPをインストールする方法を理解するのは簡単です。

ターミナルを開いたら、以下のコマンドで最新版のPandasをインストールすることができます。

>> pip install pandas

PandasもNumPyライブラリを必要とするので、コマンドラインで以下のようにインストールしましょう。

>> pip install numpy

これでPandaがインストールされ、最初のデータフレームを作成する準備ができました。

エクセルデータを準備する

この例では、サンプルデータセットとして cars.xlsx というファイルを使用します。

このデータセットには、テーブルに入力された車のメーカー、モデル、色、年式が表示されます。表は、Excelの領域として表示されます。パンダは賢いので、データを正しく読み取ることができるのです。

このワークブックは、デスクトップディレクトリに保存され、以下のファイルパスが使用されます。

/Users/grant/Desktop/Cars.xlsx

使用するためには、ワークブックのファイルパスを知っている必要があります。まずは、visualstudioのコードを開いてスクリプトを書きましょう。テキストエディタをお持ちでない場合は、visualstudio codeやAtomエディタの使用をお勧めします。

Pythonスクリプトの作成

これでテキストエディタが使えるようになったので、いよいよ本番です。PythonとCarsワークブックを組み合わせて、Pandasデータフレームワークを作成する予定です。

Pythonライブラリのインポート

テキストエディタを開き、新しいPythonファイルを作成します。これをscript.pyとします。

Pandasをスクリプトで使用するには、コードにインポートする必要があります。これは1行のコードで行われます。

import pandas as pd

ここでは、Pandasライブラリをロードし、変数 "pd "にアタッチしています。名称は自由ですが、私たちはパンダの略称として "pd "を使っています。

Pandasを使ってExcelを扱うには、ExcelFileという追加のオブジェクトが必要です。これはPandasエコシステムに組み込まれているので、Pandas:から直接インポートすることができます。

from pandas import ExcelFile

ファイルパスを使用する

Pandasがワークブックにアクセスするためには、スクリプトにファイルの場所を指定する必要があります。最も簡単な方法は、ワークブックへのフルパスをスクリプトに指定することです。

この例では、/Users/grant/Desktop/Cars.xlsxのパスを思い出してください。

このファイルパスをスクリプトで参照し、データを抽出する必要があります。Readu Excel関数内でパスを参照せず、パスを変数:に格納することでコードをクリーンに保つことができます。

Cars_Path = '/Users/grant/Desktop/Cars.xlsx'

これで、Pandasの関数を使ってデータを抽出することができるようになりました

抽出したExcelデータを利用する panda.read excel()

Pandasをインポートし、path変数を設定したら、次はPandasオブジェクトの関数を使ってタスクを完了させます。

この関数は、Excelワークブックのファイルパスを受け取り、そのワークブックの内容を含むDataFrameオブジェクトを返します。この関数を次のようにコード化します。

pandas.read_excel(path)

引数pathにはcar.xlsxのワークブックを指定し、パス文字列を変数Carsu pathに設定しました。

これでDataFrameオブジェクトを作成する準備ができました。それらをまとめて、DataFrameオブジェクトを「DF」という変数にセットしてみましょう。

DF = pd.read_excel(Cars_Path)

最後に、データフレームを表示したいので、結果をプリントしてみましょう。変数DataFrameをパラメータとして、スクリプトの最後にprint文を追加します。

print(DF)

ターミナルでスクリプトを実行する時間です

Pythonスクリプトの実行

ターミナルまたはコマンドラインを開き、スクリプトのあるディレクトリに移動します。今回は、デスクトップ上にある「script.py」を用意しました。スクリプトを実行するには、pythonコマンドの後にスクリプトファイルを指定します。

Python は cars.xlsx から新しいデータフレームを入力し、ターミナルにデータフレームを出力します!

データフレームオブジェクトをもっと詳しく見てみましょう

一見すると、データフレームは通常のExcelシートと非常によく似ています。したがって、データフレームは簡単に解釈することができます。

あなたのヘッダーはデータセットの一番上にマークされ、PythonはCarsから「xlsx」ワークブックに使用されています。

一番左の列は、0から始まり、列の番号を示すインデックスであることに注意してください。デフォルトでは、Pandasはこのインデックスをデータフレームに適用しますが、これはいくつかのケースで便利です。このインデックスを生成させたくない場合は、他のパラメータを追加してください。

DF = pd.read_excel(Cars_Path, index=False)

パラメータ「index」をFalseに設定すると、インデックス列が削除され、Excelデータのみが残ります。

Pythonでもっとやりたいこと

Excelのワークシートからデータを読み込めるようになったので、Pythonのプログラミングを自由に応用できるようになりました。経験豊富なPythonプログラマーにとって、Pandasを使うことはExcelワークブックに保存されたデータを扱う簡単な方法です。

Pythonはデータの分析や操作に簡単に使用できるため、Pythonが未来のプログラミング言語である多くの理由の一つです。

写真提供：Rawpixel/Depositphotos

2021-03-19 06:40 に公開
閲覧 ( 28 )
分類：プログラミング