\r\n\r\n
microsoftexcelは、世界で最も広く使われている表計算ソフトです。その理由は、ユーザーフレンドリーなインターフェースと強力な内蔵ツールによって、データの取り扱いが簡単になるからです。
しかし、より高度なデータ処理を行いたい場合は、Excelの機能を超えて、Pythonなどのスクリプト/プログラミング言語を使い始める必要があります。手動でデータベースにデータをコピーする代わりに、Pandasを使ってExcelのデータをPythonに読み込む方法を簡単に説明します。
注意:Pythonを使ったことがない人には、このチュートリアルは少し難しいかもしれません。Pythonの学習用Webサイトや、Pythonの基本的な例から始めることをお勧めします。
Python Data Analysis Library(以下、Pandas)は、データ解析やデータ操作に使用されるプログラミング言語Pythonのオープンソースライブラリである。
PandasはデータをDataframeと呼ばれるPythonオブジェクトにロードし、従来のデータベースと同様に行と列にデータを格納します。一度作成したデータフレームは、Pythonを使って操作することができ、可能性が広がります。
注意:Pandasをインストールするには、Python2.7以上が必要です。
あなたのマシンで Pandas を使い始めるには、Pandas ライブラリをインポートする必要があります。もし、ヘビー級のソリューションをお探しなら、Pandasが組み込まれたanacondapythonディストリビューションをダウンロードすることができます。
PandasはPyPIパッケージであり、pipforpythonを使ってコマンドラインからインストールすることができます。最近のMacシステムにはPIPが搭載されています。その他のWindows、Linux、古いシステムについては、Python用のPIPをインストールする方法を理解するのは簡単です。
ターミナルを開いたら、以下のコマンドで最新版のPandasをインストールすることができます。
>> pip install pandasPandasもNumPyライブラリを必要とするので、コマンドラインで以下のようにインストールしましょう。
>> pip install numpyこれでPandaがインストールされ、最初のデータフレームを作成する準備ができました。
この例では、サンプルデータセットとして cars.xlsx というファイルを使用します。
このデータセットには、テーブルに入力された車のメーカー、モデル、色、年式が表示されます。表は、Excelの領域として表示されます。パンダは賢いので、データを正しく読み取ることができるのです。
このワークブックは、デスクトップディレクトリに保存され、以下のファイルパスが使用されます。
/Users/grant/Desktop/Cars.xlsx使用するためには、ワークブックのファイルパスを知っている必要があります。まずは、visualstudioのコードを開いてスクリプトを書きましょう。テキストエディタをお持ちでない場合は、visualstudio codeやAtomエディタの使用をお勧めします。
これでテキストエディタが使えるようになったので、いよいよ本番です。PythonとCarsワークブックを組み合わせて、Pandasデータフレームワークを作成する予定です。
テキストエディタを開き、新しいPythonファイルを作成します。これをscript.pyとします。
Pandasをスクリプトで使用するには、コードにインポートする必要があります。これは1行のコードで行われます。
import pandas as pdここでは、Pandasライブラリをロードし、変数 "pd "にアタッチしています。名称は自由ですが、私たちはパンダの略称として "pd "を使っています。
Pandasを使ってExcelを扱うには、ExcelFileという追加のオブジェクトが必要です。これはPandasエコシステムに組み込まれているので、Pandas:から直接インポートすることができます。
from pandas import ExcelFilePandasがワークブックにアクセスするためには、スクリプトにファイルの場所を指定する必要があります。最も簡単な方法は、ワークブックへのフルパスをスクリプトに指定することです。
この例では、/Users/grant/Desktop/Cars.xlsxのパスを思い出してください。
このファイルパスをスクリプトで参照し、データを抽出する必要があります。Readu Excel関数内でパスを参照せず、パスを変数:に格納することでコードをクリーンに保つことができます。
Cars_Path = '/Users/grant/Desktop/Cars.xlsx'これで、Pandasの関数を使ってデータを抽出することができるようになりました
Pandasをインポートし、path変数を設定したら、次はPandasオブジェクトの関数を使ってタスクを完了させます。
この関数は、Excelワークブックのファイルパスを受け取り、そのワークブックの内容を含むDataFrameオブジェクトを返します。この関数を次のようにコード化します。
pandas.read_excel(path)引数pathにはcar.xlsxのワークブックを指定し、パス文字列を変数Carsu pathに設定しました。
これでDataFrameオブジェクトを作成する準備ができました。それらをまとめて、DataFrameオブジェクトを「DF」という変数にセットしてみましょう。
DF = pd.read_excel(Cars_Path)最後に、データフレームを表示したいので、結果をプリントしてみましょう。変数DataFrameをパラメータとして、スクリプトの最後にprint文を追加します。
print(DF)ターミナルでスクリプトを実行する時間です
ターミナルまたはコマンドラインを開き、スクリプトのあるディレクトリに移動します。今回は、デスクトップ上にある「script.py」を用意しました。スクリプトを実行するには、pythonコマンドの後にスクリプトファイルを指定します。
Python は cars.xlsx から新しいデータフレームを入力し、ターミナルにデータフレームを出力します!
一見すると、データフレームは通常のExcelシートと非常によく似ています。したがって、データフレームは簡単に解釈することができます。
あなたのヘッダーはデータセットの一番上にマークされ、PythonはCarsから「xlsx」ワークブックに使用されています。
一番左の列は、0から始まり、列の番号を示すインデックスであることに注意してください。デフォルトでは、Pandasはこのインデックスをデータフレームに適用しますが、これはいくつかのケースで便利です。このインデックスを生成させたくない場合は、他のパラメータを追加してください。
DF = pd.read_excel(Cars_Path, index=False)パラメータ「index」をFalseに設定すると、インデックス列が削除され、Excelデータのみが残ります。
Excelのワークシートからデータを読み込めるようになったので、Pythonのプログラミングを自由に応用できるようになりました。経験豊富なPythonプログラマーにとって、Pandasを使うことはExcelワークブックに保存されたデータを扱う簡単な方法です。
Pythonはデータの分析や操作に簡単に使用できるため、Pythonが未来のプログラミング言語である多くの理由の一つです。
写真提供:Rawpixel/Depositphotos