\r\n\r\n
統計処理を行う場合、ほとんどの場合、統計ソフトを使いたいものです。これらのツールは、t検定、カイ二乗検定、相関関係などの計算を行うために使用されます。でも、だからといって、できないわけではありません。
残念ながら、Excelの統計関数は、必ずしも直感的に使えるものではありません。大抵、難解な結果を出してしまう。そこで、統計関数を使う代わりに、Excelの統計外部プログラムであるデータ解析ツールキットを使用します。
Toolpakの綴りはかなり悪いですが、便利な統計関数を多数収録しています。Excelの統計で何ができるかを見てみましょう。
データ解析ツールキットを使わなくても統計はできますが、使った方がはるかに簡単です。Excel2016でToolpakをインストールするには、File> Options> Add-insに進みます。
"管理:Excelアドイン "の横にある "移動 "をクリックします。
表示されたウィンドウで、[Analysis Toolpak]の横にあるチェックボックスをオンにし、[OK]をクリックします。
データ分析ツールキットをExcelに正しく追加していれば、データタブにデータ分析ボタンが表示され、分析セクションにグループ化されています。
もっとパワーが欲しいという方は、ぜひ他のExcel用アドインもチェックしてみてください。
どのような統計テストを行うにせよ、まずはExcelで記述統計量を取得するところから始めることになるでしょう。これにより、平均値、中央値、分散、標準偏差と誤差、尖度、歪度、その他様々な数値の情報を得ることができます。
Excelで記述統計学を実行するのは簡単です。データ」タブの「データ分析」をクリックし、「記述統計量」を選択し、入力範囲を選択します。下のGIFに示すように、入力範囲フィールドの隣にある矢印をクリックし、クリックしてドラッグしてデータを選択し、Enterキーを押します(または対応する下向き矢印をクリックします)。
その後、データにラベルを付けるかどうか、出力を新しいワークシートにするか同じワークシートにするか、要約統計やその他のオプションが必要かどうかをExcelに伝えることを確認してください。
その後、OKをクリックすると、記述統計が表示されます。
t検定は最も基本的な統計検定の一つで、ExcelでToolpakを使って簡単に計算することができます。データ解析ボタンをクリックし、t検定のオプションが表示されるまで下にスクロールしてください。
選択肢は3つ。
2つの標本の分散が等しいかどうかを検定するには、F-検定が必要です。分析ツールの一覧からF-Test Two Samples for Variancesを見つけ、選択し、OKをクリックします。
入力範囲ボックスに2つのデータセットを入力します。アルファ値は、変更する理由がない限り、0.05のままにしておきます。この意味がわからない場合は、そのままにしておきます。最後に「OK」をクリックします。
Excelは、新しいワークシートに結果を表示します(現在のワークシートで出力範囲とセルを選択している場合を除く)。
p値が0.05より小さい場合、分散は等しくないので、t検定を実行するには、不等分散オプションを使用する必要があります。
t検定を実行するには、分析ツールウィンドウから適切な検定を選択し、F検定と同じ方法で両方のデータセットを選択します。アルファ値を0.05のままにして、「OK」をクリックします。
結果には、平均値、自由度(df)、t統計量、片側検定と両側検定のP値など、t検定で報告する必要があるものがすべて含まれています。P値が0.05より小さい場合、2つの標本は有意に異なる。
片側t検定と両側t検定のどちらを使うか迷ったときは、UCLAの解説をご覧ください。
Excelデータ解析ツールキットには、3種類の分散分析(ANOVA)が用意されています。残念ながら、TukeyやBonferroniなどの必要な追試はできませんが、複数の異なる変数の間に関係があるかどうかを確認することはできます。
以下の3つのANOVAテストがExcelで利用可能です。
ここでは一元的な分析を行う。この例では、「介入1」、「介入2」、「介入3」とラベル付けされた3組の数字を見ることにします。ANOVAを実行するには、'Data Analysis'をクリックし、'ANOVA: One-way'を選択します。
入力範囲を選択し、グループが列か行かをExcelに伝えることを確認します。また、ここでは「Label in first row」を選択し、結果にグループ名が表示されるようにしています。
OKをクリックすると、次のような結果が得られます。
なお、p値は0.05未満なので、有意な結果が得られている。これは、テストしたグループのうち少なくとも2つのグループ間に有意差があることを意味します。しかし、Excelはどのグループが異なるかを判断するテストを提供しないので、要約に示された平均を見るのが最善である。この例では、介入3は異なるように見えるかもしれません。
統計的には意味がないのですが、差があるかどうか、どのグループに責任があるかということを確認したいだけなら、それはそれでいいのです。
二要因分散分析はより複雑である。どのような場合に二要素法を使うかについて詳しく知りたい方は、ソフィアウェブサイトの以下のビデオをご覧ください。「複製なし」と「複製あり」の例は、実際の統計に基づくものです。
Excelで相関関係を計算するのは、t検定やANOVAよりずっと簡単です。データ分析」ボタンで「分析ツール」ウィンドウを開き、「相関」を選択します。
入力範囲を選択し、グループを列または行として識別し、ラベルがある場合はそれをExcelに伝えたら、「OK」をクリックします。
意味のある指標は得られませんが、各グループが他のグループとどのように相関しているかを見ることができます。1の値は絶対的な相関を示し、2つの値が同一であることを意味する。相関値が1に近いほど相関が強いことを示す。
回帰は、産業界で最もよく使われる統計テストの1つであり、Excelはこの計算のために素晴らしい機能を備えています。Excelで簡単に多変量回帰を行います。回帰についてよく知らない方は、HBRの「Guide to Using Regression for Business」をご覧ください。
従属変数が血圧で、2つの独立変数が体重と食塩摂取量だとします。どちらがより良い血圧の予測因子なのか(あるいは両方が良いのか)を確認したいのです。
データ解析」をクリックし、「回帰」を選択します。今回は、入力範囲のボックスに記入する際に注意が必要です。入力Yの範囲ボックスには、単一の従属変数が含まれている必要があります。入力Xの範囲ボックスには、複数の独立変数を入れることができます。単純な回帰の場合は、残りを気にする必要はありません(ただし、ラベルが選択されている場合は、Excelに伝えることを忘れないでください)。
を算出した。
OKをクリックすると、結果の大きなリストが表示されます。ここでは、体重と食塩摂取量のp値を強調表示しました。
ご覧の通り、重量のp値は0.05より大きいので、有意な関係はありません。しかし、食塩のP値は0.05以下であり、血圧の良い予測因子であることがわかる。
回帰データを表示する場合、Excelの散布図に回帰線を追加できることを覚えておいてください。分析のための視覚的な補助として最適です。
Excelは統計的な機能で知られているわけではありませんが、実際には、データセットを組み合わせるなどの作業に非常に便利なPowerQueryツールなど、非常に便利な機能が含まれています。(最初のMicrosoft Power Queryスクリプトの生成方法についてはこちらをご覧ください)。また、データ解析のための統計アドイン「Toolpak」もあり、Excelの優れた機能の一端を実感できます。Toolpakの使い方を学んだら、次は自分で遊んで、もっと多くの機能を使いこなす方法を考えてみてください。
これを使えば、Excelのスキルを一段と高めることができます。 当記事では、Excelのゴールシーク機能を使ってより多くのデータを扱う方法と、vlookupを使って値を検索する方法について解説しています。また、ある時点で、ExcelのデータをPythonにインポートする方法を学びたいと思うかもしれません。