\r\n\r\n
2018年9月、Googleは、研究者が公共ソースからデータセットを一括入力できるように設計された新しいデータセット検索エンジンを開始しました。国勢調査、人口動態調査、医学研究など、あらゆるものが含まれます。
これらのデータセットは、主に学術研究者が数値計算やパターン抽出を行うためのものだが、中には素人目にも魅力的なものがある。
長年、グーグルの検索エンジンの最大の弱点は、地下のインターネットが全部見えないことだった。
このインターネットは、情報そのものがGoogleのウェブクローラーで検索できないため、まだ「アングラ」なのです。これは、データが特別な検索クエリーを必要とするデータベースに格納されているか、ダウンロードして分析することしかできないデータファイルとして格納されているためです。
しかし、Google Dataset Searchを使って情報を探すと、ウェブサイトではなくデータベースのリストが返されます。
これらのデータベースをクリックすると、ソースデータへのリンクが表示されます。
ソースデータには、検索可能なデータベース、ダウンロード可能なファイル、あるいはデータベースに含まれる膨大な情報の分析と可視化を支援するオンライン可視化ツールなどがあります。
どのような情報が得られるのでしょうか?
ここでは、Googleのデータセット検索エンジンからリンクされている、最も興味深いデータセットをご紹介します。
Googleデータセットでは、NOAA EV2イメージアクセスシステムへのリンクが表示されます。
これは、マイクロフィッシュからデジタル形式まで、昔の気候データを自由に利用できる印象的なアーカイブである。
このデータベースから抽出できる印象的な記録には、次のようなものがあります。
それぞれの場合、データが必要な州を選択する必要があります。データをさかのぼって抽出できる年数は州によって異なります。
気候学者の論文や、地球規模の気候変動に関心のある方にとって、素晴らしい資料となるでしょう。
ダウンロード可能なデータセットに加え、GoogleデータセットにはNOAAインタラクティブマップへのリンクがあります。
これらのマップは、気候データの表示を日付や測定量によってカスタマイズできる、素晴らしいリソースです。
米国海洋大気庁(NOAA)のインタラクティブ・マップには、以下のデータ傾向が視覚的に表現されています。
これらの地図は、地球の気候がゆっくりと変化していく様子を長年にわたって観測し、魅力的な形で表現しています。気候学者でない人にとっても、これらのインタラクティブな地図は素晴らしいリソースです。
NASAのウェブサイトは、常に有益な情報の宝庫です。しかし、多くの人が知らないのは、世界中の気象パターンに関する衛星データも収集し、共有していることです。
最も広範なデータセットの1つが、NASAの温帯低気圧アトラスです。1961年から1998年までの暴風雨データを収録しています。データセットのページから、月または季節と年を選択し、その年に発生した主要な暴風雨について、以下のいずれかの観点でダウンロードをリクエストすることができます。
数十年前の嵐のパターンを振り返ることは印象的であり、気候パターンを調べる研究者にとっては貴重なデータベースとなります。
WHISPersとは、Wildlife Health Information Sharing Partnership Incident Reporting System(野生動物健康情報共有パートナーシップ事件報告システム)のことです。これは、米国で最近起こった20の野生動物健康事件を示すインタラクティブな地図です。
鳥の大量死、コウモリの大量死、慢性消耗病などのニュースを耳にすることがあります。しかし、この地図を見ていると、そのようなケースが、かなり前からメディアに登場する束が見えてくる。
人間の病気の広がりは、とても興味深い分野です。現代において、西アフリカで2014年に人類史上最悪のエボラ出血熱が発生し、ニュースになったが、これほど恐ろしい人獣共通感染症の発生はない。
しかし、過去には他のエボラ出血熱の発生もあり、それらはFigshareが提供するオンラインデータベースで記録・共有されています。
このデータセットは1976年に始まり、今日まで続いています。どれくらいの期間、流行がなく、そしてどれくらいの規模で流行したのか、その波動を追うのは面白い。
詳細データは、一般データのオンラインWeb版でダウンロードすることができます。
Googleデータセットで「世界人口推計」を検索すると、世界銀行のインタラクティブな「人口推計・予測」ツールへのリンクが表示されます。
どの国から、どの系列のデータをプロットするかを選択できるのが印象的なツールです。右側には、データの結果を表、グラフ、地図で見ることができます。
人口動態や国別などの要因で人口予測の傾向を確認することは、非常に勉強になります。このツールは、あなたの時間を大幅に節約してくれます。自分でメタデータを探し出してグラフを描くよりも、世界銀行のツールがすべてやってくれます。
さらに素晴らしいのは、母集団データベースに限定されないことです。人口から貧困、国民皆保険、雇用、教育統計など、主要なデータベースを変更することができます。
Googleが提供するデータセットへのリンクの中で、これは最も有用なものの一つである。
Googleのデータセットを深く掘り下げれば掘り下げるほど、どのような情報が得られるか驚かされることでしょう。
例えば、ナショナルUFOレポーティングセンターの昨年のUFOレポートがすべてダウンロードできるリンクがあります。どこで、どんなものが、どれくらいの時間、目撃されたのか、などです。
クラスター観測のタイミングと場所からパターンを特定できると思いますか?データセット全体をダウンロードして相関関係を探せば、簡単に成功させることができます。
googledatasetsで検索すると、その情報量は圧巻です。上記の例は、氷山の一角に過ぎません。自分なりのキーワードを入力して、どんなものが出てくるか試してみてください。
見つけた大量のデータをどのように分析したらよいかわからない場合は、大量のデータセットを分析するための強力なツールであるExcelに読み込ませてください。今までやったことがない人は、これから発見するすべての情報を掘り下げる前に、Excelのデータ分析機能について詳しく知ることができます。