GoogleDriveとGoogleColabで分析環境を構築しよう

データサイエンティスト

はじめに

データ分析初心者がGoogleDriveGoogleColaboratoryを用いて分析環境を構築するときの手順を紹介したいと思います。

GoogleDrive上での作業

まずはGoogleDriveに分析用のフォルダを作成します。

GoogleDriveを開いた後、「新規」、「新しいフォルダ」をクリックし、新しいフォルダを作成します。今回はフォルダ名を「プロジェクトA」としています。



外部の人とプロジェクトを共有したい場合は、作成したフォルダを外部に公開することで共同開発ができるようになります。

フォルダの共有相手にコードの閲覧のみの権限を与えたい場合は、アクセス権限を「閲覧者」とし、「リンクをコピー」をクリックして、URLを共有しましょう。

次に作成したプロジェクトAフォルダに分析用のnotebookを作成していきます。
「新規」、「その他」、「Google Colaboratory」よりnotobookを新規に作成します。

作成した直後のnotebookはタイトルがuntitledになっているので、変更しておくと良いでしょう

次に、分析データのcsvをテストで用意します。
今回はe-Statで公開されているcsvを用いることにします。
以下のリンクをクリックして、適当な統計データからcsvをダウンロードしてください。

ファイル | 統計データを探す | 政府統計の総合窓口
各府省等が登録した統計表ファイル(Excel,CSV,PDF形式)を検索し、閲覧・ダウンロードすることができます。また、データベース化された一部の主要な統計では、表示項目の選択、表の組換え、グラフ作成等を行うことができます。

ダウンロードしたcsvを作成したプロジェクトのフォルダにドラッグアンドドロップしてフォルダ上に保存します。

次に、アップロードしたcsvをnotebookから読み込めるようにしたいと思います。
notebookのコードセルに以下のコードを貼り付けて実行をしてください。

from google.colab import drive
drive.mount('/content/drive')

Googleドライブに接続するか聞かれるので、「Googleドライブに接続」をクリックしてください。

利用するアカウントを聞かれるので、Googleドライブを利用するアカウントを選択してください。

連携完了後、notebookの左側にあるフォルダボタンをクリックして、更新をすると、driveフォルダの下のMyDriveフォルダに、自身のGoogleドライブをアクセスできる状態にすることができます。

次にeStatからダウンロードしたcsvを使って分析できる環境を作りたいと思います。
まずはコードブロックを新規に作成して、以下のコードを貼り付けてください。

import pandas
df = pd.read_csv("")
print(df)

新規のコードブロックは「+コード」ボタンをクリックすることで作成できます。

次に、Googleドライブに配置したcsvのパスを取得します。
notebook上でcsvが表示されていれば下図のようにすることで取得できると思います。

コピーしたパスをpd.read_csvに引数に文字列として渡し、実行するし、csvの中身が表示されれば完了です。文字コードでエラーが出た場合は、画像のように、shif-jisを設定してみてください。

df = pd.read_csv("Colab上で取得したパスを貼り付け", encoding="shift-jis")

 

まとめ

GoogleドライブとGoogle Colabを使って分析環境を構築する方法を紹介しまいた。
他人にコードを見てもらいたい場合、notebookのみを共有しても、csvなどのデータがないと再現できないので、本記事を参考にしていただけると幸いです。

追加でColabのオススメ設定を以下の記事で紹介していますので、参考にどうぞ

Google Colabでコード行番号(行数)を表示させる方法
はじめに Google Colaboratoryで複数行のコードを実装し、他人とミーディングしていると、行数(行番号)を言いながら指示したい場合が良くあります。 私はよく仕事の都合でGoogle meetを用いてオンライン会議をするのですが...

 

タイトルとURLをコピーしました