Jupyter Notebookで始める!Pythonデータ分析の基礎【ChatGPT統計解析】
Jupyter NotebookはPythonを用いたデータ分析に便利な開発環境です。Pythonは多様なライブラリが利用できるため広く使われており、Anacondaをインストールすることで主要なライブラリやツールも自動で導入されます。AnacondaにはJupyter Notebookも含まれ、コードの記述、実行、結果の保存が簡単に行えます。Windowsにインストールするには、コマンドプロンプトで「pip install jupyter notebook」を実行します。Jupyter Notebookではプログラムを記述・実行し、出力結果を確認しながら進められます。作業内容は任意の名前で保存でき、他のユーザーと共有も可能です。終了時はPythonページを閉じ、Fileタブで「Save and Checkpoint」し、「Close and Halt」でカーネルを停止します。コマンドプロンプトではControl-Cを2回押して終了します。
▼▼▼▼▼▼▼▼
チャンネル登録はこちら
Pythonの開発環境Jupyter Notebook
Jupyter Notebook
データ分析をコンピュータに行わせるために、Pythonというプログラミング言語を用いてプログラムを作成します。
数あるプログラミング言語の中からPythonを使用する理由としては、ライブラリが豊富に存在するということが挙げられます(ライブラリとは汎用性の高いプログラムを集めたもののことです)。
しかし、作業に必要なライブラリをインストールするというのは非常に面倒な作業になります。
なぜならば、ライブラリには膨大な種類が有り、その中から自分の作成するプログラムに必要なライブラリはどれかを調べた上で、ライブラリをインストールするためのコマンドを人力していかなければならないからです。
非常に面倒な作業になりますが、実はこの手間を幾分か省くことができる方法があります。
その方法とは、Anacondaと呼ばれるPythonパッケージを利用することです。
AnacondaをインストールすればPython本体といくつかのツール、ライブラリがインストールされるのですが、このときインストールされるライブラリやツールには有用性が高いものが多く含まれているのです。
実際、本書内で使用するライブラリの多くはAnacondaをインストールした時点で使用可能な状態になっており、足りないライブラリに関してもAnaconda Navigatorというツールを使えば簡単にインストールすることができます。
また、Jupyter Notebookと呼ばれるツールを用いてプログラミングコードを作成していくことを推奨します。
これは、データ分析において計算結果は重要であるという観点から、コードの記述、実行、結果や出力の保存までを同時行うことができるというJupyter Notebookの特色は非常に有用であるからです。
実はAnacondaをインストールするときに同時にインストールされるツールの中にこのJupyter Notebookも含まれています。
これらの理由からAnacondaによるPythonの環境構築をおすすめしています。
Jupyter Notebook のWindowsへのpipコマンドによるインストール
次に、開発環境Jupyter NotebookをWindowsへインストールします。これはpipコマンドを使って簡単にインストールできます。
コマンドプロンプト(PowerShell)に対して、
C:\Users\saki> pip install jupyter notebook
と打つと、jupyter notebookの動作に必要ないくつかのパッケージソフトをダウンロード・インストールします。
数が多いので多少時間がかかります。
すべて正常にインストールできると、
Successfully installed … パッケージのリスト…
が表示されます。
Jupiter NotebookのWindowsでの起動
コマンドプロンプトで、作業フォルダに移動します。
作業フォルダはユーザ自身が持っているフォルダの中なら好きなように作ってかまいません。
ここでは、ドキュメントフォルダ(Documents)の下にworkというディレクトリを作り、ここを作業フォルダとすることにします。
そこで、jupiter notebookと打って起動します。
PS C:\Users\saki\Documents > mkdir work s-- ディレクトリworkを作る
ディレクトリ: C:\Users\saki\Documents
PS C:\Users\saki\Documents\work> jupiter notebook s-- jupiter notebook起動
… メッセージ…
[I 13:10:21.562 NotebookApp] The Jupyter Notebook is running at: http://localhost: 8889/?token=504e380ce
[I 13:10:21.562 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip
… メッセージ…
無事に起動できたようです。
これと同時に、ブラウザの新しいウィンドウが開きます。
Pythonプログラムの入力と実行
では、Pythonを少しだけ使ってみます。
画面の右側になるnewのボタンを左クリックし、プルダウンメニューからPython 3をクリックしてみてください。
これで、Pythonをプログラムするためのウィンドウ(iPython形式のウィンドウ)が開きます。
この画面のIn[ ]:の右側の部分にプログラムを書くことができます。最初のプログラムとして、Hello Worldを出力してみましょう。
In[ ]:のところに、
print (‘Hello World’)
と書き込みます。
このプログラムを実行してみます。
実行するには、メニューバーの実行ボタンをクリックするか、さもなくばCellタブからプルダウンメニューでRun Cellsをクリックします(今後、実行キーを押す、と呼ぶことにします)。
そうすると実行結果が表示されます。
このプログラムの場合はHello Worldと表示されます。
このように、Jupiter Notebookの画面内では、プログラムを書きこんでそれを実行し、結果を出力することができます。
では、プログラムを間違えたらどうなるでしょうか。
例えばprintとすべきところを、間違えてprntと打ったとします。
実行キーを押して実行させると、エラーメッセージが出力されます。ここでは、
Name Error: name ‘print’ is not defined
というメッセージが出ているので、prntと書いたことが間違いだと分かります。
もう少しだけNotebook環境に使い慣れよう
では、もう少しだけ使って、Jupyter Notebookの環境に慣れることにしましょう。
先ほど間違えた状態のままで、In[2]のところにプログラムを上書きしてみます。
書くのは
x=2
print(x)
で、変数xに値2を代入する、その後print(x)によってxを出力(表示)する、というプログラムです。書き込んでから実行キーを押すと、「2」というprintの出力結果が見えます。
繰り返しが必要な場合には、forループと呼ばれる繰り返し命令を使います。
In[5]: x = [1, 3, 5, 7, 9]
Print(x)
For u in x
Print u
[1, 3, 5, 7, 9]
1
3
5
7
9
リストxに入っている要素を頭から順に1つずつ取り出して変数uに入れ、その次の行にあるprint(u)を実行、つまりuを印刷表示します。
Printは指定された内容を1行に書く(書き終わったら改行する)という設定になっているので、リストxからuを1→3→…→9と順番に取り出しながらそれぞれを1行ずつに表示し、その結果1行ずつに1, 3, 5, 7, 9と並んだ出力が得られます。
Pythonのプログラミングはこのように進めます。
作業結果の保存
Jupyter Notebookの環境で作業した内容は、好きな時に保存できます。
保存する前に、まず名前をつけましょう。名前をつけるには画面上の上部のFileタブからRenameをクリックします。
名前を付けないと、勝手にUntitled(すでにUntitledが存在すれば次はUntitled 1, その次は2…)という名前が付きます。
Renameで名前をつけたら、同じFileタブからSave and Checkpointをクリックします。
これによって今の時点での状態が「ファイル<付けた名前>.ipynb」に保存されます。
次に使うときには、このipynbのファイルはJupiter NotebookのHomeのページでクリックすると、保存した状態が再現され、作業を続けることができます。
また、このipynbのファイルは他のユーザーのJupiter Notebookの環境で開くことができるので、開発途中のプログラムを渡して作業を継続してもらってり、プログラムを見て助言をもらったりすることも可能です。
Jupiter Notebookの終了
Jupyter Notebookを終了するときは、次の手順で行います。
先ず、作業していたPythonのページを閉じます。
作業していたページのFileタブを開き、メニューからSave and Checkpointをクリックし、必要に応じて最後の状態を保存します。
次に、再びFileタブを開き、最下段のClose and Haltをクリックします。
これによってこの作業環境で動作していたカーネルが停止し、このウィンドウ自体が閉じます。
もし閉じないときは、カーネルが停止していればウィンドウを閉じる操作(xボタンをクリックするなど)で閉じてもかまいません。
Jupyter Notebook全体を停止する
最初にJupyter Notebookを起動したコマンドプロンプト画面で、Control-Cを2回押します。
Control-Cとは、キーボード上のControlキーを押しながらCのキーを押す(2つ同時に押す)ことです。
1回目で終了してよいかという確認メッセージが出るので、もう一度押します。これで終了します。
Jupyter Notebookは、Pythonを使用したデータ分析や機械学習の実行に非常に便利な開発環境です。Pythonは簡潔で読みやすい文法と、豊富なライブラリを持つため、近年データ分析や人工知能分野で広く使われるようになりました。プログラミング言語の中からPythonが選ばれる理由には、コードのシンプルさと理解しやすさ、そしてライブラリの充実度が挙げられます。Pythonのライブラリとは、様々な用途に合わせてあらかじめ作成されたプログラムや関数の集合体のことを指します。ライブラリを活用することで、複雑な計算やデータ処理も簡単に行うことが可能になります。例えば、データ分析に特化したpandasや数値計算のためのNumPy、データの可視化に役立つMatplotlibやSeaborn、そして機械学習アルゴリズムが豊富に揃ったscikit-learnなど、多種多様なライブラリがPythonの魅力の一つです。しかし、作業に必要なライブラリを一つ一つインストールしていくのは非常に手間がかかる作業になります。ライブラリは膨大な種類が存在し、必要なライブラリを自分で調査し、それをインストールするにはコマンドを一つずつ実行していかなければなりません。さらに、ライブラリ間の互換性問題もあり、異なるバージョンのライブラリが依存関係によって正常に動作しないこともあります。このような問題を解消する方法の一つとして、Anacondaと呼ばれるPythonパッケージ管理ソフトウェアがあります。Anacondaをインストールすると、Python本体に加え、データ分析や機械学習に必須なライブラリやツールも同時にインストールされます。Anacondaのインストール時に追加されるライブラリは非常に有用性が高く、データ分析や機械学習においてよく使われるものが一通り揃っているため、初心者でもすぐに作業を開始できる利点があります。例えば、Anacondaでは前述のpandasやNumPy、Matplotlibといった代表的なライブラリも含まれており、さらに拡張性が高いJupyter Notebookも導入されます。Jupyter Notebookは、コードの記述、実行、結果の出力を一つのインターフェースで行えるツールで、特にデータ分析において計算結果を視覚的に確認しながら進められる点が非常に有用です。Anacondaを使用することで、これらのツールやライブラリを手軽に利用できる環境が整うため、Pythonによるデータ分析や機械学習において非常に効率的です。Jupyter Notebookの特徴として、コードセルごとにプログラムを分割して記述できる点が挙げられます。これにより、データの前処理や分析、可視化の各ステップごとにコードを実行し、結果を逐一確認することができます。さらに、Jupyter NotebookはMarkdown形式のテキストも記述できるため、コードの説明や手順をメモすることも可能です。たとえばデータ分析を行う場合、まずデータの読み込みや前処理を行い、その後分析や可視化に進む流れになりますが、それぞれのステップに応じてセルを区切って作業できるため、作業内容が整理されやすく、他人との共有も簡単です。Jupyter Notebookは、コマンドプロンプトまたはターミナルで「jupyter notebook」と入力することで起動します。これによりブラウザが自動的に開き、ローカルホスト上でJupyter Notebookが動作するようになります。起動時には、コードの実行環境を意味する「カーネル」が一つ立ち上がり、このカーネルに対してコードの送信と実行が行われます。例えば、Jupyter Notebookのセル内に「print(‘Hello World’)」と記述し、セルの実行ボタンをクリックすることで、その結果がセルの下部に出力されます。また、変数に値を代入したり、簡単な計算を行ったりする場合も同様に、各セルごとに実行結果が表示されるため、コードの実行過程を視覚的に確認しながら作業を進めることができます。Jupyter Notebookのインターフェースには、セルの実行、停止、挿入、削除などを操作するボタンやメニューが揃っており、直感的に操作できるため、初心者でも使いやすい設計となっています。Jupyter Notebookは、データの分析や機械学習における実験的なプロジェクトや、プレゼンテーション資料の作成にも適しています。例えば、データの前処理を行うためのコードや結果をNotebookに保存し、その内容を他のユーザーと共有することで、データ分析のプロセスや結果について説明しやすくなります。また、Notebookファイルは.ipynbという形式で保存されるため、次回作業時にも再度その状態から作業を再開することが可能です。Jupyter Notebookを終了する際は、まずすべてのセルが保存されているか確認し、「Save and Checkpoint」でデータの保存を行います。その後、コマンドプロンプトやターミナル上で「Control-C」を2回押して、カーネルを停止することで完全に終了します。Jupyter NotebookはAnacondaによってインストールする以外にも、「pip install jupyter notebook」を用いたインストールも可能です。例えば、Windows環境でコマンドプロンプトを開き、「pip install jupyter notebook」と入力してエンターキーを押すと、Jupyter Notebookに必要なパッケージが自動的にインストールされます。インストール後、コマンドプロンプトで「jupyter notebook」と入力するとNotebookが起動し、ブラウザ上でプログラムを実行できるようになります。また、Jupyter Notebookにはデータサイエンスや機械学習の分野で頻繁に利用される機能も豊富に備わっています。例えば、データの可視化やグラフの生成を行う際には、MatplotlibやSeabornといったライブラリをNotebook内で直接インポートして利用することが可能です。これらのライブラリを用いることで、散布図や折れ線グラフ、棒グラフなどのグラフを簡単に作成し、データの傾向やパターンを視覚的に理解することができます。さらに、機械学習のアルゴリズムを実装する際にも、scikit-learnなどのライブラリを活用することで、データの分類や回帰分析、クラスタリングといった高度な分析も簡単に実行できます。Jupyter Notebookはコードの記述と実行、データの視覚化、テキストによる説明が一体となった環境であるため、Pythonプログラムを学習する初心者から高度なデータ分析を行うプロフェッショナルまで幅広いユーザーに支持されています。また、クラウド上で利用できるJupyter Notebook環境も増えており、Google ColabやAmazon SageMaker Notebooksなどを使用することで、インターネット接続があればどこからでもNotebookを利用することが可能です。これにより、パソコンのスペックに依存せず、大規模なデータセットの分析や高負荷の計算も行えるようになりました。このように、Jupyter NotebookはPythonによるデータ分析や機械学習、さらにはプレゼンテーション資料の作成に至るまで、多用途に利用できる強力なツールであり、その利便性と拡張性から今後も多くの分野で利用されることが期待されています。
関連記事