python データサイエンス講座 vol.8
レクチャー47「Seabornのインストール」
→これはSeabornをインストールするだけ。
レクチャー48「ヒストグラム」
→matplotlib.pyplotというライブラリを使って、データをヒストグラム(柱状グラフ)に描画する方法を学んだ。
レクチャー49「カーネル密度関数」
→Seabornのkdeplotを使って、カーネル密度推定を描画する方法を学んだ。私の場合、そもそもカーネル密度推定とは?というところから始まる。wikiによると、「おおまかに言えば、ある母集団の標本データがあるとすると、カーネル密度推定を使えば、その母集団のデータを外挿(ある数値データを基に、そのデータの範囲の外側で予想される数値を求めること)できる」というもの。
うーん、なんとも難しい。とりあえずはっきり分かっていることは、「カーネル密度推定」という単語の語呂の良さ。それだけで気に入った!追々また勉強していこうと思う。
レクチャー50「分布の可視化」
→distplotというメソッドを使って、ヒストグラムとカーネル密度推定を同時に描画する方法を学んだ。
こんなん。
レクチャー51「ボックスプロットとヴァイオリンプロット」
→boxplotというメソッドでボックスプロットを、violinplotというメソッドでヴァイオリンプロットを描画する方法を学んだ。ヴァイオリンプロットはボックスプロットとカーネル密度推定のいいとこ取りのようなプロット。
こんなのとか、
こんなの。
レクチャー52「回帰とプロット」
→lmplotというメソッドを使って、線形回帰分析をする方法を学んだ。
こんなやつ。
レクチャー53「ヒートマップとクラスタリング」
→heatmapというメソッドを使って、ヒートマップを描画する方法を学んだ。また、clustermapというメソッドを使って、クラスター分析をする方法を学んだ。このメソッドでクラスター分析をすると、デンドログラムを描画してくれる。デンドログラムって、トーナメント戦だなって思った。
こんなのが、ヒートマップとデンドログラムというやつ。
〜〜〜〜〜〜〜〜〜〜
はっきり言って、統計学をろくに学んでない私にはここらへんのレクチャーは難しかった。と言うのも、「こうすればこうなる」っていうのは理解できたし、レクチャー動画の写経は問題ないのだが、「これはなにを描画しているのか?」っていうそもそもの部分が分からない時がある。例えばデンドログラム。同時に描画されているヒートマップは直感的だから分かりやすいが、デンドログラムの読み方、使い方がさっぱり分からない。そしてカーネル密度推定。現時点では使い方が分からず、語呂の良さだけを感じています。
しかしそんなことは二の次。今は分からないことでも、これから徐々に学んでいこうと思う。そして、こっから実践データ解析編に突入していきます!!
た・の・し・み・だ!!