Python データサイエンス講座 vol.7
最近はゆっくりながらも一定のペースで進んでる気がする。どんどん実践的になってくのが嬉しいね。
〜〜〜〜〜〜〜〜〜〜
レクチャー42「データをまとめるgroupby」
レクチャー43「データをまとめるgroupbyその2」
→DataFrameのデータを、groupbyというメソッドを使ってグループにまとめる方法を学んだ。例えば1000種類のワインのリストがあるとして、それぞれ1〜10までのランクが付いている。groupbyを使うと、各ランクごとに1000個もあるワインリストをグループ分けすることが出来るという寸法。さらに各ランクにワインが何種類ずつ含まれているかを数えることもできたり。
レクチャー44「データのAggregation」
→aggというメソッドを使って、データを統合する方法を学んだ。例えば、上の例の発展形として、1000種類のワインリストをgroupbyで各ランクごとに分けて、各ランク内でワインの平均アルコール度数を割り出すことが出来る。
→inplace = Trueと書くと、参照元のDataFrameに変更を加えることができる。
レクチャー45「Split, Apply, Combine」
→上の例をそのまま使うと、1000種類あるワインリストを1〜10のランクごとに分けて(これが"Split"という考え方)、各ランク内でアルコール度数の高いワインの順位を表示して(アルコール度数の高い順に表示、という関数を"Apply"するという考え方)、各ランクから1番アルコール度数の高いワインを抜き出して表示する(各ランク内でアルコール度数の順位の1番を"Combine"するという考え方)。最終的に、1〜10の各ランクの1番アルコール度数が高い、計10本のワインのリストが抽出できる。
レクチャー46「クロス集計表」
→pd.crosstabというメソッドを使って、クロス集計表を作る方法を学んだ。
〜〜〜〜〜〜〜〜〜〜
これからもずんずん進めてまいりましょう。