Python データサイエンス講座 vol.3
前回から随分と間が空いてしまっているデータサイエンスの勉強。
1ヶ月以上振りっていうサボり度が半端じゃない。厳密には少しづつやってはいたんだけど、あまりにも少しづつすぎて日記を書くのがはばかられた。前回はレクチャー9「アレイの添字」まで完了して、今日までレクチャー15まで進んだ。
レクチャー10「行と列の入れ替え」
→transposeやswapaxes、reshapeなどのメソッドを学んだ。
レクチャー11「アレイと計算のための関数」
→Numpyに入っている演算子の機能を幾つか学んだ。
レクチャー12「アレイを使ったデータ処理」
→アレイをimshowを使ってイメージとして出力する方法を学んだ。
レクチャー13「アレイの入出力」
→Numpyで作ったファイルをzip形式やテキスト形式で保存したりそっからデータを出力する方法を学んだ。
レクチャー14「Series」
→パンダスという機能を使って、アレイではなくシリーズを作った。アレイとの違いはデータにインデックス(0番目のデータ、1番目のデータなど)が付くこと。このインデックスを応用してシリーズを作ると、例えばこんなのが作れる。以下は第2次世界大戦での各国の死傷者数。
ww2_cas = Series([8700000, 4300000, 3000000, 2100000, 400000], index = ['USSR', 'Germany', 'China', 'Japan', 'USA'])
ww2_cas
USSR 8700000
Germany 4300000
China 3000000
Japan 2100000
USA 400000
レクチャー15「DataFrames」
→データフレームを使って表の作り方を学んだ。なんだか一気に実用的になってようやく面白くなってきた!ここではWikipediaから任意の表をコピーしてそれを、
pd.read_clipboard()
で読み込んで表を表示させる。ウェブサイトからコピーした表を簡単にインポートできることに驚き。さらに 表に新しい列を加えたり、反対に列を消したりする機能も。
と、本日はここまで。全部で104あるレクチャーのうち15まで終わった。先は果てしない。