2/22 扱いにくいと叩かれていたcsvをpandasで整形してみた

政府の出しているcsvが、クソcsvだと話題になっていました。

国民の祝日について - 内閣府

これですね。

まずアホみたいに読み込んでみましょう。

f:id:glamorousdammy:20170222224308p:plain

割りと普通に読めます。合格点。

目検で要らない行を取りましょう。ついでに連結のために列名を変えましょう。直接書いてますが、リスト内包とかで書けると思います。多分。わかんないけど。

f:id:glamorousdammy:20170222224419p:plain

顧客が本当に欲していたcsvを作りましょう。ついでに、あとの事を考えてflagの列を作りましょう。

f:id:glamorousdammy:20170222224549p:plain

さて、例題ですが、分析する上で、祝日は売上が上がったりしそうなので、祝日かどうかを判定したいです。ということで、売上フレームを作って、そこに祝日情報をjoinしましょう。

f:id:glamorousdammy:20170222224734p:plain

こんな感じですね。

せっかくなのでgroup byして平均売上高をグラフにしてみましょう。

データの作り方から当たり前ですが、大差無いですね。

f:id:glamorousdammy:20170222224952p:plain


ということで、クソcsvに思えても、pandasでならわりと自由自在です。

みんな、pandasを使おう。

ノートブックはこちら。

https://gist.github.com/dddddmmmmm/33e3e3bd24952d9d912966f469fe4dde