迷惑をかけないExcel
データのやりとりはエクセルで保存したファイルを添付してをメールすることが多いが、開けないことがある。開くことができても、データが正規化されておらず、前処理が必要になることが多い。データの前処理は、プロのデータ解析者の場合は仕事の80%を占めるそうだが、我々はそれは本業ではなく、むしろデータを作る立場なので、わざわざ連携困難で時間が経つと訳が分からなくなるようなデータを作ることはないし、Garbage In, Garbage Out というように、そんなデータから導かれた成果の質は疑われても仕方がない。
そこで、エクセルでデータを作るとき注意すべき点を列挙してみた。他にもあるかもしれないが、とりあえず十箇条。
- xlsx形式で保存しない。
- S-JISコードで保存しない。
- 「ネ申Excel問題」、方眼紙として使用しない。そのように使う場合は、データと別のシートで行う。
- セル結合しない。
- 1つのセルに複数のデータを入れない。
- セル内で改行しない。
- 数値データに単位を付けない。(文字データとして認識されてしまう。)
- 数値データに桁区切りのコンマを入れない。
- ゼロを省略しない。(欠損値として認識されてしまう。)
- 項目名、変数の種類を統一する。
観察を行、変数を列として正規化したCSV形式が一番使い勝手がいいと思います。
例えば、北海道感染症情報センター-インフルエンザ とかのデータを可視化しようと思うとわかるが、単純にCSV形式であればいいというわけではない。オープンデータということが言われるようになってきて久しいが、お役所などで公開しているデータが、R界の神Wickhamが提唱する "tidy data" といかにかけ離れているかを知り、そのデータを再利用するときの困難を経験するのにはいい素材となります。