函館稜北病院総合診療科抄読会B面

毎週木曜日5:30PMから30分間、Clinical Problem-Solvingを素材にクリニカル・パールを拾い集めます。

迷惑をかけないExcel

 データのやりとりはエクセルで保存したファイルを添付してをメールすることが多いが、開けないことがある。開くことができても、データが正規化されておらず、前処理が必要になることが多い。データの前処理は、プロのデータ解析者の場合は仕事の80%を占めるそうだが、我々はそれは本業ではなく、むしろデータを作る立場なので、わざわざ連携困難で時間が経つと訳が分からなくなるようなデータを作ることはないし、Garbage In, Garbage Out というように、そんなデータから導かれた成果の質は疑われても仕方がない。

 そこで、エクセルでデータを作るとき注意すべき点を列挙してみた。他にもあるかもしれないが、とりあえず十箇条。

  1. xlsx形式で保存しない。
  2. S-JISコードで保存しない。
  3. 「ネ申Excel問題」、方眼紙として使用しない。そのように使う場合は、データと別のシートで行う。
  4. セル結合しない。
  5. 1つのセルに複数のデータを入れない。
  6. セル内で改行しない。
  7. 数値データに単位を付けない。(文字データとして認識されてしまう。)
  8. 数値データに桁区切りのコンマを入れない。
  9. ゼロを省略しない。(欠損値として認識されてしまう。)
  10. 項目名、変数の種類を統一する。

 観察を行、変数を列として正規化したCSV形式が一番使い勝手がいいと思います。

例えば、北海道感染症情報センター-インフルエンザ とかのデータを可視化しようと思うとわかるが、単純にCSV形式であればいいというわけではない。オープンデータということが言われるようになってきて久しいが、お役所などで公開しているデータが、R界の神Wickhamが提唱する "tidy data" といかにかけ離れているかを知り、そのデータを再利用するときの困難を経験するのにはいい素材となります。