オープンデータの質の担保 |

今日のWEBデータ流通推進フォーラムのパネルでも、「厚労省のコロナ感染関連統計の出し方を改善すべきだ」という議論をしたのだけれど、「PDFですからね」、「XMLとか再利用可能な形で出すべきですよね」という議論になってしまう。それも大事なのだけれど、むしろデータの中身、定義、意味付けや解釈方法について、丁寧に説明し、不足なくデータを開示することが必要だと思う。

「東京都のコロナ陽性率は本当に高いのか」という投稿を書くために、東京都のコロナ感染者情報を見てみたのだが、簡単に注で書かれていることの解釈が難しいし、データの定義も不明確だ。だから、厚労省自身がベースの合わない割り算をした比率を公開し、誤解を広げてしまうという問題が起きた。

コロナ感染防止対策に従事されている官僚の方々は、大変な苦労をされていると思うので、あまり注文を付けるようなことを言いたくはないのだが、国民に正しく感染の実態を知らせることも、政府の重要な任務である。統計データをオープンデータ化し、国民が再利用できることはもちちろん素晴らしいことだが、肝心のデータの正確性、定義の統一、内容の正しい理解があってこそ、データを共有する意味がある。

私もかつて統計作成の仕事に従事していたので、統計を作り、公表する側の気持ちもわかる。データ作成の原資料となった個々の数字は公表できないし、細かな数字を公表すると説明が大変なので、ヘッドラインの数字だけ公開するのが慣行になっている。

しかし、集計が途上であったり、意味合いの異なるデータを合算している場合、それらの構成要素を可能な限り開示して、数字の解釈の誤解を避けるべきだ。添付の例でいえば、検査数の保健所と民間検査の内訳、再検査の人数など、検査件数の内訳が公開されていれば、上記の投稿で論じたような誤解は生じなかっただろう。フローとストックの乖離、遡及訂正の内容なども、可能な限り丁寧に公表して欲しい。データが公表され新聞に載ればればそれで終わりというものではないのだ。

コロナに限らず、オープンデータの活用の議論において、こうしたデータの質の問題はあまり語られない。しかし、本当に分析に耐えるデータなのか、分析結果に誤解が入り込むことがないか、という視点も大事だ。そこを担保できるのは、統計の作り手だけなのである。