グローバルデータバロメーター:世界のオープンデータの現状はどうなっていますか?
グローバルデータバロメーター:世界のオープンデータの現状は?
どの程度の国が公益のためのデータ政策とシステムを採用しているのか?
最近、私は世界中の都市でオープンデータ政策の採用に関する本を読みました。その本はBeyond Transparency(次のリンクから公開されています)と呼ばれ、2010年代初頭のオープンデータ政策の成功と障害を示す事例研究で構成されています。タイトルが示唆しているように、アクセス可能で無料のデータセットの提供は、より透明性のある政府への一歩ですが、それだけではありません。この本では、これらのデータがイノベーションを促し、政府の効率を向上させ、市民参加などの新しい市民の習慣を奨励する方法についても説明されています。エンジニアやデータサイエンティストを含むデータの専門家たちは、これらの新しいデータセットを活用して独自のソリューションを構築し、より良いモデルやアプリを開発しました。これらの新しい市民技術エコシステムの一部の例として、Building a Smarter ChicagoチャプターやData SFやChicago Data Portalのウェブサイトから生まれた分析作業などをチェックしてみてください!個人的なお気に入りのチャプターのもう一つは、「データ駆動型の都市」という311通話の収集によってNYCが緊急サービスやリソースの割り当てをモデル化する方法についてです。
2010年代以降、数百の国が独自のオープンデータ法を制定しました。Global Data Barometer(ライセンス:クリエイティブコモンズ表示4.0)は、これらのうち109の国のオープンデータの状態を測定し、「国はどの程度データを公益のために管理しているのか?」という問いに答えています。この調査は、定量的な指標と質的な説明の組み合わせを使用して、オープンデータの観点で世界の状況を明確に示しています。非常に詳細な作業なので、この記事と一緒に一部を探索するのは興味深いと思います。
注記: この記事では、可視化にはObservable notebooks(JSベース)を使用し、データの整形にはJupyterを使用しています。両方のリンクは最後にあります。
さあ、始めましょう!
指標の概要:国はどのようにランク付けされていますか?
国の総合指数は0(存在しない)から100(ベストプラクティスを示す)までの範囲です。
上記のグラフはかなりのばらつきを示しています。最も高いスコア(70)はアメリカで、最も低いスコア(10)はトルクメニスタンです。平均スコアは38.51です。この指数は、各国のオープンデータの実践を4つのフロントまたは「柱」で調査することによって生成されます。それぞれの柱について、国は特定の要素(たとえば、データ保護フレームワーク)の存在、要素(品質に関連する特徴やオープンデータの特徴)、および範囲(特定のフレームワークの制限と適用範囲)に関する情報を提供します。この調査では、各柱のセカンダリ指標も追跡され、それぞれ100点満点で評価されます。したがって、全体の指数スコアが100の場合、これらのプライマリおよびセカンダリの指標すべてにわたる「規範的な理想」を表しています。
スコアが似ている国でも指標には大きなばらつきがあります
平均的なスコア(35から45)の国に焦点を当てましょう。アルバニアとコソボを含む20の国があり、ジャマイカ、カザフスタン、パラグアイ、フィリピン、ペルー、タイ、南アフリカなど、世界各国からの国々が含まれています。
全体的な指数が似ているにもかかわらず、モジュールごとの平均スコアを見ると、そのパフォーマンスはほとんど一貫していません。バロメーターは、柱に加えてテーマ別またはモジュール別のスコアもまとめており、7つのモジュールは以下の領域でのオープンデータの実践を調査しています:健康とCOVID-19、土地、公共財政、調達、気候対策、政治的誠実性、企業情報。以下は、これら20の国の気候対策、政治的誠実性、および調達モジュールの一部を表示したものです。
多くの国々は不整合があります:
- ジャマイカは気候行動が最も高いですが、調達においては低いスコアです。気候指標を詳しく調べると、ジャマイカは統計研究所を通じて環境データを提供しており、「降水量、日照時間、汚染事例、温室効果ガス、保護された森林地域、海面水位」などの指標や「データ欠落の証拠なし」という情報が含まれています。しかし、調達においては、計画段階では公開情報がなく、データの品質も低く、「契約を受けた企業の名前/識別子」や「契約に対する支出情報」が含まれていません。
- アルバニアでは、詳細な調達情報がオンラインで利用できます(リンクはこちら)。ただし、契約の実施はカバーされておらず、データも部分的に機械読み取り可能です。政治的な資金提供データも利用可能ですが、政党や候補者の収入データや歴史的な追跡情報は含まれていません。
これらのモジュール全体で進展を遂げることは、より透明で効率的な政府を実現します。たとえば、より良い調達データを持つことで、市民はプロジェクトの全段階でどこにどのようにお金が使われているかを分析したり、より公平な配分を求めたりすることができます。同様に、透明なロビー活動データや資産申告は、政治的な誠実さに対するより高い責任を生み出します。気候情報は、生物多様性や排出量、脆弱性などの側面について一般の人々に情報を提供します。
ガバナンスフレームワークは存在するが、大部分は断片化している
ガバナンスはデータの保護と管理のための政策とフレームワークの状態を評価する主要な柱の一つです。ガバナンスに関する研究は、その中で「オープンデータポリシー」が一つの指標として追跡され、他にも「データ保護」、「データ共有フレームワーク」、「データ管理」などの指標があります。以下に各国のガバナンス指標のスコアを示します:
多くの国々はデータ保護、オープンデータポリシー、データ管理などの指標において比較的良い成績を収めています。調査されたポリシーの92%はオープンデータの共通の定義を持ち、国の72%は何らかのデータ管理フレームワークを導入しており、90%の国はデータ保護規制を提供しています(レポートはこちら)。これらの国の多くは、データの同意、救済の権利、アクセスや修正の権利に関する部分的または完全な規制を提供しています。
一方で、グローバルオープンデータによれば、データガバナンスの形態はまだ厳しい制限が存在しています。たとえば、フレームワークのうち24%のみが位置情報に関する問題に対応しており、31%のみがアルゴリズムによる意思決定に対応しています(レポートにも記載されています)。これらの国の大部分はヨーロッパと北米にあります。これら2つの地域は、「フレームワークが位置関連データの保護を明示的にカバーする」に「はい」と答えた23か国のうち17か国を占め、また「フレームワークがアルゴリズムによる意思決定に対応する」と答えた31か国のうち20か国を占めています。
最後の2つの指標であるアクセシビリティと言語カバレッジは、データが障害を持つ人々に対してアクセス可能であり、各国の公用語で利用可能であることを保証する規制を評価します。後者は特に多くの公用語を持つ国にとって重要ですが、それでも断片化しています。109か国のうち13か国がこのカテゴリでスコア100を達成しています(法的効力を持つフレームワークを持っていることを示します)。
COVID-19対応はデータガバナンスの課題だけでなく、機会でもありました
COVID-19パンデミックは、特に地域レベルのこれらのデータシステムを試すことになりました。この調査では、ワクチン接種データのみならず、リアルタイムの医療データ(例:ICUベッド)や重要な統計データも含まれています。重要な統計データには、出生と死亡情報、歴史的な期間、および国内でこのデータがどれだけ利用可能かが含まれます。以下は、各国の状況を示したヒートマップです。
ワクチン接種データは、データセットのほとんどの国で広く利用できましたが、問題もありました。利用可能なデータセットの約50%のみが年齢別に分類され、約33%が性別別に分類されていました(統計報告)。さらに、リアルタイムの医療データは約50%の国でのみ利用可能であり、利用可能なベッド数に関する情報はさらに少なかったです。これらの国の一部にとって、この種のデータはパンデミック中に初めて利用可能になり、将来の医療報告のためにそれを基盤として構築することができました。
データの探索がユーザーにとって簡単だったかどうかはどうだったでしょうか?より詳しく調べてみると、109か国中61か国が公式のオープンツールを提供せず、市民が重要な統計データにアクセスできるようにすることができませんでした。同様に、109か国中63か国が公式でアクセス可能なCOVID-19ワクチン接種データを提供していませんでした。また、57か国は機械可読なデータ(CSVなど)を提供しておらず、簡単な配布と再現性に重要です。
オープンデータの未来はどうなるのか?(およびリソース)
レポートの重要なポイントの1つは、世界的なレベルでのオープンデータ環境の不十分さでした(平均全体指数:38/100)。この物語でも既に述べたように、オープンデータに関する完全に形成された法律を持つことは単純に必要です。Global Data Barometerが行っている研究に加えて、世界中のオープンデータ問題に関する新しい立法を追跡する他のリポジトリもあります。The Gov LabによるState of Open Dataがその一つです。ですので、セクターや協力の種類ごとの法律を調べてみてください!
しかしながら、Global Data Barometerレポートは、データの欠落やアクセスできないデータなど、これらの法律の採用における実際の課題を明らかにしました。特にCOVID-19などの緊急事態における健康データの公表と管理は、タイムリーな情報の重要性が高まる状況であり、印象的な例です。ただし、この例はまた、新たな課題がデータを推進し、透明性を促進し、市民が情報にアクセスできるようにすることができることを示しており、非常に有望です!全体的に、レポートは各国が焦点を当てるべき非常に具体的な領域を指摘し、オープンデータに関する現在の課題の全体像を提供しています。
以下にノートブック(JupyterとObservable)をご紹介します。
お読みいただきありがとうございました!
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「データ構造とアルゴリズムにおける双方向連結リスト」
- 「グリオブラストーマ患者におけるMGMTメチル化状態を予測するための機械学習アプローチ」
- VoAGIニュース、7月26日:Googleによる無料の生成AIトレーニング•データエンジニアリング初心者ガイド•GPT-Engineer:あなたの新しいAIコーディングアシスタント
- 「ChatGPTにおける適切なプロンプト設計の必須ガイド」
- CleanLabを使用してデータセットのラベルエラーを自動的に検出する
- DLISファイルからLASファイル形式へのウェルログデータの変換
- query()メソッドを使用してPandasデータフレームをクエリする方法