目次:
ビデオ: Koe No Katachi ❤ RISE「AMV」 (十一月 2024)
米国の第45代大統領の就任からちょうど5か月後の今年5月下旬、新政権の科学と気候変動に対する姿勢に関心を持つ人々のグループは、特別な記念日を迎えました。
ダラス北部の平原にあるノーステキサス大学のキャンパスから遠くないところに、数十人の個人がData Rescue Dentonで集まり、連邦気候および環境データセットのコピーを特定してダウンロードしました。 これらのハッカソン式の集会は、就任の直前の日に大きな注目を集めました。 デントンは、1月以来50番目のイベントでした。
当初、新政権が気候やその他の環境データを消去または不明瞭にするかもしれないという懸念から組織化したが、トランプ・ホワイトハウスの最初の行動の1つが気候変動ページをそのウェブサイトから削除することであったとき、データ救助者の最悪の恐怖が現実になったように思われた。 その後、米国農務省は、ウェブサイトから動物福祉検査報告書を削除した後、 全米 編集情報資料の1, 771ページで、 National Geographic Freedom of Information Actのリクエストに応答しました。
data.govの中央政府オープンデータポータルから、誰でも153, 000以上の連邦データセットにアクセスできます。 しかし、それは政府の官僚主義の星雲に存在するデータのほんの一部であり、サーバー上にあるさらに小さな部分を気にしないでください。
「政府情報の約20%がWebアクセス可能です」と、スタンフォード大学図書館の連邦政府情報司書であるジムジェイコブスは述べています。 「それは利用できないかなり大きなものです。代理店には独自のウィキとコンテンツ管理システムがありますが、その一部について知るのは、誰かがFOIAする場合だけです。」
確かに、大量の情報が実際にキャプチャされ、現在は非政府系サーバーに保存されています。 Data Refugeイベントと2016年の期末クロールなどのプロジェクトの間で、200TBを超える政府のWebサイトとデータがアーカイブされました。 しかし、救助の主催者は、テラバイトの政府機関の科学データの完全なコピーを作成するための断片的な努力が長期にわたって現実的に維持できないことに気付き始めました。それは、指輪でタイタニックを救うようなものです。
そのため、Data Rescue Dentonはその種の最終的な組織イベントの1つになりましたが、集団的な取り組みにより、より多くの政府データを発見、理解、および使用可能にするために、より広いコミュニティが協調して活動するようになりました、とJacobsはブログ投稿に書いています。
図書館を探す
ペンシルバニア大学のベサニーウィギンは、環境人文学のペンプログラムのディレクターであり、データレスキューイベントの創始者であるデータリフュージ運動の中心的存在でした。 焦点は現在、地域ベースの定期的なエピソードではなく、長期的な取り組みのために国内の枠組みを活用することにシフトしていると彼女は言った。
「さまざまな場所でレスキューデータイベントを行うことで、規模を拡大できる可能性のあるスキルを実現しました」とWiggin氏は、特に研究図書館全体で述べました。 「しかし、これらの取り組みはすべて私たちが立ち上げる前に行われていました。DataRefugeの力は、これらの接続を厚くし、長年の動きの遅いプロジェクトを触媒し、それらの重要性に光を当てることです。」
Wigginは最近、図書館へのアクセスを維持する上での図書館の伝統的な役割を拡大するために触媒された研究図書館、図書館組織、およびオープンデータグループの新たなパートナーシップであるLibraries + Networkの先駆けとなっています。 参加者には、スタンフォード大学の研究図書館、カリフォルニア州デジタル図書館、Mozilla Foundationが含まれ、国立公文書館やいくつかの連邦政府機関の最高データ責任者などの幅広い団体からの意見と協力があります。
たとえば、1つのプロジェクトはLOCKSS(「大量のコピーが物を安全に保つ」)で、これはJacobsが数年間調整してきました。 これは、連邦預託図書館プログラムとして知られる200年前の図書館ネットワークと同じ原則に基づいています。 これらのライブラリは、米国政府印刷局(GPO)による出版物の公式リポジトリです。
対照的に、LOCKSSはこのシステムのプライベートデジタルバージョンであり、これまでのところ、協力してGPOから出版物を収集する36のライブラリで構成されています。 これは、物理的に広範囲に分散することにより、デジタル情報を削除または改ざんから保護する方法のモデルです。
「コンテンツを管理しない限り、保存を保証することはできません」とジェイコブスは言いました。 「過去200年間、寄託図書館を重要かつ有用にした理由の1つは、政府の誰もが実際に1, 500の図書館に行って「ええ、この1ページをここで変更する」ことなく文書を編集できないことでした」
ソフトウェアLOCKSSは、ビットレベルでコンテンツのキャッシュをチェックし、他のライブラリが保持しているコンテンツと比較します。ジェイコブスは、劣化したファイルを修復することで長期保存を保証すると述べています。
Libraries + Networkとの共同研究者であるJohn Chodackiは、カリフォルニア大学システムの10のキャンパスすべてにサービスを提供する仮想情報施設であるCalifornia Digital Libraryのキュレーションディレクターです。 Code for Science and Societyの開発者であるMax Ogdenとdata.govのチーフアーキテクトであるPhilip Ashlockと協力して、Chodackiは両方向の通りとしてdata.govを使用することに焦点を合わせていると言います。
彼らは最初に、data.gov自体のコピーをすくい取り、更新を確認する監視スクリプトを使用して、datamirror.orgの外部サイトに配置することで、データレスキュー自体がはるかに効率的であることを実証しました。 その後、Chodackiと共同研究者は、ミラーに提供されたデータセットとメタデータが、ミラーのスタブページを通じて代理店の既存のdata.govワークフローにフィードできるかどうかも検討し始めました。
data.govでの機械可読データの公開を義務付けた2013年のオバマ大統領の命令によると、政府機関は依然としてそのポータルにリストされているレコードの生成に責任を負います。 Chodacki and Ogdenのアイデアは、クラウドソーシングによって提案されたデータセットがワークロードの分散に役立つというものです。
「エコシステム全体を複製する必要はありません」とChodacki氏は述べています。 「連邦政府とこれらの機関は、他の誰よりもはるかに堅牢な方法で、ビッグデータについて話すのが面白くないほど長い間、データを扱ってきました。」
官民パートナーシップ
費用の問題は、政府機関がどのデータセットが一般に最も価値があるかを特定し、政府ポータルを通じてメタデータまたは実際のデータセットへのリンクを公開する方法に関しては明らかな問題です。 現在上院で開かれているOPEN Government Data Act法案に関する議会予算局(CBO)のレポートは、オバマ大統領の命令を法に成文化するものであり、その完全な実装は2018年から2021年までに200万ドルかかると見積もっています。
政府のお金の面では、それは支出の実質的な増加を本質的に表さない、とCBOは結論付けた。
ただし、効率性は別の質問です。米国海洋大気庁のEd Kearns氏は、Amazon Web ServicesやGoogleなどのプライベートパートナーとともに実験しています。 NOAAの最高データ責任者であるカーンズは、NOAAデータの一般公開と利用の増加がビッグデータプロジェクトの主要な目的であると述べました。
企業は必要なデータセットを特定し、NOAAは追加費用なしで一般に公開します。 NOAAが持っているものはすべてテーブルにありますが、5年間のパートナーシップの目標は、すべてのNOAAデータをクラウドに公開することではなく、戦略的なチャンクだけです。
このようなデータセットを民間企業のクラウドサービスでホストすると、80年代スタイルのFTPアクセスにいくつかの利点があります。これは、連邦政府機関からの大規模なデータセットの転送の標準です。 まず、NOAAのデータセットは膨大である傾向があります(機関は地球の海洋、大気、太陽、宇宙の天気を監視します)。
1つの例は、機関の高解像度NEXRAD Level-IIドップラーレーダーアーカイブです。 米国気象学会が5月に発表した調査によると、2015年10月に270テラバイトのNEXRADアーカイブ全体を1人の顧客に転送すると、203, 310ドルの費用で540日かかりました。 NOAAがAmazonおよびGoogleと連携してクラウドに配置するまで、アーカイブの完全なコピーが外部分析に利用できたことはありませんでした。
この実験では、使用量が増加するという興味深い初期の結果も得られました。 NOAAの天気予報および予報Webページはすでに政府のサイトで最高レベルのトラフィックを受信していますが、Googleが最近、1ギガ程度の気候と天気のデータセットをBigQueryデータベースに統合した後、同社はこのデータセット1.2ペタバイトを配信したと報告しました1月1日から4月30日-NOAAサーバーから同様の時間枠でこれまでにアクセスされたよりもはるかに多く。
「グーグルはまったく新しい視聴者にそれを開くことができた」とカーンズは言った。
雨や季節の気温だけではありません。 ビッグデータパートナーを通じて現在利用可能なデータセットには、漁業情報、海洋気象、およびNOAAセンターからの現在、予測、過去、および地理空間のデータセットをリストするIBMがホストするカタログが含まれます。 将来のデータセットには、生態系と漁業のゲノミクスに関する情報も含めることができます。
しかし、設計により、このパートナーシップにより、共同作業者は最も欲しいものを選りすぐることができます。これは、あいまいでありながら価値の高いデータセットがあまり日光を浴びないというリスクを伴います。 カーンズは、最終的に価値があると特定される可能性のあるものを言うのは時期尚早だと言います。
「このデータでできることの規模と範囲は驚くべきものです」と彼は付け加えました。 「考えられるすべての用途を想像することはできません。」
小規模では、フィラデルフィア市は民間団体と協力して、最も有用であると一般市民が発表したデータセットの公開にも取り組んでいます。 市の規模は、連邦政府機関よりも日々の運用上の機動性を提供しますが、フィラデルフィアのモデルは、未公開のデータセットのリリースを戦略化するための1つのアプローチを表しています。
データの視覚化を専門とするフィラデルフィアに本拠を置くソフトウェア会社であるAzaveaは、市の最高情報責任者であるTim Wisniewskiと協力して、市の非営利団体が使用に関心を持つ可能性のある未公開のデータセットのリストを作成しました。 WisniewskiとAzaveaは、市のオンラインメタデータカタログと市の部門からの入力の両方を使用してリストを作成しました。 Azaveaと他のパートナーは、リストをフィラデルフィアの非営利団体に買い出し、OpenDataVoteを開始しました。OpenDataVoteは、非営利団体が優先データセットをどのように使用するかを提案するプロジェクトに投票する一般向けの競争です。
最近の受賞者は、学校での非営利プログラムの影響を測定するためにフィラデルフィア学区への寄付者に関する都市データを使用する教育非営利MicroSocietyによって提案された提案でした。
「この都市の非営利団体は特定のデータセットに関心を持っているので、それを使って何かできるので、多くの人々がそれらをサポートするために投票したと言えます」とWisniewskiは言いました。 「このデータをリリースするという理由だけでなく、しっかりしたユースケースを手にして部門に行くことができます。」
古いデータと新しい
しかし、新しいポリシーや資金調達の指示により、データ自体が生成されなくなった場合、すでに存在するデータに十分にアクセスできる場合でもどうなりますか? オバマ大統領の下で環境保護庁の最高情報責任者を務め、現在はカリフォルニア州サンタクララ郡のIT部門を率いるアン・ダンキン氏は、それが本当の懸念だと語った。
「人々は古いデータを心配していますが、私が最も心配しているのは、新しいデータが以前と同じ速度で利用可能になっていないか、まったく生成されていないことです」とダンキン氏は言います。
雑誌 Science によって提案された2018年の連邦予算の1つの分析では 、 多くの政府機関は、予算が提案どおりに合格した場合、研究予算の大幅な削減を実現します。 国立衛生研究所での約22パーセントの削減は、研究大学への支払いに充てられるでしょう。 NASAの予算要求により、温室効果ガス排出量およびその他の地球科学プログラムを監視するイニシアチブが排除されます。 NOAAの気候プログラムも、同様のレベルの削減で閉鎖される可能性があります。
在任中、EPAは、データの収集を、周囲の健康状態とその対処方法を理解するために使用できるツールに変えるために取り組んできました。 悪い日? 外に出ないでください。 汚染された方法を流しますか? 子供を遠ざけてください。
「私の期待は後退するだろう」とダンキンは付け加えた。 「私は間違っている可能性がありますが、データを利用可能にしないと言っている場合、論理的な結論は、公共のメンバーも利用できないか、そもそも生成されないデータセットです。」
Data RefugeのWigginは、この問題に関連したストーリーテリングプロジェクトに取り組んでおり、より多くの人々が継続的なデータのリリースを要求し、連邦政府全体で既存のデータ収集プログラムを継続するための支援の土台を作ることを望んでいます。 「私たちの町の3つの物語」の物語は、連邦データが予期せぬ場所にしばしば隠れている影響を描きます。最初にフィラデルフィアから始め、次に全国の他の場所に。
「次の段階に移行する際のData Refuge運動の重要な部分は、人々が連邦政府で作成されたデータが生活の中でどれほど広く使用されているかを理解するのを助けることです」とWiggin氏は言います。 「気候、健康、または公共の安全と呼ぶかどうかは、依然として連邦政府のデータです。コミュニティ、市役所、警察活動、軍隊にあります。そのデータの重要性を忘れないでください。」
リソース:
- EPA環境データセットゲートウェイ:環境保護庁のメタデータポータル。
- DOEのオープンデータ:エネルギー省のオープンデータポータル。
- USDA経済調査サービスデータポータル
- NOAAビッグデータリソース:NOAAによって生成されたデータをホストするビッグデータパートナーのプラットフォームページへのリンク。
- ノーステキサス大学:サイバー墓地:古くなった、古くなった、または閉鎖された政府のウェブサイトのアーカイブ。
- 環境データ&ガバナンスイニシアチブアーカイブプロジェクトページ:政府データの検出とアーカイブに関連するツール、コード、アプリ。
- インターネットアーカイブウェイバックマシン
- インターネットアーカイブ:Wayback Machineでページを保存する方法:アーカイブ用にページを指定する6つの方法。
- California Digital Library:期末Webアーカイブ:2008年から現在まで、期末クロールから保存された米国政府のWebサイトのコレクション。
- FreeGovInfo.info:州および連邦レベルのデータポータルに関する情報を含む幅広いコンテンツ、およびオープンデータの問題に関するニュース記事のアーカイブ。
- Climate Mirror:ボランティアが収集した気候データセットのコレクション。
このストーリーは、PC Magazine Digital Editionで初めて登場しました。 オリジナルの機能ストーリー、ニュース、レビュー、ハウツーについては、今すぐ登録してください!