Unsplash
Twitterアイコン

京都が魅力的な街である100の理由

京都に関するオープンデータをテーマに、Twitter@KyotoTodayで発信した情報をアーカイブ。最近はアート系イベントや手づくり市、グルメ情報に興味・関心を持っています。

急病・休日・夜間診療

急病休日夜間小児

今週末の行事・イベント

13(金)

15(日)最終日

16(月)最終日

京都市今週末行事イベント

開催中の行事・イベント

京都市行事イベント

オープンデータとは?

誰もが入手可能で、自由に利用できるデータセット(データの集まり)のこと。入手後の解析のために、特定のフォーマット(型)を持っています。

オープンデータで効率的に情報を収集したい

日頃のtweetでは京都市内で開催される行事やイベントをピックアップしているのですが、情報が散らばっている上に、RSSのような統一フォーマットで配信されているということもないので、調べるのがとにかく大変です。

何とかもう少し簡単に収集する方法はないものか。そんなこともオープンデータに興味を持つきっかけになりました。

オープンデータの定義

Open Dataとは、特定のデータが、一切の著作権、特許などの制御メカニズムの制限なしで、全ての人が望むように利用・再掲載できるような形で入手できるべきであるというアイデアである。

オープンデータを支える哲学は古くから確立されているが、オープンデータという言葉自体は、インターネットやワールドワイドウェブの興隆、特に、data.govのようなオープンデータガバメントイニシアティブによって、近年一般的になってきた。

Wikipedia: オープンデータ

オープンとは?

「The Open Data Handbook」には、「さまざまなシステムや組織が共同で作業を進める相互運用性」について、「オープンには相互運用性が不可欠である」こと、並びに「データの公共性、すなわちオープンデータ」のことについても書かれています。

  • 利用できる、そしてアクセスできる
  • 再利用と再配布ができる
  • 誰でも使える

The Open Data Handbook

定義と形式

タイトルにオープンデータと入れておきながら申し訳ないんですが、ある程度の定義は決まっているようなところがあるものの、まだまだ曖昧で、議論がなされている途上といった感じがします。

説明の必要がないくらい一般的になる、普及するにもまだまだ時間がかかるものと思われますが、その需要があることは間違いないということのようです。

オープンデータの理念

オープンデータとして公開されている情報には、元は著作物であったが自由な利用を認めるとしたものがあります。*

*理念としては、一切の制限なしに利用できるとしています。

このように書くと、引用元を明記することを避けたいと考えていると誤解されてしまうかもしれませんが、そうではありません。個人ブログの記事には、たとえ自由に使ってもいいとされている場合でも、引用元を明記しているくらいです。

ただ、その事柄が思想ではなく、単なる事実であるなら、「どこかに自由に利用できる形で情報が公開されている」状況が望ましいのではないかと考えています。

事例

情報が増えていくに従ってわかりづらくなったので、まずは先行して事例を挙げていくことにします。

LOD: Linked Open Data リンクト・オープン・データ

コンピュータ処理に向いた構造を持ったデータセット。そのデータが複雑であったり、大量だったり、または何らかの処理を前提としていたとしても、機械的に解析することを目的としたもので、複数のデータセットを組み合わせることも可能な形式です。

このページを作るきっかけをくれたTwitter: まろー(ししょまろはん所属)さんは、Linked Open Dataとしてデータを公開しつつ、その一環として「本に出てくる京都のおいしいもののデータ(たべまろはん)」も公開し、一般にも分かりやすい形で提示されています。

まろーさんはキャラクターなので中の人と書いたらきっと怒られると思いますが、その活動の様子はネット検索すれば、シンポジウムやパネルディスカッションで使われたと思われる資料、関係者の方の紹介記事などが出てくると思います。

OSM: Open Street Map オープンストリートマップ

同様のサービスにGoogleMapがありますが、(規模やアクセス数に関係なく)ユーザー登録なしでapiを通したデータ利用ができません(さらにアクセスが多ければ費用も発生)し、大規模もしくは営利目的ではない場合なら無料という点でも違いがあります。

誰でも自由に利用でき、ユーザー登録すれば地図作りに参加もできるという意味では、Wikipediaの地図版とも言えるかもしれません。

世界規模の活動で、日本にもユーザーコミュニティがあって、関連イベントが各地で開催されています。

課題・疑問点など

※一旦は非公開にしましたが、確認が取れ次第ふたたび公開していきます。

行政のオープンデータ

「オープンデータ」で検索すると、国の関係機関・都道府県・市町村が公開しているオープンデータがたくさん見つかると思います。

その公開において、公式サイト上ということもあれば、委託した専門業者のサイト上であったり、データが分散しています。

また、公開の基準についてもそれぞれで違いますから、データを個別に利用する場合は問題なくても、複数のデータを扱う際には注意が必要です。

行政が公開するオープンデータには、それぞれの機関や自治体の基準・事情で公開するために統一性がなく、「個人情報保護法制2000個問題」と同様の状況にあります。

国・都道府県・市町村などの行政データ

現在、公開されているオープンデータは自治体からのものが多く、生データの形であれば、それを加工する必要があります。

これだと研究者には都合が良くても、一般には目に見えるメリットがないので、もっといい方法はないかと、いつも考えています。

学術

まろーの中の人たちは図書館司書であり、カンファレンスなどにも参加されているようですから、オープンデータの位置づけが、たぶん学術寄りだと思います。

ここで取り上げたいのは、“一般の人にとっての”オープンデータで、別欄に書いているように「情報の真偽」については確認する必要がありますが、「いかに使うか」に焦点を絞りたい。

また、Linked Open Dataのような高度なデータについても、ここでは詳細に書くことはしません。

リンクト・オープン・データ、略名: LODは、ウェブ上でコンピュータ処理に適したデータを公開・共有するための技術の総称である。

従来のウェブがHTML文書間のハイパーリンクによる人間のための情報空間の構築を目的としてきたことに対応して、Linked Open Dataでは構造化されたデータ同士をリンクさせることでコンピュータが利用可能な「データのウェブ」の構築を目指しており、セマンティックウェブの形成に重要な技術となっている。

Wikipedia: Linked Open Data

オープンデータと情報共有

ここからは、一般の人のためのオープンデータの利用について。

OGP: Open Graph Protocol

OGPとは、ブログなどのシステム側で設定しておくことで、TwitterなどのSNSにページのurlを投稿すると、記事のタイトルや概要、画像が自動的に表示されるというものです。

オープンデータとして公開される情報も、こんな感じで投稿者が何もしなくても簡単に共有できる仕組みがあればいいなと思っています。

市民によるオープンデータ

京都市内には石碑やモニュメントが多数ありますよね。それらは京都市が管理し、写真や情報についても京都市が管理するサイト上で公開されています。

例えば写真であれば、市民が無償で提供し、それをオープンデータとして公開するという形で募集すれば、たぶん集まるんじゃないかと思うんです。

もちろん、その機会があれば、私も積極的に参加します。

例えば、飲食店の店舗データ。

ブログで紹介する際、関係者でもないのに、その屋号に何かを付け加えるなどの改変ができないことは明白です。

一方で、正式な屋号を含む店舗データはどうか?

経営者もしくは運営会社が店舗データを特定のフォーマットで公開してくれれば、多様なサービスで利用されることになりますし、個人がブログで使うことも可能になるはずです。

食べログの店舗データ

店舗データについては、今でも使われていますし、間違いの訂正を求められることはあっても、使用を止めるように言われる例はそれほどないはずです。

なのになぜ?

例えば、食べログでは、日本中の飲食店の店舗データが掲載されていますね。以前はそのデータを広範に利用することができたのですが、現在は一切できない規約に変更されています。

※個人の利用で、とある店舗のデータを写し取るくらいのことで咎められることはないと思います。

あらゆるデータが特定のフォーマットで公開されたら?

権利者が発信する情報が優先されるのを前提として、特定のフォーマットが使われるようになれば、移転などの事由で変更されると、それらのデータを機械的に収集している場合、自動的に反映されることになります。

先程、「相互運用性」について触れましたが、営利企業によるデータは、(これまでそうであったように)その運用が恣意的になりがちで、「特定のフォーマットで発信」することは、相互運用性の一助になりますし、何より「権利者がデータをコントロールできる*」ことを意味します。

*これを逆手にとって悪用されないとも限らないので過信は禁物ですが…

情報共有を主目的とした「開かれたインターネット」

インターネットにつながっているスマホを誰もが手にしていると言っても過言ではない状況で、日常で起こる事故や事件が瞬時に公開されることを目の当たりにしています。

一方で、それがいいことばかりではないことも知られるようになってきていますね。

例えば、そのデータが個人情報もしくは個人を類推できるのなら以ての外ですが、店舗情報などの公開を前提としたデータなら、広く利用されることで情報共有が簡便になり、いろんなシーンで役立ちそうですよね。

そういう意味合いでも、開かれたインターネットのためにもオープンデータの役割は重要です。

トップダウンからボトムアップへ

ネット検索は便利だけど、その順位はGoogleが独断で決めていて、いつでも変更できるし、実際そうなっていることからトップダウン的であると。

それをオープンデータで代替するというプランは理想的で、言うなればボトムアップ的だということになる。

ただし、真偽を判別するという手段を持たなければ、トップダウン的な現状よりも問題が深刻になる可能性がある。

CDN: Content Delivery Network コンテンツデリバリネットワーク

テクニカルな話題になりますが、誰もが手にしてるスマホのような小さなデバイスに情報を迅速に届けるため、その裏でCDN*という機能が使われています。

*いい例とは言えませんが、権利者に無断で漫画を閲覧させる「漫画村」でもCDNが利用されていました

オープンデータがCDNに取り込まれると、それはまさに情報共有に打ってつけの手段となりますし、取りも直さず私たちの利便性につながります。

また、探す手間がなくなるということは「時間の無駄を省く」だけではなく、インターネット上で何かを探すという行為は電気というエネルギーを消費するので、CDNを利用することは省エネという側面も持ち合わせているわけですね。

著作権と引用

これだけ一般の人が文章や写真をインターネット上に投稿しているのに、著作権や肖像権についての扱いが曖昧で、厳格に線引きしたいと思えば訴訟という手段しかないという状況。

引用については文化庁が明文化していますが、著作者が引用不可としていた場合、仮にそれを知らずに引用したとしたら抵触することになるかは明確になっていません。

Wikipedia ウィキペディアからの引用

「著作権法の認める範囲で引用することができる」と明文化されているので、要件を満たす状態で引用する分には問題になることはないと思われます。

そうなると、当然のことながらWikipediaからの引用であると明記する必要が出てきます。

これに反対する意思はないものの、事件や事故などの事実に関することでもWikipedia上で編集されたものには引用という形式を取る必要があり、「自由に共有する」わけにはいきません。

情報の真偽

SNSが一般に普及するに従って、インターネット上に玉石混淆の情報が流れるようになりました。

その量があまりにも多く、虚偽やデマといったものを別としても、情報の真偽を確かめる術がありませんから、それらを安易に利用した場合、法律に抵触する可能性があります。*

*TwitterのRetweetをたった1回しただけでも名誉毀損に当たるとして損害賠償命令が下りました。[大阪地裁2019-09-12]

オープンデータ、そうだ、オープンデータだ!

言葉だけは以前から知っていて、調べもして内容をまとめてあったのに、そのままでした。どうしてなんだろうかと、自分でも呆れるのですが…

そこに突然「オープンデータ」という文字が流れてきて、京都府立図書館のキャラクター まろーのTweetが目に飛び込んできたので慌ててTwitterのMomentにまとめて公開。

京都オープンデータ
2019-11-15 09:41:23