動向情報の要約と可視化に関するワークショップ  ページ一覧  検索  更新履歴  ログイン

2006年度成果進捗報告会

日時: 2007年3月17日(土),18日(日)
場所: 京都リサーチパーク 中会議室 B(京都市下京区) 

プログラム

第一日: 3月17日(土)

セッション1: 13:10 - 15:00
オープニング
地震被害情報可視化のための拡張コーパス仕様の提案

中野 純,山田 隆志,松下 光範,高間 康史(首都大学東京,NTT CS研) MuSTコーパスを拡張し,地震被害情報の抽出を行うことを可能とする地震被害情報コーパスの注釈仕様を提案する.日本は世界有数の地震多発国であり,大地震発生時の被害情報は,避難者数や負傷者数,断水や停電世帯数など,一種の統計量として,逐次,新聞などにより報道されている.これらの情報は,災害時において被害状況を把握するために必要であることはもちろん,復旧後も,今後の防災対策のために活用すべき重要な情報であり、地震被害情報コーパスの構築は意義あるものと考える。提案仕様に基づくコーパスを実際に構築し、これを利用したインタラクティブな情報可視化システムによりその有効性を示す。(予稿集論文 MuST07_1_1.pdf

色合成を用いたWWWからの数値データの視覚化

小桜 健,笹倉 万里子(岡山大学) 一般に,数値データは,実際の現象のある側面をある基準で抜き出したものに過ぎない.特に観測などで得られた数値データの場合,観測したごく少数の地点での数値データは得られるが,その他の大部分を占める観測しない地点での数値データは得られない.しかし,これは観測していないところにはデータがないことを意味するわけではない.一般に二次元のデータの場合,観測していない場所でのデータを推測して見せるひとつの方法として,データをグラフにプロットして近似線を描くという方法がある.同様に三次元のデータについても同じような近似を目で見えるように表現する方法はないだろうか.今回我々は,地図上にマッピングされたデータ円で表示しその色をぼかすことで三次元 データの近似表示を試みた.色が重なるところでは色合成して二つ以上のデータの影響を見ることができるようにした.本発表では研究の現状と今後の課題について述べる.(予稿集論文 MuST07_1_2.pdf

頻度・鮮度の多面分析に基づく動向分析の試行

寺地 雅弘,佐賀 亮介,辻 洋(大阪府立大学) 本研究では、各記事カテゴリを構成するキーワードを抽出し、その出現頻度の変遷や出現期間といった情報を広義の動向情報として捉え、それらをもとに、個々の記事からは把握できない動向を多数の記事から把握するための一手法を提案する。手法は記事のカテゴリ、その中に現れるキーワード、キーワードの当初出現時、最新出現時、出現記事数、出現頻度を軸として、OLAPを利用するものである。OLAPのダイシング、スライシング、ドリルダウン、ドリルアップによって各キーワードのポジショニングを行い、キーワード出現の栄枯盛衰を可視化するためのデータベースの構築や多次元データ構造の設計手順及び分析手法について提案する。(予稿集論文 MuST07_1_3.pdf

文書中の数値的特徴を用いた情報可視化

太田 彰,福本 淳一(立命館大学) 本報告では、記事から抽出されたデータの特徴を基に適切なグラフの種類を決定し、グラフの作成を行う手法について述べる。まず、記事中からMuSTタグを元に属性名、属性値、日付表現の3つ組みのデータを抽出する。この抽出されたデータ中の特徴として、同種の属性値を持つなどの規則と文書中の表現から適切なグラフを選択し、グラフの作成を行う。本研究で作成するグラフには、折れ線グラフ、棒グラフ、円グラフがある。さらに、グラフの表示の際、属性値の分布状態とデータの差異の強調レベルに応じたグラフの作成も行う。(予稿集論文 MuST07_1_4.pdf

Elucignage: 探索的データ分析のための動向情報可視化インタフェース

松下 光範,加藤 恒昭(NTT CS研,東京大学) 統計DB等から得られる時系列数値情報と、それに関連する内容の一連のテキストを関連付けて視覚化し、ユーザの探索的データ分析を支援する可視化インタフェースを提案する。数値データから描かれる統計グラフは、値の推移を把握する用途には適するものの、節目と考えられる部位や、背景・影響などは統計グラフのみから得ることは難しい。一方、新聞記事などのテキストは、具体的な値の推移把握には不十分である半面、背景や影響、節目として解釈すべき箇所を理解する際に有効に働く。我々は、これらを相補的に利用することで、様々な興味の下で繰り返されるユーザの探索を効果的に支援するシステムの実現を目指す。(予稿集論文 MuST07_1_5.pdf

休憩: 15:00 - 15:20
セッション2: 15:20-17:00
新聞記事コーパスからの統計量表現自動抽出と共起関係ネットワーク構築

齋藤 悠,河合 英紀,土田 正明,水口 弘紀,久寿居 大(NEC) 本稿では、新聞記事コーパスから統計量表現を自動抽出し、それらの共起関係ネットワークを構築する方法を提案する。統計量表現とは、原油価格、内閣支持率、等の、ある統計量の内容を示す指標である。近年、情報の大規模化に伴い、膨大な情報を要約しその利用価値を高める技術が注目されている。その一つとして、新聞記事コーパスから世の中の動向に関する情報を可視化する技術が研究開発されている。従来は、新聞記事コーパスからある統計量について数値の時間推移や地理的な分布を折れ線や数値地図として描画するといったアプローチがとられていた。一方、環境問題のように、複数の事象の相互関係を把握しなければ認識できない現象もある。このような現象の分析には統計量表現同士の関連性を抽出するなど、他のアプローチが必要である。本稿では、新聞記事から、統計量表現の文字列特徴を手がかりに統計量表現を自動抽出し、それらを共起関係を用いて関連付けてネットワーク表示する方式を提案する。提案方式を用いると、高い精度で多くの統計量表現をブートストラップ的に抽出できる。また、得られたネットワークの例から、統計量表現同士の同義関係や因果関係等の様々な関係が観察できる。(予稿集論文 MuST07_2_1.pdf

記事集合における確率的手法を用いた話題の発見と追跡

北村 佑介,村田 剛志(東京工業大学) 本研究ではTopic Detection and Tracking(TDT)の技術を用いて、既存の話題の追跡や新規話題の発見を行い、記事集合から話題構造を抽出した。話題構造を抽出できれば、Web 上の膨大な数の記事に対して、ユーザの効率的なアクセスをサポートすること等に応用できる。記事と話題との類似度を確率的な手法で計算することで、記事を話題に分類したり新規話題かを判断したりする。さらに複数の類似度の計算手法を使用し、それらを比較する。実験の結果、コーパスと異なる粒度で話題が形成されたために精度は高くなかった。また各計算手法は、話題追跡に適するものと話題発見に適するものとで2種類に分かれた。以上の結果を、記事データの特徴や話題の粒度との関係をふまえて考察した。(予稿集論文 MuST07_2_2.pdf

パラレルコーパスを用いた動向情報の抽出

鈴木 宏哉,斎藤 博昭(慶應義塾大学) 動向情報には株価のような数値情報だけでなく,台風や地震といった出来事に関するものがある.今回は後者の出来事に着目した情報の抽出を行った.また,出来事に関する動向情報には,ある時点での株価のように一意に決定されるものだけではなく,地理情報や具体的な出来事の内容など様々な情報が存在する.そのため,単一のコーパスから全ての情報を得られるわけではない.そこで,抽出を行うコーパスとして複数の新聞記事を用意する事で情報の補完を行った.出来事情報に関する多元的な情報の抽出と提示が可能なシステムの提案を行う.(予稿集論文 MuST07_2_3.pdf

遺伝的ファジィルール選択による動向情報の可視化

能島 裕介,石渕 久生(大阪府立大学) 統計データから知識獲得を行う場合,複雑な知識は,時系列の変化を細かく正確に表現することができるが,誰が見ても理解できるというものではない.逆に,ある程度精度を犠牲にして,抽象化した簡単な知識は,誰が見ても解り易いものであるといえる.どのような知識を好むかは人それぞれであり,また,実際に精度と複雑性の異なる複数の知識がなければ,比較することもできない.そこで,遺伝的ファジィルール選択を用いて,精度と複雑性に関して非劣な複数の知識を一度に獲得する.(予稿集論文 MuST07_2_4.pdf

懇親会: 17:10 -

第二日: 3月18日(日)

セッション3: 9:30-11:40
変化を基本単位とした時系列情報の抽出と可視化

加藤 恒昭,松下 光範(東京大学,NTT CS研) 動向情報を要約するためには,テキストから時系列情報を抽出することが必要である.従来の情報抽出は時系列情報のデータ点,つまり,ある時点でのデータの値を抽出の基本としていた.本稿では,ある時間幅での値の変化が情報抽出の基本単位として有効であり,データ点はそのひとつのパラメータであることを主張する.MuSTコーパスの分析を通じて変化の基本的な特徴とその言語表現の関係を明らかにするともに,それらの特徴と可視化を関係づける.(予稿集論文 MuST07_3_1.pdf

新聞記事の数値による情報検索システムの提案と実装

杉浦 隆博,吉田 稔,山田 剛一,増田 英孝,中川 裕志(東京電機大学,東京大学) 本発表では数値による新聞記事検索システムを提案する。我々は新聞記事中の数値情報を用いて記事の検索、提示、並び替えなどの機能を提供るシステムを開発している。システムは新聞記事中に出現する統計量値の候補となる数値情報をその統計量名、統計量の相対値と合わせて抽出する。統計量の組の抽出は、係り受け構造と数値の単位表現に着目することで行う。抽出結果の評価にはMuSTワークショップで提供されている動向情報コーパスを利用している。抽出した統計量名、統計量の相対値、そして統計量値に基づき、数値情報に関連するトピックの検索と提示、そして各トピックの統計量の出現傾向を測定する。(予稿集論文 MuST07_3_2.pdf

テキスト文書群からの主要数値ペア群の抽出とそのグラフ化

村田 真樹,一井 康二,馬 青,白土 保,金丸 敏幸,塚脇 幸代,井佐原 均 (情報通信研究機構,広島大学,龍谷大学,京都大学) 本研究では,ある話題に関連する電子テキスト群から自動で数値情報の二項組を抽出し,それをグラフ化して表示するシステムを構築した.このシステムは,まず主要な二つの単位表現,一つの項目表現を取り出し,次にこれらの表現が同時に出現している箇所から数値情報の二項組を抽出する.最後に抽出した二項組を整理し,二項組の数値の一方を横軸に,一方を縦軸にプロットしたグラフを作成して表示する.(予稿集論文 MuST07_3_3.pdf

新聞記事とblogからの動向情報の抽出と可視化

奥田 奈央,難波 英嗣,奥村 学(広島市立大学,東京工業大学) 動向情報とは「日経平均株価」や「ビールの売り上げ」のように数値が時間とともに常に変動するような情報のことを指す。我々は、これまでに「日経平均株価」等に関する複数の新聞記事から株価の数値情報や時間情報を抽出するシステムを開発してきたが、このシステムをblogに拡張し、blogからも新聞記事と同様に数値情報や時間情報を抽出する。さらに、これらの情報を新聞記事から抽出した数値情報や時間情報と統合し、推移グラフとして提示する。(予稿集論文 MuST07_3_4.pdf

複数文書からの動向基本情報抽出における相対表現の有効性の検討

今岡 裕貴,桝井 文人,河合 敦夫,井須 尚紀(三重大学) 本論文では,複数文書からの動向基本情報の抽出に関して,相対表現を用いた場合の効果について議論する.相対表現とは,『12%増』『昨年』『第一位』のように,動向に関連した数量表現や時間表現において数値の相対的差異や数値変動を示す表現である.(今岡ら2006)では,単一文書からの相対表現を利用した動向基本情報抽出の可能性について検証している.また,(難波ら2005)では,複数文書からの動向情報抽出の有効性も検証されている.しかしながら,複数文書を対象とした場合の相対表現に基づく動向基本情報抽出の効果については,詳しい調査検証は行われていない.そこで本論文では,(1)単一文書を用いて構築した相対表現に基づく抽出規則が,複数文書を対象とした場合の有効性について考察する.また,(2)単一文書を用いて構築した抽出規則と,複数文書を用いて構築した抽出規則との差異を比較検討する.(1)(2)の結果より,複数文書からの動向基本情報抽出における相対表現の有効性について論じる.(予稿集論文 MuST07_3_5.pdf

休憩: 11:40 - 13:00
セッション4: 13:00-14:50
言語表現と統計グラフの相互変換に関する基礎検討

小泉 尚之,松下 光範,松田 昌史,馬野 元秀(大阪府立大学,NTT CS研) 本研究のゴールは、様々な形式で表現された情報を利用者の要求に応じて適切 な表現に変換し提供する技術の実現である。その端緒として言語情報 (テキスト) と視覚情報 (統計グラフ) の相互変換技術について研究を進めている。このような技術の実現には、統計グラフを表現する語彙や着目点の選択基準、修辞構造など、テキストと統計グラフの対応関係を明らかにする必要がある。そこで本研究では被験者実験を通じ、人がグラフをテキストで表現する際の特徴について分析した。また、得られたテキストから元のグラフがどの程度同定できるかについても併せて分析した。この結果に基づいて、テキストとグラフの相互変換モデルを提案する。(予稿集論文 MuST07_4_1.pdf

時系列データの言葉による表現 ---分散による振動の表現---

馬野 元秀,小泉 尚之,岡村 光洋(大阪府立大学) 我々人間は時系列データを確率モデルではなく、全体的な傾向と局所的な特徴を言葉で表現することによって理解していると思われる。本研究では、時系列データを言葉による全体的な傾向と局所的な特徴により表現することを目的とする。まず、時間軸をいくつかのファジィ的な区間に分け、各区間の代表値を基にして、全体的な傾向を言葉で表現する。そして、全体的な傾向を表す言葉に対応する時系列データと元の時系列データとを比べて、ずれが大きい部分をを言葉で表現したものを局所的な特徴と考える。このようにして得られた言葉による全体的な傾向と局所的な特徴を組み合わせて時系列全体を表現する。しかし、この方法ではデータの細かい変化をうまく表現することができない。そこで、全体的傾向と局所的特徴に加えて分散を考慮することにより時系列データを表現する方法を提案する。(予稿集論文 MuST07_4_2.pdf

左京と右京:2つの平安京ビューによるマトリクス型データの可視化

橘 春帆 伊藤 貴之(お茶の水女子大学) 本研究では,ある話題に関連する電子テキスト群から自動で数値情報の二項組を抽出し,それをグラフ化して表示するシステムを構築した.このシステムは,まず主要な二つの単位表現,一つの項目表現を取り出し,次にこれらの表現が同時に出現している箇所から数値情報の二項組を抽出する.最後に抽出した二項組を整理し,二項組の数値の一方を横軸に,一方を縦軸にプロットしたグラフを作成して表示する.(予稿集論文 MuST07_4_3.pdf

グラフの表示に基づいた要約文生成システムの提案

渡邉 千明,小林 一郎(お茶の水女子大学) 本研究では,日経平均株価のグラフと,その動向状態を説明するテキストを動的に生成するシステムの開発を行う.ユーザはグラフの範囲,グラフの目盛り間隔,キーワードを指定できる.そのグラフの表示状態および指定された期間に合わせて,その期間のニュースを要約することで,そのグラフと対応した日経平均株価の動向を説明するテキストを生成する.要約する対象としては,MuSTコーパス中の日経平均株価について集められた本文を利用する.そのテキスト情報と数値情報を関連付け,MuSTコーパスから,各文の重要度を設定した計算方法で計算し,重要度の高い重要文を抽出する手法を用いてテキスト要約を行い,グラフの表示状態と協調したテキストを生成させる.(予稿集論文 MuST07_4_4.pdf

休憩: 14:40 - 15:00
セッション5 15:00-16:30
統計量名の構造に関する一考察とその自動抽出

藤岡 篤史、村田 一郎、森 辰則(横浜国立大学) 各種文書に現れる動向情報を集約してその要約や可視化を行う場合には、文書から統計量に関する情報を抽出する必要がある。本研究では、統計量はある統計量の値がどのように統計を取って得られたものかを示す統計の調査方法と、それに対応する値の組から構成されているとし、統計の調査方法の文書中の表出を統計量名と定義する。そして、統計量名の種類や内部構造について考察し統計量名の自動抽出について検討する。また、統計量名を構成する1つ1つの表現を統計量名の要素とし、それらの自動抽出について検討する。比較的標準的な機械学習手法により統計量名の抽出実験を行い、本研究で定義した抽出方法の有効性を示した。(予稿集論文 MuST07_5_1.pdf

効率的な情報アクセスに向けた時系列情報の獲得手法

山本 健一,谷岡 広樹,殿井 加代子(ジャストシステム) 近年、電子化された情報の増加と検索技術の発展により、比較的単純な情報であれば検索技術を用いて容易にアクセスすることが可能となってきた。しかし、例えばある会社の株価の変動と同期している株価の変動をもつ会社を知りたい場合や、ある製品の売上の増加と共に使用されるようになった単語を知りたい場合、さらにはある単語の流行に合わせて使用される単語を知りたい場合など、時系列情報を伴った検索要求に応えることは未だ難しい。そこで我々は、株価やある製品の売り上げ傾向、単語の出現傾向など、多様な時系列情報間の関連度を計算することにより、効率的に時系列情報を獲得する手法を提案する。(予稿集論文 MuST07_5_2.pdf

ディスカッション・クロージング
更新日時:2010/09/15 11:54:50
キーワード:
参照:[動向情報の要約と可視化に関するワークショップ] [イベント]