2005年度成果進捗報告会

概要

日時: 2006 年 3 月 18 日 (土),19 日 (日)

場所: 国立情報学研究所

参加: 15団体 34 名

本報告について

本報告は2006年3月18,19日に行われた第一回MuST成果進捗報告会で行われた研究発表についての概要を公開するものです.この報告会は,同じ内容の発表を報告会の前後に別の場所で行うことを妨げない,ネガティブな結果や経過の報告を奨励するという目的で,出席者はMuSTワークショップ参加者に閉じ,かつ予稿集も非公開という形で実施いたしました(この方針はオーガナイザの提案によるものですが,次回は見直す方向でいます).そのような方針で実施しましたので,原則としてここに掲載した以上の情報を公開することはいたしません.ただし,ここにある発表と関連し参照できるものについては「関連発表」ということであげてありますので,そちらをご参照ください.この「関連発表」はそのような発表があり次第随時更新していきます,また,一部の参加者については,この報告会での発表内容自体を公開することをお認めいただきました.そのような発表については,予稿のpdfファイルへのリンクを張ってあります.論文等でこれらを参照なさる場合は,「第一回MuST成果進捗報告会」ということで本報告のURLと参照される論文のタイトル,著者名等を明記ください.ご理解をよろしくお願いします.

梗概一覧

チーム名:広市大
発表題目:文書横断文間関係を考慮した動向情報の抽出と可視化
著者名:難波英嗣
梗概:本研究では,動向情報の抽出を一種の複数文書要約であると考え,複数文書要約技術を用いて,あるトピックに関する複数の文書から動向情報を自動的に抽出し,グラフ化する手法について述べる.複数文書からの要約の作成は,様々な要素技術を組み合わせることで実現できる.こうした技術のひとつとして,我々は文書横断文間関係理論(CST)に着目する.CSTとは, Radevらが提唱している理論で,文書中の各文の機能を特定し,文間の依存関係を特定する修辞構造理論(RST)を,文書間関係に拡張したものである.本研究では,CSTの一部を計算機上で実現し,それを用いてグラフ化に必要な数値情報と時間情報の抽出を行う.


チーム名:岡山大学
発表題目:テキストから抽出した数値情報のぼかしグラフによる地図へのマッピング
著者名:武田真裕,笹倉万里子
梗概:MuSTでタグ付けされたテキストデータから場所に関するデータを取りだし,それを地図上に表示することを考える.あらかじめ地名とその座標を記したデータを持っておき,テキストデータに現れた地名を座標に変換する.地名は今回のデータセットではタグづけされていないので人手で抽出する.ここでの地名は例えば札幌市,京都市などのようにある程度広い地域を示したものであるため,データを点ではなく領域をもった円状で表す.また,データの性質上境界がはっきりした数値ではないと考えられるので,円の境界線をぼかした図とする.この図をぼかしグラフと呼ぶ.今回の発表では実際のデータセットを使ってぼかしグラフを生成し,今後の問題点を明らかにする.


チーム名:株式会社ジャストシステム(JSMUST)
発表題目:タグ付きコーパスを用いた動向情報とその要因の可視化 (PDF: MuST060318-Yamamoto.pdf)
著者名:山本健一,殿井加代子,谷岡広樹
梗概:近年,電子化された情報の増加に伴い,ユーザの関心や興味に合致する情報に直接的かつ簡便にアクセスするための技術が求められている.このような要求に応える技術のひとつとして,我々は,動向情報の変化とその変化要因とを視覚的に表示するシステムを研究している.本稿では,動向情報として内閣支持率,要因として新聞記事を用いたシステムに関して報告する.本システムは,内閣支持率に関連する新聞記事を入力することにより,(1)内閣支持率の推移グラフを出力し,(2)ユーザの興味と見やすさを考慮し,内閣支持率の変化の大きい部分などにその変化の根拠となる要因をグラフ上に配置する,ことを特徴とする.

関連発表:

  • 「タグ付きコーパスを用いた動向情報とその要因の可視化」,山本健一,殿井加代子,谷岡広樹,言語処理学会 第12回年次大会 ワークショップ「言語処理と情報可視化の接点」予稿集,pp13-16,2006年3月17日

チーム名:豊橋技術科学大学
発表題目:要素の出現系列に着目した動向情報の抽出と可視化
著者名:山口智由,関洋平,青野雅樹
梗概:本研究では,動向情報を,時間情報,属性名,数量表現の3つの情報の集合と考え,抽出に当たり適切な組み合わせを取り出すために要素の出現系列に着目した.具体的には,MuSTワークショップが提供している動向情報に関するデータに付与されているタグの出現系列に着目し,調査・分析を行うことで,動向情報の抽出に必要なパタンを分類した.また,パタンに基づき抽出ルールを実装し,11トピックを対象として実験を行った.この結果に基づき抽出した動向情報を,時間の粒度,属性名により分類し,JavaのクラスライブラリであるJFreeChartを用いて棒グラフ,円グラフ,レーダーチャートなどの形式に可視化した.その結果,文書中の動向情報の概要を可視化するという点で一定の抽出精度(11トピックのマクロ平均で0.744) が得られていることを確認した.


チーム名:お茶の水女子大学小林研究室
発表題目:グラフ情報と協調したテキスト要約・生成
著者名:渡邉千明,奥村奈穂子,小林一郎
梗概:本研究では,動向情報として日経平均株価を取り上げ,そのグラフ(チャート)の表示状態あるいは特定された期間に合わせて,その期間のニュースを要約する機能,および,グラフの形状の認識によってその動向情報を言語で説明するテキスト生成機能をもったシステムの開発を行った.要約する対象となるニュースとしてMuSTコーパスを利用し,数値情報と連携させることにより,グラフの表示状態と協調して,MuSTコーパスから重要文を抽出する手法を用いてテキスト要約を行っている.また,テキスト生成機能は,線形最小二乗法を用いて,5次の多項式によるチャートの近似曲線を作り,その近似曲線の振る舞いを捉えることにより,グラフの動向を言語で認識し,テキスト生成を行っている.

関連発表:

  • 「グラフの挙動を表すテキスト生成」,奥村奈穂子,小林一郎,言語処理学会 第12回年次大会 ワークショップ「言語処理と情報可視化の接点」予稿集,pp17-18,2006年3月17日
  • 「グラフと協調するテキスト要約」,渡邉千明,小林一郎,言語処理学会 第12回年次大会 ワークショップ「言語処理と情報可視化の接点」予稿集,pp19-21,2006年3月17日

チーム名:慶應義塾大学斎藤博昭研究室
発表題目:動向情報提示システムの構築
著者名:曽我真也,鈴木宏哉,斎藤博昭
梗概:本稿では,新聞記事からあるトピックに関する動向情報として数値情報を抽出し,グラフを用いた提示システムを提案する.動向情報とは内閣支持率や製品の生産台数のように,数値が時間とともに常に変動する情報のことである.本システムでは主に,統計量,統計量の時間情報,統計量に対する比較表現に関する数値情報を抽出する.さらに,統計量と比較表現から算出した値を考慮し,統計量の変更を行う.そして,統計量とその値に対する時間情報との組合せにより,グラフを提示する.

関連発表:

  • 「動向情報提示システムの構築」,曽我真也,斎藤博昭,言語処理学会 第12回年次大会 ワークショップ「言語処理と情報可視化の接点」予稿集,pp5-8,2006年3月17日

チーム名:府大情報数理チーム
発表題目:全体的傾向と局所的特徴に基づく時系列データの言葉による表現
著者名:馬野元秀,小泉尚之
梗概:ガソリン価格の記事からタグに基づいて取り出した時間記述と価格の組からなる時系列データを言葉で表現することを目的とする。まず、時間軸をいくつかの(ファジィ的な)区間に分け、各区間の代表値を基にして、全体的な傾向を言葉で、例えば、「だいたい一定」、「穏やかに増加」、「急激に増加」、「一時的に減少」などのように表現する。そして、全体的な傾向を表わす言葉から時系列データを生成し、元の時系列データと比べて、ずれが大きい部分を取り出す。これを言葉で表現したものを局所的な特徴と考える。このようにして得られた言葉による全体的な傾向と局所的な特徴を組み会わせて、時系列全体を表現する。今回は、全体を 3 区間に分けた場合と 4 区間に分けた場合について考えた。


チーム名:NICT
発表題目:MuSTデータを利用した自動動向調査システムの構築
著者名:村田真樹,一井康二,馬青,白土保,金丸敏幸,塚脇幸代,井佐原均
梗概:我々は電子テキスト群から自動で動向情報を抽出する研究を行っている.この研究は動向情報を調査する時に役に立つ.本研究では特に, MuSTワークショップが提供している動向情報に関する電子テキスト群を利用して,自動で動向調査をするシステムを開発した.われわれは自動で動向調査をするシステムの開発に非常に興味をもっており,MuSTワークショップに参加した.MuSTワークショップでは,そのシステムの開発を行った.

関連発表:

  • 「MuST データを利用した自動動向調査システムの開発」,村田真樹,一井康二,馬青,白土保,金丸敏幸,塚脇幸代,井佐原均,電子情報通信学会「言語理解とコミュニケーション」研究会「テキスト情報の要約と提示に関わる自然言語処理シンポジウム」予稿集,pp31-36,2006年2月3日

チーム名:大阪府立大学計算知能工学研究室
発表題目:進化型多目的最適化による動向情報の獲得
著者名:能島裕介,石渕久生
梗概:数値データから言語的に解釈可能なIf-thenルールを抽出する方法が数多く提案されているが,ユーザーが要求する精度と解釈可能性を事前に設定し,ルールを抽出することは困難である.そこで本研究では,精度と解釈可能性の異なる複数のルール集合をユーザーに提示する手法を検討する.具体的には,誤差(精度)と複雑さ(解釈可能性)を目的関数とした最小化問題を定式化し,進化型多目的最適化手法を適用することにより,2つの目的に対して非劣となる複数のルール集合(知識)を獲得する手法を検討する.


チーム名:首都大学東京システムデザイン学部高間研究室
発表題目:地震記事からの時空間的動向情報可視化についての取り組み (PDF: MuST060319-Yamada.pdf)
著者名:高間康史,山田隆志,中野純
梗概:地震記事に関するタグ付きコーパスから,地震に関する時空間的動向を可視化する地震情報可視化システムについて提案する.「日経平均株価」や「内閣の支持率」のように,動向情報の要約は近年注目を集めつつあるが,地震や台風などは時間的な動向情報だけでなく空間的な動向情報を含んでおり,両者を考慮した可視化が必要となる.提案システムでは,タグ付きコーパス及び Webから地震に関する情報を抽出して可視化する.空間情報を可視化する日本地図と,時系列その他を可視化する折れ線グラフを組み合わせることにより,ユーザのクエリに適した地震情報の可視化が可能であることを示す.

関連発表:

  • 「タグ付きコーパスを用いた地震記事からの地理的動向情報可視化」,山田隆志,中野純,高間康史,言語処理学会 第12回年次大会 ワークショップ「言語処理と情報可視化の接点」予稿集,pp9-12,2006年3月17日

チーム名:大日本印刷株式会社
発表題目: “動向情報の要約と可視化”への関心
著者名:伊藤直之
梗概:我々はインターネット上の顧客の行動情報に基づいたリコメンデーションシステムや,Web上のコミュニティー(Blog等)の分析についての研究開発を行っています.顧客がどういう商品を欲しているのか,どういうトレンドが世の中に存在するのか,といった技術をテキストデータから自動的に取得する技術を,製品・サービスに活用したいと考えています.また,顧客に何を伝えれば(何を見せれば)買う気を起こさせることができるのか,といった点にも着目しています.これらビジネス面での関心事と,MuSTの研究課題には大きな関係があると考えています.我々のMuSTへの関心の内容とともに,現在の関連研究トピックについて発表させていただきます.


チーム名:沖電気
発表題目:新聞記事データセットを用いた動向情報の抽出と可視化
著者名:大沼宏行,森田幸伯
梗概:本稿では,テストコレクションを活用し,新聞記事データから,日付,属性,値などを取り出し,棒グラフによる視覚化を行う.近傍に,複数の日付や属性値が存在することがあるため,どの注釈を選択して組み合わせるかが課題になる.その際,「前年比」「前年に比べ」など日付に関わる間接的な表現を解釈し,日付情報の抽出を行う.また,一般に,すべてのテキスト文書に意味的な情報が付与されているわけではなく,新たに作成されたテキスト文書に対して,意味的な情報を付与する仕組みも必要になる.各グラフごとに,テストコレクションに含まれる文書を用いて類似文書を検索し,意味的な情報が付与されていない文書を見つける.そして,それらの文書に対して,意味的な情報を付与する.検索は,汎用連想計算エンジン(GETA)を活用し,また,意味的な情報を付与するために,固有表現抽出技術を用いる.

関連発表:

  • 「新聞記事テストコレクションを用いた動向情報の抽出と可視化」,大沼宏行,森田幸伯,言語処理学会 第12回年次大会 ワークショップ「言語処理と情報可視化の接点」予稿集,pp1-4,2006年3月17日,

チーム名:NTT コミュニケーション科学基礎研究所+東京大学 (NTT CS研)
発表題目:動向情報テキストに基づく統計グラフ描画方式の検討
著者名:松下光範,加藤恒昭
梗概:ガソリン価格や内閣支持率等,複数の新聞記事に時系列に出現する様々な動向情報テキストから統計グラフを描画する方式の検討を行った.このような動向情報テキスト中にはグラフ描画に必要な数値情報が網羅的に含まれているとは限らないため,そのままでは適切なグラフを描画することができない.この問題を軽減するため,本稿では(1)比較表現と背景知識を利用した数値情報の補完,(2)定性表現を利用したグラフ概形の示唆,を用いたグラフ描画方式を提案する.

関連発表:

  • 「動向情報テキストに基づく統計グラフ描画方式の検討」,松下光範,加藤恒昭,電子情報通信学会「言語理解とコミュニケーション」研究会「テキスト情報の要約と提示に関わる自然言語処理シンポジウム」予稿集,pp25-30,2006年2月3日

チーム名:三重大学人工知能研究室
発表題目:相対表現を利用した動向情報の導出手法
著者名:今岡裕貴,桝井文人,河合敦夫,井須尚紀
梗概:動向情報の抽出と可視化を目的とし,同一文書からより多くの情報を導出するために,「相対表現」の役割について調査・分析を行った.ここで,相対表現とは『12%増』『昨年』『第一位』などのことを指す.調査の結果,相対表現と他の表現との出現パターンに傾向が見られ,そのパターンを用いることでより多くの情報を導出できる見通しが得られた.そこで本論文では,相対表現と数値表現との出現パターンを利用し,間接的に示されている動向情報を導出する手法を提案する.

関連発表:

  • 「相対表現からの統計情報の導出と提示」,今岡裕貴,桝井文人,河合敦夫,井須尚紀,電子情報通信学会「言語理解とコミュニケーション」研究会「テキスト情報の要約と提示に関わる自然言語処理シンポジウム」予稿集,pp37-42,2006年2月3日

チーム名:横浜国立大学森研究室
発表題目:新聞記事中の統計量名の学習による自動抽出 (PDF: MuST060319-MurataIchiro.pdf)
著者名:村田一郎,森辰則
梗概:動向情報の要約と可視化を自動的に行なうには,それらの情報のもととなる統計量を自動的に抽出する必要がある.統計量は基本的にその名前と値の組からなると考えられるが,本研究では名前(統計量名)の自動抽出を目標とする.統計量名は表層的な情報からある程度は取り出すことができるが,分野に依存しない抽出を行なうためには前後関係などの文脈の情報を用いる方が望ましい.そのために学習による統計量名の自動抽出手法を検討する.その中で,文章中にさまざまな形で現れる統計量名を一貫した概念で捉え,学習データとして与える方法について考察する.

更新日時:2010/09/15 11:43:54
キーワード:
参照:[イベント] [動向情報の要約と可視化に関するワークショップ]