MuST at NTCIR-7 参加者募集

English Version

NTCIR-7では,テキスト情報と数値情報が混在する領域を対象に,言語情報と視覚情報を活用して,その概要である「動向情報」を情報アクセスに活かしていくための技術に関するタスク,MuST(Multimodal Summarization for Trend Information)を実施します.このタスクでは,対話的かつ探索的な情報アクセスの支援や,そこでの非言語情報の有機的利用に関する技術の確立に向けて,協調的かつ競争的に研究を進めていきます.NTCIRで取り上げられているものを含めた様々な情報活用の場面で利用できる基盤的汎用的な技術への発展を目指します.

テキスト情報と数値情報の有機的利用と情報アクセスにおける視覚情報の活用についての具体的な課題について検討していくとともに,この分野における研究の可能性を更に広げるための幅広い課題への取り組みを行っていきます.

皆様の積極的な参加をお待ちしています.

位置づけ

近年,情報アクセスはますます対話的かつ探索的になっています.自分の関心を正確に述べて,その応答として適合する情報を過不足なく得るという一往復のやりとりでの情報の収集は既に少なく,むしろ,漠然とした関心に基づいて収集された情報の全体像を概観し,それを通じて,どの細部が更なる関心であり詳細な情報を必要とする部分であるかを模索し,情報の絞り込みや関心の具体化を対話的に進めていく過程となっています.そして,それによって得られる情報はテキストに止まらず様々な形態を持っています.

MuSTでは,情報の全体像の概観とそれに続く絞り込みや具体化,そして適切な情報へのアクセスを支援する仕組の核となるものとして,「動向」に着目しました.動向とは,「06年からゲーム機業界はどんな感じになったのか」「今年に入って原油とガソリンの価格はどう動いているのだろう」「去年の台風はひどかったのか」等で示される利用者の関心に対する最初の回答となるものです.このような動向の生成とそれに係わる情報は,以下の興味深い性質を持っています.

  • 一定期間にわたる情報を総合的にまとめあげることが必要で,情報の間に重複も多く,組織化が重要となります.
  • 時系列データや地理的な情報を含むものが多いことに加えて,それ以外にも様々な整理の観点が存在します.
  • 統計量への言及等の事実情報に加えて,その解釈,原因の推測,波及効果の予測等が含まれます.
  • 新聞記事やblogのようなテキスト情報の他に統計量に関する数値情報を利用する等,情報の形態にとらわれない情報収集が必要です.

このような特徴を持つ動向情報を例に,対話的かつ探索的な情報活用の支援を考え,更にそこでの非言語情報の有機的利用を検討していくタスクとしてMuSTを提案します.

MuSTは2005年よりNTCIRのパイロットタスクとして実施しており,今回,そこで得られた共通的な関心を具体的な課題として整理しました.また,パイロットタスクにおいて行われた参加者独自の着眼による自由な課題設定による研究も引き続き歓迎していきます.加えて,より広い視野にたっての「情報編纂」の基盤技術への展開にも期待しています.

タスクの概要

動向情報のテキスト情報と数値情報の有機的利用と情報アクセスにおける視覚情報の活用についての具体的な課題について検討していくとともに,この分野における研究の可能性を更に広げるための自由な課題への取り組みを行っていきます.いずれにおいても,パイロットタスクとしての実施における蓄積として,動向情報の特徴を強く示す27のトピックについて,1998,1999年の毎日新聞より581記事を収集し,分析したMuSTデータセットがあります.これを検討の中心として利用していきます.

具体的な課題として評価を行おうとを考えているものは以下の3つの課題(以下,評価課題と呼びます)です.評価課題については,2000年の毎日新聞記事を用いて実施データを作成します(方式検討用に1998,1999年の記事を用いていただき,評価は2000年の記事で行います).実施にあたってはチューンや分野知識の作成等を許した比較的長め(2週間程度)の期間をとろうと考えています.また,可視化プラットフォームを用意し,実施結果を簡単に可視化することを可能としています.

T2N課題(テキスト情報からの数値情報抽出)
ある統計量に関連する一定期間の新聞記事群を入力として,入力に含まれる当該統計量のデータを,時点と当該統計量の値の対の集まりとして抽出します.評価は,一般の情報抽出と同様の精度と再現率に加えて,抽出された情報によって描かれた統計量のグラフと実際のグラフとの類似性(自乗誤差の少なさ等)で行います.この評価は,すべての情報の抽出より,描かれたグラフが記事群で述べられた特徴を表現しているかが重要であること,比較や予測を抽出するか等,記事中に含まれる情報の判断に幅があること,記事中に誤った情報が含まれる可能性があること,等に動機づけられています.
N2T課題(数値情報からのテキスト情報生成)
ある統計量の一定期間の数値情報(時点と当該統計量の値の対の集まり)を入力として,その統計量の時間変化を説明する文章を生成します.評価は,テキスト要約の評価と同様に,正確さと読みやすさに関する人手評価を行うことや,人間が作成した文章を含めて,順位付けもしくは得点付けを行うことを考えています.
ALN課題(テキスト情報と数値情報のアラインメント)
ある統計量に関連する一定期間の新聞記事群と同じ統計量の同一期間の(白書等から得た)数値情報を入力として,新聞記事の部分と(ある時点での)数値情報とを対応づけます.人手により正解データを作成し,精度と再現率によって評価することを考えていますが,T2N課題と同様に何を対応づけるべきかの判断が揺れる可能性がありますので,その点については課題参加者での議論を通じて洗練していく予定です.

加えて,MuSTデータセットを利用したもしくはそれを参考とした,動向情報のテキスト情報と数値情報の有機的利用と情報アクセスにおける視覚情報の活用についての自由な課題設定による幅広い研究(自由課題と呼びます)を歓迎します.こちらの場合も,可視化プラットフォームの利用が可能です.

利用データ

MuSTデータセットを利用するためには,毎日新聞全文記事データベース1998,1999年版を購入している必要があります.購入されていない場合は,これらの利用申し込みも合わせて行ってください.評価課題の実施においては,2000年の毎日新聞全文記事データベースを用います.これらの全文記事データベースは参加者であれば対価無しで研究利用が可能です.

参加登録の方法

2007年12月27日までに,NTCIR-7参加登録(http://research.nii.ac.jp/ntcir/cgi-bin/ntc7Registration.cgi)を行い,文書利用に関する覚書を取り交わしていただく共に,オーガナイザ(must-admin(あ)cslab.kecl.ntt.co,jp)にメイルにて以下の情報をお送り下さい.

  • 参加組織名
  • 代表者名と連絡先(メイルアドレス)
  • 参加される課題(複数可) T2N課題 N2T課題 ALN課題 自由課題

スケジュール

2007.12.27 参加登録締切
2008.1.7 第1回ラウンドテーブルミーティング
顔合わせ,全体の進め方や方向性に関する議論と,評価課題の具体化を行います.京都駅前,メルパルク京都にて13:30より.
2008.2 評価課題予備実験
評価課題について,データと結果のサンプルを配布します
2008.3 中間報告会
自由課題を行っている参加者の皆様に中間報告をお願いします.
2008.6 評価課題本実験
評価課題の参加者の皆様に課題実施結果の提出をお願いします
2008.8 第2回ラウンドテーブルミーティング
評価課題の結果,その評価方法について議論します.合わせて今後の展開についてのご意見を募ります.
2008.9末 レポート提出
Workshop Meetingのための予稿原稿(英文)の締切です.
2008.12 NTCIR-7 Workshop Meeting

Mailing List

関心のある方はまずmust(あ)cslab.kecl.ntt.co.jpに登録下さい (登録ご希望はmust-admin(あ)cslab.kecl.ntt.co.jpにメイルをお送り下さい). 参加者は自動的にmust-participants(あ)cslab.kecl.ntt.co.jpに登録されます. いずれもそれぞれのML参加者からのみに投稿を制限しています.

関連リンク等

オーガナイザ・問い合わせ先

  • 加藤 恒昭 (東京大学)
  • 松下 光範 (NTT CS研)
  • オーガナイザ EMailアドレス must-admin(あ)cslab.kecl.ntt.co.jp
更新日時:2010/09/15 11:03:47
キーワード:
参照:[CFP: MuST at NTCIR-7] [動向情報の要約と可視化に関するワークショップ]