2007年度成果進捗報告会

日時: 2008年3月29日(土)
場所: 東京大学 駒場キャンパス 18号館コラボレーションルーム1 

プログラム

セッション1: 10:00 - 12:00
ごあいさつ
表形式データ可視化手法「左京と右京」による新聞記事コーパスの可視化

お茶の水女子大学 伊藤 貴之 *
本報告では,著者らによる階層型データ可視化手法「平安京ビュー」を2つ組み合わせた表形式データ可視化手法「左京と右京」を提案する.本手法では,表形式データの行と列について独立にクラスタリングを適用し,その結果を2つの階層型データとして可視化する.さらに,この2つの階層型データ間にインタラクションを設けることで,表形式データから興味深い特徴を発見できる.本報告ではMuSTコーパスから得られるキーワード=ドキュメント行列を可視化し,その中からいくつかの興味深い記事を発見した例を紹介する.

動向情報に基づくオンラインニュースフィルタリングへの取り組み

首都大学東京 高間 康史 *,槇原 崇
動向情報,評判情報,イベント情報の組み合わせて用いることにより,動向情報に重要な変化を及ぼした要因を抽出し,オンラインニュースフィルタリングに用いる手法を提案し,現状の取り組みについて報告する.本発表では,携帯電話会社のシェアの推移を対象として,その変動に影響を及ぼしたと考えられる要因を評判情報,イベント情報より抽出した結果について報告する.Elucignageを用いたフィルタリング結果の提示手法についても検討する.

Google Mapsを用いたぼかしグラフの表示

岡山大学 笹倉 万里子 *
本グループでは,疎な情報から全体を推測する一助として得られたデータをほかして表示するほかしグラフを提案している.今回は,ぼかしグラフをGoogleMap上に表示した例を示す.データのぼかし図を Rmagick を用いて作製し,それをGoogleMap上にマーカとして表示することで実現する.

プレーンテキスト中の相対表現の認識及び動向情報抽出に関する考察

三重大学 上西康広 *,桝井文人,河合敦夫,井須尚紀
[今岡ら 2006]は,相対表現を利用した動向情報抽出手法を提案し,その有効性を検証している.しかしながら,彼らの手法はMuSTコーパスを対象としており,プレーンテキストに対する有効性については言及していない.そこで我々は,今岡らの手法と固有表現抽出器の組合せによる,プレーンテキスト中の相対表現の認識および動向情報抽出手法の提案を目指す.今回は,提案しようとする手法の概要と予備調査の結果について報告する.

機械学習による新聞記事からの数値とその属性名の抽出

東京電機大学,東京大学  杉浦 隆博,吉田 稔 *,山田 剛一,増田 英孝,中川 裕志
本研究では,新聞記事などの文書に含まれる「複数の数値情報の比較」や「数値情報の知識の獲得」といった目的のために,新聞記事を対象とした数値情報とその属性名の抽出を行う.数値情報の属性名には「内閣支持率」や「PCの出荷台数」といったものが存在し,これらの表現を本研究では統計量名と呼ぶ.数値情報に関連する統計量名の抽出には,Support Vector Machine(SVM)を用い,機械学習の素性として形態素情報,構文情報,複合名詞といったものを使用し,この抽出手法を新聞記事に適応するとき,どの程度抽出性能を得られるか評価する.評価実験では,抽出対象の新聞記事を幾つかのトピックに分類し,別のトピックで学習を行ったものが,未知のトピックに対しどの程度耐性を持つか評価を行い,未知のトピックに対しても耐性を持つ,という結果を得た.また,抽出した統計量名を用いて,複数の数値間の比較機能や数値を用いた新聞記事検索機能を持つシステムを試作し,数値情報と統計量名の利用例を示す.

セッション2: 13:00 - 14:10
オーガナイザによる状況報告と議論
セッション3: 14:30 - 17:00
同一刑事事件の関連記事抽出に基づく量刑推移の可視化

小樽商科大学,宇都宮共和大学,北海学園大学, 岩手県立大学, 北海道大学, 東京工業大学  木村 泰知 *,高丸 圭一,渋木 英潔,松原 雅文,RZEPKA Rafal,村上 浩司
2009年5月までに裁判員制度が開始される予定であり,一般人が量刑判断に加わることになっている.そのため,裁判員制度および量刑判断に関する報道が増えており,関心を持つ人も多い.そこで,我々は,新聞記事から同一刑事事件の関連記事の抽出を行い,量刑推移の可視化システムを構築する.横軸は時間,縦軸は量刑として,事件発生日から量刑確定日まで抽出することを考えている.

大規模記事群からの数値固有表現情報に関わるテキストマイニング可視化の試み

NICT  村田 真樹 *
テキスト文書は,マラソン開催時の気温,湿度,風速,開催場所,主催団体など多くの数値情報や固有表現の情報を含んでいる.そのような情報を取り出し,表やグラフの形で整理することは,テキスト文書からの情報抽出に役立つ.われわれは,半自動で,大規模記事群から数値・固有表現情報を取り出し,種々の表やグラフを生成するテキストマイニング・可視化システムを構築した.

新聞記事のテキスト情報と株価動向の関係の解析

東京電機大学,東京大学  廣川 敬真 *,吉田 稔,山田 剛一,増田 英孝,中川 裕志
株価動向の予測は数学的な予測が多い.新聞記事には,"発売","謝罪",など株価に影響を及ぼすであろう情報に溢れているが,これらの表現を数学的な処理に直接利用できないため,新聞記事のテキスト情報は株価動向の予測にはあまり活用されていない.そのため,本研究では,新聞記事のテキスト情報が持つ単語を使用する.株価上昇時の記事と下落時の記事における頻出単語を用いて解析を行い,新聞記事のテキスト情報と株価動向の関係を解析する.

時系列データの全体的傾向のより分りやすい言語表現について

大阪府立大学 馬野 元秀 *,四方 美穂,小泉 尚之
時系列データを全体的傾向と局所的特徴により言葉で記述する研究を行なっている(振動のしかたを考える場合もある).いままで,全体的傾向は,例えば {0.2/少し増加, 0.4/中くらい増加, 0.1/中くらい上に凸, 0.3/少し上に凸} のように全体的傾向を表わす言葉のファジィ集合で表現していた.これをまとめて,例えば,「全体的にやや中くらい上に凸で,小さい値から始まり,中くらいの値で終わる」のような言葉で表現する方法を提案する.このときに,始点と終点を用いる必要度を考え,必要のない場合には用いないようにしている.

動向情報における統計量名の要素の組同定

横浜国立大学 上野 史紀,森 辰則 * 我々は,動向情報を記した新聞記事からの統計量の記述を抽出することを目的として,統計量の種別を表現する記述部分を「統計量名」と定義し,それを構成する要素を自動抽出し,組み合わせるという手順を検討している.昨年度の報告では,要素の抽出について報告したが,本年度は,抽出された要素を仮定し,それらを適切に組み合わせて各統計量名を自動的に構成する過程について考察を行った.

動向情報分析の多言語化に向けた検討

NEC C&Cイノベーション研究所 河合英紀 *, Thomas Perrin, 國枝和雄, 山田敬嗣 本稿では,動向情報の要約と可視化に関し,特に統計量表現抽出の多言語化に向けた検討と考察を行う.近年,経済問題や環境問題のように,グローバルな動向情報の把握が重要な問題が増大している.そのため,様々な言語において動向情報として統計量表現や統計量に影響を与えるイベント表現を抽出し,関係を可視化することは重要である.そこで本稿では,動向情報を収集するための表現パタンを提案し,英語におけるタグ付けの検討を行う.

更新日時:2010/09/14 18:08:12
キーワード:
参照:[イベント] [成果進捗報告会]