研究種目:基盤研究(C) 研究期間:2007〜2009 課題番号:19500087 研究課題名(和文) 新聞記事を用いた対話型訴訟相談支援システム 研究課題名(英文) A Framework of a interactive consultation system for suit using newspaper articles 研究代表者 槫松理樹(KUREMATSU MASAKI) 岩手県立大学・ソフトウェア情報学部・准教授 研究者番号:00305286 |
法情報システムは、これまでに人工知能分野を中心に研究されている。代表的なものとしては、AshlayらによるHYPO、ICOTで開発された新田らのHELIC-IIなどがあげられる。また判例、法令、法律用語の電子化、データベース化が進み、商用化されている。さらに近年、領域オントロジーの一つとして、法律知識の体系的定義である法律オントロジーの構築も行われている。法律オントロジーの研究はセマンティックWebで利用可能な法律RDF辞書の開発へと発展している。
しかし、これら法情報システムの多くは専門家向けのものであり、非専門家には利用しにくい。司法と国民の壁を取り除くには、非専門家向け法情報システムの構築が必要である。 そのようなシステムに要求されるものの一つとしては、「人の行為に対する刑罰、量刑」を示すことである。この点に着目すれば、専門性が高い判例よりも、求める点が端的に記載されている新聞記事と照合し、検索するほうが有用であると考えられる。また新聞記事は判例に比べると身近であり、情報が早いという利点がある。また法令が法律世界の言葉で記載されているのに対し、現実世界の言葉で記載されているため、実際の事案との照合が行いやすい。さらに新聞記事に関しては、現在WWWの普及とともに研究が進められている情報検索、文章検索の技術が利用できる。現在の検索は、条件に該当する記事を検索するものが主流であるが、それを拡張することで、より柔軟な新聞記事の検索が可能である。
(1)新聞記事の統合的な検索:新聞記事は即時性が高い、専門用語が少ないという面がある一方で、一つの事件が複数の記事に分かれている、後日情報が訂正されるという特徴も持つ。これらの特徴を考慮し、同一事件に関する記事を統合的に検索する必要がある。この点を解決するための手法の構築を行う。
(2)文章からの情報抽出手法:新聞記事の中から必要な文章を抽出することは困難である。これまでに単語などを元にした方法は提案・実現されているが、まだ課題を残している。この点について、文単位のみでなく、文章構造全体を考慮した情報抽出手法を提案する。
(1)新聞記事データベースでは、初めに新聞記事に対し、指示詞や"同文"、"右文"といった繰り返しを省略する照応関係に対し、省略された語句を復元する解析を行う。次に、同一事件の記事を抽出し、一つの事例としてまとめる。最後に事例検索の効率を高めるために事例を特徴づけるインデックスを作成する。事例とインデックスをまとめたものを事例データとし、訴訟推論エンジンにて活用する。
(2)訴訟推論エンジンでは、初めに入力事例と事例データとのインデックスを照合する。このとき既存の汎用概念辞書を使うことで検索精度を高める。次に検索で見つけられた事例と入力事例との語句の対応付け抽出を行う。対応付けの抽出を行うのは、行為が記載されている部分である。このときにも汎用概念辞書と法律オントロジーを活用する。次に対応付けした語句を事例の刑罰・量刑の部分に適合し、入力事例に対する刑罰・量刑を推論する。最後に入力事例と適合した事例結果をまとめ、互いに不足している部分と合わせてユーザに提示する。ユーザが不足部分に対応する行為などを追加入力した場合、再度対応付け抽出、適合を行い、出力を更新する。
本研究期間内においては、上記のシステムを構築するため、それぞれのブロックの基本アルゴリズムの確立、プロトタイプの開発、評価実験を行う。具体的には(1)省略を復元する照応解析技術、(2)同一事件の新聞記事を事例としてまとめる技術、(3)新聞記事から生成する事例からのインデックス抽出技術、(4)概念辞書を用いた事例検索技術、(5)事例間の語句の対応付け抽出技術、(6)語句の適合に基づく推論手法の開発を行う。
(2)同一事件の新聞記事を事例としてまとめる技術、(3)新聞記事から生成する事例からのインデックス抽出技術、(4)概念辞書を用いた事例検索技術、(5)事例間の語句の対応付け抽出技術、(6)語句の適合に基づく推論手法の開発について実施したことは、互いに関連が強いため、以下にまとめて示す。
最初に、参考文献を元に新聞記事の文書構造として、見出し、リード、本文・1段落目、本文・2段抱く目以降の4つの構造を洗い出した。これらのうち、ポイントとなる語句が出現頻度、記事での有無に基づき、前半部、リード、見出し、後半部の重要度順位を決定した。また同一事項に関する記事であっても、同一新聞内の掲載面や異なる新聞間において意見の部分に差があることに着目し、検索の上での一つの指標として捉えた。 これらの部分を利用し、記事の関連付けを行うアルゴリズムを設計した。アルゴリズムとしては、(1)種の記事を決定、(2)種の記事のブロック毎の語句を抽出、(3)これらの語句に対し、時系列を遡る形で検索する。この時、記事のブロック間での語彙の一致率と占有率に着目し、閾値以上の場合、同一記事とみなし、一つの情報、記事クラスにまとめる。一致率、占有率の計算においては編集距離を活用し、次に示す計算を用いる。一致率では、はじめに記事内に出てくる単語とその後に続く助詞を一つにまとめた句とする。この句単位での編集距離を求める。各ブロックに対し、全部変更した場合の編集距離を100とし、それに対する割合を求める。ただし、移動が多いほうがより編集距離が小さくなりように変更と移動とでは重みを変える。この編集距離に、句単位での編集距離に基づく類似度を求め、この値で割ったものを一致率とする。これが一定の値以上の場合は、一致率が高いとする。また占有率は、両方の記事に含まれる語句の総数を検索対象の記事内に含まれる語句の総数で割ることによって求める。なお、このとき総数には、出現個数も反映する。これにより、記事においてどれだけ語句が重なっているかが明確となる。ただし、語句は名詞、動詞、未知語に限定する。
この記事クラスに対し、キーワード検索を行う。キーワードを含む文を関連する文とし、表示することで、訴訟相談支援を試みる。処理の流れとしては、(1)キーワードにより記事クラスを選択。(2)記事クラスの中から、記事クラスを絞り込むのに有用と思われるキーワードをユーザに提示。(3)ユーザの回答に基づき、記事クラスを絞り込む。(4)記事クラス数が一定値以上であれば(2)に戻る。それ以外の場合は、絞り込んだ記事クラスタ内にある回答(判決など)部分を表示する。
本アルゴリズムに対し、交通事故事案に対象に机上評価を行った。その結果、検索能力に課題があることが明確になった。
本研究期間の成果は、構築を目指したシステムの基本アルゴリズムの提案、プロトタイプモジュールの構築とその評価にとどまった。本システムを向上するためには、アルゴリズムの更なる検討が必要となる。それに関し、現在検討している事項を次に示す。
(1)判例も含めた多角的な文書統合手法の検討:新聞記事のみでは、刑罰や量刑は限られてしまう。そのため、多様な相談事例には応じれない。その点を考慮し、判例や法令の情報も含める形を検討する。基本的には本研究において考案した手法を援用する。
(2)語の多層性に着目した情報検索手法の検討:一つの語が多様な意味を持つことを、単に意味とするのではなく、層を成していると考え、語からみた階層を構築し、そのレベルでの検索を行うことを考える。これにより、従来と異なる観点からの検索ができると考える。 今後は、上記の点を中心にアルゴリズム改善、システム実装・評価など、助成期間後も本研究課題に取り組む。