テキスト処理と情報検索

David

1. BoWモデルの紹介

ドキュメントの集合全体から、トークンからなろ語彙を作成する
各ドキュメントでの各単語の出現回数を含んだ特長ベクトルを構築する

1.1. 単語を特徴ベクトルに変換する

t: 単語の出現回数, d: ドキュメント


–	d1	d2	d3	d4	d5
–	–	–	–	–	–
t1	1	0	5	2	3
t2	0	3	0	0	0
t3	3	2	0	4	0
t4	6	6	8	7	5
t5	4	1	4	0	0
t6	0	5	0	3	0
–	–	–	–	–	–

表のように、索引語tiのドキュメントdjにおける出現頻度が与えられているとする。このとき

(1)

(2)

という重みをまず計算しなさい。

つぎに、検索要求として{t2,t3,t6}という索引語集合が与えられたときに、検索システムが、上で計算した重み、およびベクトル間の類似度として内積を用い、単純に類似度が上位の３ドキュメントを出力したとする。このとき、出力される３ドキュメントを示すとともに、システムの性能（recall,precision）を計算しなさい。ただし、正解ドキュメントは{d1,d2}とする。

Created with Madoko.net.


–	d1	d2	d3	d4	d5
–	–	–	–	–	–
t1	1	0	5	2	3
t2	0	3	0	0	0
t3	3	2	0	4	0
t4	6	6	8	7	5
t5	4	1	4	0	0
t6	0	5	0	3	0
–	–	–	–	–	–


–	d1	d2	d3	d4	d5
–	–	–	–	–	–
t1	1	0	5	2	3
t2	0	3	0	0	0
t3	3	2	0	4	0
t4	6	6	8	7	5
t5	4	1	4	0	0
t6	0	5	0	3	0
–	–	–	–	–	–


–	d1	d2	d3	d4	d5
–	–	–	–	–	–
t1	1	0	5	2	3
t2	0	3	0	0	0
t3	3	2	0	4	0
t4	6	6	8	7	5
t5	4	1	4	0	0
t6	0	5	0	3	0
–	–	–	–	–	–