テキスト処理と情報検索
David

1. BoWモデルの紹介

  1. ドキュメントの集合全体から、トークンからなろ語彙を作成する

  2. 各ドキュメントでの各単語の出現回数を含んだ特長ベクトルを構築する

1.1. 単語を特徴ベクトルに変換する

t: 単語の出現回数, d: ドキュメント

d1d2d3d4d5
t11 0 5 2 3
t20 3 0 0 0
t33 2 0 4 0
t46 6 8 7 5
t54 1 4 0 0
t60 5 0 3 0

表のように、索引語tiのドキュメントdjにおける出現頻度が与えられているとする。このとき

(1)
\[tfidf(t,d) = tf(t,d)*idf(t,d)\\ \]
(2)
\[idf(t,d)=log(\frac{n_d}{1+df(t,d)}) \]

という重みをまず計算しなさい。

つぎに、検索要求として{t2,t3,t6}という索引語集合が与えられたときに、 検索システムが、上で計算した重み、およびベクトル間の類似度として内積を用い、 単純に類似度が上位の3ドキュメントを出力したとする。このとき、 出力される3ドキュメントを示すとともに、 システムの性能(recall,precision)を計算しなさい。 ただし、正解ドキュメントは{d1,d2}とする。

Created with Madoko.net.