Chapter 8 정보 검색 평가

이 글은 최신 정보검색론 을 읽고 정리 한 내용입니다.

정보 검색 시스템은 문헌 검색, 문서 분류 등의 작업으로 구성됩니다. Chapter 8 에서는 이 작업들의 평가 척도를 알아보겠습니다.

8.1 순위 없는 검색 집합의 평가

1) 정확률과 재현율

시스템의 유효성을 측정하는 지표에는 크게 정확률(Precision)재현율(Recall)이 있습니다.

쉽게 설명하자면 정확률은 검색된 것 중에 적합하게 검색 된 것의 비율이고, 재현율은 적합한 것 중에 검색된 것을 의미합니다.

분할표로 나타내면 아래와 같습니다.

  적합 부적합
검색 긍정 정답(tp) 긍정 오류(fp)
미검색 부정 오류(fn) 부정 정답(tn)

여기서 Precision 은 tp/(tp+fp) 이고, Recall 은 tp/(tp+fn) 이라고 정의할 수 있습니다.

일반적으로 쓰는 Accuracy 는 (tp+tn)/전체 인데, 이것은 정보 검색 모델에는 적합하지 않습니다. 대부분 tp 보다는 tn 이 많게 때문에 틀린것을 틀리다고 분류해도 Accuracy 전체는 올라가기 때문입니다.

이런 경우 처럼, tp와 tn 의 균형이 매우 불균형 한 경우 Accuracy 대신에 F-Score 라는 개념을 사용합니다.

2) F-Score

F-Score 는 Precision과 Recall 을 적절히 고려해 사용하는 지표입니다. Precision 과 Recall 의 조화 평균을 사용합니다. 조화 평균을 사용함으로써 Precision 과 Recall 의 크기의 불균형을 조절할 수 있습니다.

$ F = \frac{ (\beta^2 + 1) P R}{\beta^2P + R}$ 식에서 $ \beta $ 는 그 불균형을 얼마나 조절할까에 대한 파라미터 입니다. 보통은 $ \beta = 1 $ , 즉 P와 R에 동일한 가중치를 주는 값을 많이 쓰고, 이것을 F1-Score 라고 부릅니다.

8.2 순위 검색 결과의 평가

위에서 살펴본 내용들은 순위가 없는 집합 기반의 평가 척도입니다. 다시말해 검색결과가 적합/부적합 인 것에 대한 평가만 가능합니다. 얼마나 적합/부적합 한지를 평가하려면 (순위가 있으면) 새로운 척도가 필요합니다.

1) 평균 정확률(MAP)

얼마나 적합한지 평가하기 위해서 가장 간단한 방법은 상위 k개에 대해서만 평가하는 것입니다.

MAP 는 이름 그대로 평균적인 정확률을 보여줍니다. 한 쿼리에 대한 적합 문헌 집합들 중 k 개를 선정해 평균을 낸 것을 그 쿼리에 대한 정확률로 보는 것입니다.

주의)

순위 검색을 위해서도 결국은 Precision과 Recall 개념을 사용하게 됩니다. 하지만 이 둘은 trade-off 가 있기 때문에 Recall 을 일정수준에 고정시킨 후, 그 수준에서의 최고 Precision 값을 찾는것이 좋습니다.

Precision 과 Recall 이 trade-off 관계인것이 이해가 가지 않는다면 여기 를 참고해주세요.

8.3 시스템 품질과 사용자 유용도

1) 시스템 문제

시스템 자체의 평가를 위해서는 다양한 기준들이 있습니다.

  • 색인 속도
  • 검색 속도
  • 복잡한 쿼리의 처리
  • 컬렉션의 크기

대부분의 기준들은 수치적으로 측정이 가능하기 때문에, 비교적 평가를 명확하게 할 수 있습니다.

2) 사용자 유용도

사용자의 유용도의 측정은 목적에 따라 조금씩 다를 수 있습니다. 일반적인 검색엔진에 대한 유용도는 재방문률로 측정할 수 있고, 다른 검색엔진 대비 방문률도 유용도의 척도가 될 수 있습니다.

3) 배치된 시스템의 정제

시스템을 업데이트 하고싶다면, 기존 시스템 대비 사용자의 만족도가 높은지를 알 수 있어야 합니다.

가장 일반적으로는 A/B 테스트 를 사용합니다. 기존 시스템과 제안 시스템에 한 가지의 차이를 두고 사용량을 조사하는 것입니다.

사용량을 조사하는 방법에는 최상위 결과나 첫 페이지의 결과를 얼마나 클릭했는지 분석하기 등이 있습니다. 이런 방법을 클릭 로그 분석, 클릭 스트림 마이닝 이라고 합니다.

hyunkyung's profile image

hyunkyung

2019-04-12 13:50

Read more posts by this author