-
[최신 정보검색론] 정보검색평가
Chapter 8 정보 검색 평가 이 글은 최신 정보검색론 을 읽고 정리 한 내용입니다. 정보 검색 시스템은 문헌 검색, 문서 분류 등의 작업으로 구성됩니다. Chapter 8 에서는 이 작업들의 평가 척도를 알아보겠습니다. 8.1 순위 없는 검색 집합의 평가 1) 정확률과 재현율 시스템의 유효성을 측정하는 지표에는 크게 정확률(Precision) 과 재현율(Recall)이 있습니다. 쉽게 설명하자면 정확률은 검색된 것 중에 적합하게 검색 된 것의 비율이고, 재현율은 적합한 것 중에 검색된 것을 의미합니다. 분할표로 나타내면 아래와 같습니다. 적합 부적합...
-
[최신 정보검색론] 지지 벡터 기계와 기계 학습
Chapter 15 지지 벡터 기계와 기계 학습 이 글은 최신 정보검색론 을 읽고 정리 한 내용입니다. Chapter 15 에서는 분류 모델 중 하나인 지지 벡터 기계 (SVM) 에 대해 알아보겠습니다. SVM 의 기본적인 아이디어는 두 범주의 경계를 가장 넓게 하는 경계를 찾는 것 입니다. 주로 2-Class 분류에 많이 쓰이며, 필요에 따라 회귀나 다범주 분류에도 쓰입니다. 15.1 선형 분류 문제 선형분류란 위의 별과 동그라미 자료를 구분하는 선을 찾는 문제로 볼 수 있습니다. A 와 B 가...
-
[최신 정보검색론] 점수 계산, 용어 가중치, 벡터 공간 모델
Chapter 6. 점수 계산, 용어 가중치, 벡터 공간 모델 이 글은 최신 정보검색론 을 읽고 정리 한 내용입니다. Boolean 질의로 매칭되는 문헌들을 찾았을 때, 그 문헌들에 점수를 부여해 순서를 정하는 과정이 필요합니다. Chapter 6 에서는 그 방법들에 대해 다루겠습니다. 6.1 인수 색인과 구역 색인 문헌은 용어 뿐 아니라 메타 데이터 를 포함한 구조입니다. 메타 데이터란 저자, 제목, 출판일 등 문헌의 기본 정보를 의미합니다. 검색 결과에 점수를 부여할 때, 이 메타 데이터를 활용할 수 있습니다. 메타...