본문 바로가기
IT & Computer/Python & text mining

텍스트 마이닝(Text Mining)의 기본 개념 - 데이터 마이닝과 다르거나 유사한 점

by dinotory 2022. 9. 29.
728x90
반응형

 

텍스트 분석, 텍스트 데이터 마이닝은 문자 그대로 텍스트에서 의미있는 정보를 추출하는 프로세스를 말한다. 여기서 의미있는 정보란 이전에 알려지지 않은 새로운 정보와 같은 고품질 정보를 말하며, 텍스트는 웹사이트, 책, 이메일, 리뷰, 뉴스기사와 같이 텍스트를 포함하는 문서 자원을 가리킨다. 오늘은 텍스트 마이닝에 대한 기본 개념을 알아보자. 

 

 

 

텍스트 마이닝을 공부합시다
텍스트 마이닝을 공부합시다

 

 

데이터 마이닝 vs 텍스트 마이닝 

 

오늘날 많은 데이터가 디지털 형식으로 생성되고 저장되기 때문에 분석을 위해 사용할 수 있는 자원이 매우 풍부하며, 방대한 데이터에서 가치있는 패턴을 찾는 데이터 마이닝은 이러한 빅데이터를 수집하고 저장하는 유용한 방법 중 하나이다. 데이터 마이닝과 관련된 기술은 비록 적용이 보편화된 것은 아니지만 이미 고도로 발달되어 있고 일부 형태의 분석은 성숙한 단계에 접어들어 추가 개발의 여지가 많지 않다. 데이터 마이닝은 주로 과거 경험의 샘플로부터의 학습을 통해 숫자 형식으로 결과를 표시한다. 

 

반면에 텍스트 마이닝은 숫자를 기대하지 않고 패턴을 찾는다. 읽을 수 있고 의미가 분명한 내용과 문서의 모음을 찾는다. 그렇다고 해서 텍스트 마이닝이 데이터 마이닝과 완전히 별개인 것은 아니다. 둘 다 과거 사례의 샘플을 기반으로 분석하며, 텍스트가 처리되어 숫자 표현으로 변환되기 때문에 구성은 다르더라도 학습 방법은 유사하다. 

 

 

텍스트는 일반적으로 특별한 요구 사항이 없는, 구조화되지 않은 문서의 모음이다. 

 

 

따라서 텍스트는 비정형 데이터이다. 

 

데이터 마이닝을 위한 데이터 준비 작업을 위해서는 데이터를 구조화하는 과정이 필요하며, 데이터의 구조화를 통해 두 가지 유형의 정보가 얻어질 수 있다. 첫번째는 순서가 지정된 숫자형, 두번째는 범주형 정보이다. 순서가 지정된 숫자형 정보는 체중이나 매출금액 같이 크기에 따라 정렬할 수 있는 특징을 가진다. 반면 범주형 정보는 순서가 없는 숫자 코드로서, 1 또는 0으로 표시되는 true(참)과 false(거짓) 처럼 숫자의 크기와 무관하게 임의로 지정한 코드를 말한다. 가령 사과는 1, 오렌지는 2, 이렇게 데이터 분석 결과를 해석하기 위해 개인이 임의로 부여한 코드가 범주형 정보이다. 

 

텍스트 마이닝 방법을 기존 데이터 마이닝 방법과 유사하게 설명하면, 데이터를 텍스트에서 표준 숫자 형식으로 변환하는 것이다. 이를 위해서는 텍스트를 표준 스프레드시트 형식으로 변환하고 스프레드시트의 셀을 채워야 한다. 기본적인 개념은 스프레스시트의 가로 행을 문서, 세로 열을 단어라고 생각하고 문서에 나타난 단어의 유무를 1과 0으로 표시하는 것이다. 그러나 데이터 마이닝과 다르게 텍스트 마이닝 스프레드시트의 모든 값은 양수이며, 텍스트의 경우 특정 단어가 문서에 존재하거나 존재하지 않을 수 있기 때문에 누락된 값은 문제가 되지 않는다. 

 

 

 

[참고자료] Fundamentals of Predictive Text Mining (2015) Sholom M. Weiss • Nitin Indurkhya Tong Zhang
* 데이터 마이닝 방법을 모르는데 텍스트 마이닝에 대한 이해를 돕기 위해 데이터 마이닝 개념을 사용해서 그런지 자세한 내용은 충분히 와닿지가 않아 점점 요약을 생략했다. 차차 공부하면서 알아가보자. 💆

 

 

 

 

 

728x90
반응형

댓글