본문 바로가기

알고싶은

텍스트 마이닝 분석, 자연어 처리 분류 방법 9가지

반응형

텍스트 마이닝 분석, 자연어 처리 분류 방법

텍스트 마이닝 분석에서 핵심 의미를 찾는 방법을 정형화하기 위한 방법들을 살펴보자. 인공지능 자연어 처리의 주요 개념과 방법들의 예시를 아래에서 확인해보세요.

인공지능 자연어 처리 분류 방법

이 글에서 살펴볼 인공지능 자연어 처리 분류 방법은 총 9가지이다. 형태소 분석, 문자열 분석, 핵심 어구 분석, 벡터 공간 모델, 동시출현 단어 분석, 토필 모델링, 감정 분석, 의미연결망 분석, 머신러닝이다.

인공지능 자연어 처리 분류 방법

자연어 처리 형태소(단어) 분석

형태소 분석은 의미의 최소 단위인 형태소(morpheme)이나 단어에 대한 분석은 텍스트를 분석하는 가장 보편적인 방법이다. 문법적 규칙 혹은 확률에 의한 품사 태깅(part of speech tagging), 개체명 인식(named entity recognition), 철자 교정, 단어 식별(tokenization) 기법 등을 이용한다.

인공지능 자연어 처리 분류 방법

자연어 처리 문자열 분석

영어의 음운이나 한국어의 글자의 개수(n-gram)를 지정하여 전체 텍스트 코퍼스를 분석함으로써 해당 문자열이 나왔을 때 그다음에 어떤 글자가 나올지를 확률분포를 통해 예측한다.

인공지능 자연어 처리 분류 방법

자연어 처리 핵심 어구

핵심 어구 추출 텍스트를 어휘적으로 상호 관련 있는 단어들로 나누는 청킹(chunking)을 통해 핵심 어구를 추출하거나, 개체명 인식, 관계 추출(relation extraction) 등에 활용한다.

인공지능 자연어 처리 분류 방법

자연어 처리 벡터 공간 모델

벡터 공간 모델 요즘 머신러닝 등에서도 종종 언급되는 벡터 공간 모델은 솔튼 등(Salton et al, 1975)에 의해 1970년대에 주창되었고, 지금도 활발히 활용되는 방법이다.

벡터 공간 모델에서 문서(document)와 단어(term)를 각각 벡터(vector)와 차원(dimension)에 대응시켜 통계적 가중치를 구한다. TF-IDF, 카이제곱 검정, 코사인 유사도 등을 통해 단어의 빈도수 분포에서 중요하지 않은 단어를 걸러내고, 문서의 유사도를 구한다.

인공지능 자연어 처리 분류 방법

자연어 처리 동시출현 단어 분석

동시 출현 단어 분석 단어들 사이의 의미상의 관계성을 파악하기 위해 일정한 문맥 내에서 두 단어가 동시 출현하는 빈도를 구한 후, 다양한 통계적 방법을 활용하여 유의미한 단어 쌍을 추출해 낼 수 있다.

인공지능 자연어 처리 분류 방법

자연어 처리 토픽 모델링

토픽 모델링 구조화되지 않은 대량의 텍스트로부터 숨겨져 있는 주제 구조를 발견하고 카테고리화 하기 위한 통계적 추론 알고리즘으로, LDA (Latent Dirichlet Allocation) 모델이 주로 활용된다. 각각의 창발적인(emergent) 주제를 각 행에 배열되는 단어들의 확률분포를 통해 표현한다.

인공지능 자연어 처리 분류 방법

자연어 처리 감정 분석, 텍스트의 감성 분석

텍스트의 감성 분석 감성 사전을 기반으로 분석 대상이 되는 전체 텍스트의 감성 비율을 정량화하는 기법이다. 통상적으로 긍정, 중립, 부정 등의 ‘평가어’ 분석이 감성 분석으로 이해되나 이는 실제론 기쁨, 우울, 화남 등 심리학적인 감성 카테고리에 기반한 정량화의 한 특수한 사례이다. 인공지능 자연어 처리에 관해 아래에서 알아보세요.

자연어 처리 의미연결말 분석

의미 연결망 분석 키워드 동시 출현 분석 기법에 기반하거나 그 한계를 넘어서 단어 간의 의미 혹은 맥락상의 연결 관계를 정의한다. 그 후 해당 연결 관계를 시각화하거나 중요한 콘셉트를 네트워크 속의 위상(centrality)에 따라 추출하는 방법이다.

인공지능 자연어 처리 분류 방법

자연어 처리 머신러닝

머신러닝 최근 ‘인공지능’이라는 마케팅 용어를 통해 텍스트 분석에서 활용되는 머신러닝 기법을 설명하는 경우들이 있으나, 엄밀히 얘기하면 머신러닝의 여러 기법들 역시 대부분 학계에서 이미 수십 년간 알려진 것들이다. SVM(Support Vector Machine), 의사결정 트리(Decision Tree, 랜덤 포레스트(Random Forest) 등이 대표적이고, 최근에는 딥 러닝(Deep Learning) 기법이 활용되고 있다.

인공지능 자연어 처리 분류 방법

이 글은 통계청 통계교육원, 통계의 창 2017년 겨울호 '텍스트는 어떻게 분석되는가'를 참고하여 작성하였습니다.

반응형