본문 바로가기
반응형

IT & Computer/Python & text mining8

파이썬 머신러닝 라이브러리 - Scikit-learn Scikit-learn Scikit-learn은 파이썬에서 사용할 수 있는 머신러닝 라이브러리 중 하나로, 데이터 마이닝과 데이터 분석에 많이 사용됩니다. Scikit-learn은 다양한 기계 학습 알고리즘, 전처리 도구, 모델 선택 및 평가 도구, 차원 축소 기법, 클러스터링 등 다양한 머신러닝 기능을 제공합니다. Scikit-learn의 가장 큰 장점 중 하나는 다양한 머신러닝 알고리즘을 구현하고 있어, 적절한 모델을 선택하고 구현하기 쉬우며, 또한 파이썬에서 머신러닝을 쉽게 시작할 수 있도록 다양한 예제와 튜토리얼을 제공합니다. Scikit-learn에서 지원하는 주요 머신러닝 알고리즘 분류(Classification) 알고리즘 로지스틱 회귀(Logistic Regression) 의사결정나무(Dec.. 2023. 3. 1.
파이썬 텍스트 마이닝 라이브러리 - Gensim 파이썬 텍스트 마이닝 라이브러리 - Gensim Gensim은 파이썬에서 사용할 수 있는 자연어 처리 라이브러리로, 토픽 모델링, 문서 유사도 계산, 단어 임베딩 등의 기능을 제공합니다. 특히, 대규모 텍스트 데이터를 다루는 경우, 메모리 사용량을 최적화하여 빠르게 처리할 수 있는 기능을 갖추고 있습니다. Gensim의 주요 기능 토픽 모델링 LDA(잠재 디리클레 할당) 알고리즘을 사용하여 토픽 모델링을 수행할 수 있습니다. 이를 통해 텍스트 데이터에서 주제를 추출하고, 문서 분류 등의 작업에 활용할 수 있습니다. 단어 임베딩 Word2Vec 알고리즘을 사용하여 단어 임베딩을 생성할 수 있습니다. 이를 통해 단어 간의 유사도를 계산하거나, 특정 단어와 유사한 단어를 추천하는 등의 작업에 활용할 수 있습니.. 2023. 3. 1.
파이썬 텍스트 마이닝 라이브러리 - NLTK(Natural Language Toolkit) NLTK(Natural Language Toolkit) NLTK(Natural Language Toolkit)는 파이썬에서 자연어 처리를 위한 라이브러리로, 다양한 자연어 처리 작업을 수행할 수 있도록 도와줍니다. NLTK는 영어 자연어 처리를 중심으로 개발되었으며, 문서 분류, 정보 추출, 단어 토큰화, 형태소 분석, 구문 분석, 개체명 인식, 감성 분석 등 다양한 자연어 처리 작업을 지원합니다. NLTK에서 제공하는 주요 기능 말뭉치(Corpus) 및 언어 자원 관리 영어 텍스트 말뭉치를 제공하며, 텍스트 말뭉치를 쉽게 다룰 수 있는 인터페이스를 제공합니다. 말뭉치를 이용해 단어 빈도, 어휘 다양성 등의 통계 정보를 계산할 수 있습니다. 텍스트 전처리(Text Preprocessing) 텍스트 데이터.. 2023. 2. 27.
텍스트 마이닝 4단계와 유용한 파이썬 라이브러리 6가지 텍스트 마이닝 단계와 유용한 파이썬 라이브러리 모음 텍스트 마이닝 4단계 프로세스 텍스트 마이닝은 대량의 텍스트 데이터를 분석하여 유용한 정보를 추출하는 기술입니다. 이를 위해서는 다음과 같은 기본적인 단계가 필요합니다. 데이터 수집 분석하려는 데이터를 수집합니다. 이는 인터넷 상의 웹페이지, 뉴스 기사, 소셜 미디어 게시글, 이메일 등 다양한 소스에서 수집할 수 있습니다. 데이터 전처리 수집한 데이터를 분석하기 적합한 형태로 가공합니다. 이는 불필요한 문자나 기호 제거, 대소문자 통일, 토큰화 등의 작업을 포함합니다. 데이터 분석 전처리된 데이터를 분석하여 원하는 정보를 추출합니다. 이는 주요 단어나 구, 토픽 모델링, 감성 분석, 네트워크 분석 등의 기술을 사용할 수 있습니다. 결과 시각화 추출한 정.. 2023. 2. 24.
⏰ 파이썬으로 실시간 인기 검색어 확인하고 스크린샷 자동 저장 | 2023년 2월 9일 오후 3:30 기준 파이썬 업무 자동화 프로젝트 인공지능 공부와 함께 파이썬으로 업무 자동화하기를 실습중이다. 시중에 좋은 책들이 많고 훌륭한 분들이 올려주신 블로그와 깃 소스 등 활용할 것들이 참으로 많아 또 뭐부터 해야할 지 모르는 와중에 신기한 작업이 한번에 완료되어서 포스팅으로 남긴다. 아무래도 실시간 인기 검색어이다보니 실시간으로 올려주는게 맞기도 하고 보통은 따라하다보면 70-80% 지점에서 에러를 잡지 못해 지치는데 이 코드의 경우 진짜 한 5분만에 다 완료가 되었다. 실시간 인기 검색어 TOP10 확인하기 작업 환경은 주피터 노트북이고 셀레니움 라이브러리로 크롬 웹브라우저를 컨트롤하는 것이 주요 내용이다. 셀레니움(Selenium)은 주로 테스트 목적으로 브라우저를 자동화하는 도구인데 웹 기반 프로세스 자동화.. 2023. 2. 9.
텍스트 마이닝(Text Mining)의 기본 개념 - 데이터 마이닝과 다르거나 유사한 점 텍스트 분석, 텍스트 데이터 마이닝은 문자 그대로 텍스트에서 의미있는 정보를 추출하는 프로세스를 말한다. 여기서 의미있는 정보란 이전에 알려지지 않은 새로운 정보와 같은 고품질 정보를 말하며, 텍스트는 웹사이트, 책, 이메일, 리뷰, 뉴스기사와 같이 텍스트를 포함하는 문서 자원을 가리킨다. 오늘은 텍스트 마이닝에 대한 기본 개념을 알아보자. 데이터 마이닝 vs 텍스트 마이닝 오늘날 많은 데이터가 디지털 형식으로 생성되고 저장되기 때문에 분석을 위해 사용할 수 있는 자원이 매우 풍부하며, 방대한 데이터에서 가치있는 패턴을 찾는 데이터 마이닝은 이러한 빅데이터를 수집하고 저장하는 유용한 방법 중 하나이다. 데이터 마이닝과 관련된 기술은 비록 적용이 보편화된 것은 아니지만 이미 고도로 발달되어 있고 일부 형태.. 2022. 9. 29.
맥북(MacBook)으로 파이썬(Python) 학습 - 주피터 노트북(Jupyter Notebook) 에서 새 화면 만들기 맥북에서 주피터 노트북을 실행하는 것까지는 완료 했는데 여기서부터 또 어떻게 주피터와 대화할 수 있는 새로운 파일을 만드는지 몰라 한참 찾아보았다. 다들 너무 당연하게 그냥 사용하는데 실행한 후에 어떻게 코드를 입력할 수 있는 대화형 화면까지 도달하는지는 잘 나와있지 않아서 정리해본다. 그리고 그 다음으로 주피터 노트북을 사용하면서 원하는 위치에 파일 저장하는 방법까지 알아보자. 혹시 누군가 나와 같은 고민을 하고 있다면 일단 이 글을 끝까지 읽고 나서 따라해보길 바란다. 1. 주피터 노트북 실행 화면에서 [New] > [Python 3] 를 클릭한다. 첫 화면에서 보이는 [New]를 클릭하고 파이썬 3을 눌러야 Hello 비슷한거라도 입력할 수 있는 화면이 나온다. * 그런데 괄호 안에 'ipykern.. 2022. 9. 18.
맥북(MacBook)으로 파이썬(Python) 학습 - 주피터 노트북(Jupyter Notebook) 실행하는 방법 맥북에서 파이썬을 주피터 노트북(Jupyter Notebook)을 통해 사용하고자 할 때 단계별로 환경 세팅하는 방법을 정리하고자 한다. 주피터 노트북은 파이썬용 통합 개발 환경으로, 비주얼 스튜디오(Visual Studio) 및 파이참(PyCharm)과 같이 많이 사용되는 개발 툴이다. Jupyter 라는 이름은 주피터가 지원하는 세 개의 언어인 Julia + Python + R에서 유래했으며, 주피터 랩(Jupyterlab)은 주피터의 차세대 버전이다. 참고로 주피터를 사용할 때 아나콘다를 같이 쓰기도 하는거 같지만 일단 아나콘다 없이 주피터만 사용하여 파이썬을 학습하는 과정을 알아본다. 1. 파이썬 웹사이트에서 프로그램 다운로드하여 설치하기 주피터를 사용하기 위해 일단 맥북에 파이썬을 설치해야 한다.. 2022. 9. 13.
반응형