본문 바로가기
반응형

IT & Computer41

파이썬 텍스트 마이닝 라이브러리 - NLTK(Natural Language Toolkit) NLTK(Natural Language Toolkit) NLTK(Natural Language Toolkit)는 파이썬에서 자연어 처리를 위한 라이브러리로, 다양한 자연어 처리 작업을 수행할 수 있도록 도와줍니다. NLTK는 영어 자연어 처리를 중심으로 개발되었으며, 문서 분류, 정보 추출, 단어 토큰화, 형태소 분석, 구문 분석, 개체명 인식, 감성 분석 등 다양한 자연어 처리 작업을 지원합니다. NLTK에서 제공하는 주요 기능 말뭉치(Corpus) 및 언어 자원 관리 영어 텍스트 말뭉치를 제공하며, 텍스트 말뭉치를 쉽게 다룰 수 있는 인터페이스를 제공합니다. 말뭉치를 이용해 단어 빈도, 어휘 다양성 등의 통계 정보를 계산할 수 있습니다. 텍스트 전처리(Text Preprocessing) 텍스트 데이터.. 2023. 2. 27.
자료구조 - 스택, 후위표기법, 큐를 사용하여 덱을 구현하는 방법 자료구조 - 스택, 후위표기법, 큐를 사용하여 덱을 구현하는 방법 자료구조와 관련된 스택(Stack), 후입선출 스택(Stack)은 후입선출(Last-In-First-Out, LIFO) 방식으로 동작하는 자료구조입니다. 새로운 요소는 스택의 상단에 삽입되며, 가장 최근에 삽입된 요소가 가장 먼저 제거됩니다. 이것은 스택의 작동 방식으로 "Last-In-First-Out" 이라고 불리는 이유입니다. 스택은 일반적으로 스택 상단(top)으로만 접근할 수 있습니다. 요소를 추가하는 작업은 스택의 상단에 새로운 요소를 삽입하는 작업이며, 요소를 제거하는 작업은 스택의 상단에서 요소를 꺼내는 작업입니다. 스택은 주로 함수 호출 스택(function call stack)이나 뒤로 가기 버튼 등에 사용됩니다. 함수 .. 2023. 2. 24.
텍스트 마이닝 4단계와 유용한 파이썬 라이브러리 6가지 텍스트 마이닝 단계와 유용한 파이썬 라이브러리 모음 텍스트 마이닝 4단계 프로세스 텍스트 마이닝은 대량의 텍스트 데이터를 분석하여 유용한 정보를 추출하는 기술입니다. 이를 위해서는 다음과 같은 기본적인 단계가 필요합니다. 데이터 수집 분석하려는 데이터를 수집합니다. 이는 인터넷 상의 웹페이지, 뉴스 기사, 소셜 미디어 게시글, 이메일 등 다양한 소스에서 수집할 수 있습니다. 데이터 전처리 수집한 데이터를 분석하기 적합한 형태로 가공합니다. 이는 불필요한 문자나 기호 제거, 대소문자 통일, 토큰화 등의 작업을 포함합니다. 데이터 분석 전처리된 데이터를 분석하여 원하는 정보를 추출합니다. 이는 주요 단어나 구, 토픽 모델링, 감성 분석, 네트워크 분석 등의 기술을 사용할 수 있습니다. 결과 시각화 추출한 정.. 2023. 2. 24.
자료구조 기본 개념 정리 - 배열, 리스트, 스택, 큐, 해시테이블 자료구조에 대해 알아봅니다. 컴퓨터 자료구조란, 데이터를 조직화하고 저장하는 방법에 대한 학문입니다. 즉, 어떻게 데이터를 구성하고 저장할 것인지, 그리고 어떻게 그 데이터를 처리할 것인지에 대한 이론적인 고찰입니다. 배열과 리스트 예를 들어, 배열(array)은 동일한 유형의 데이터 요소를 일렬로 저장하는 방법입니다. 이와 달리 연결된 리스트(linked list)는 서로 다른 유형의 데이터 요소를 연결(link)하여 구성합니다. 이러한 자료구조들은 데이터를 저장하는 방식이 다르기 때문에 각각의 장단점이 있습니다. 배열은 데이터에 빠르게 접근할 수 있지만, 크기가 고정되어 있기 때문에 요소를 추가하거나 제거하는 데 제약이 있습니다. 반면에 연결된 리스트는 크기가 동적으로 조절될 수 있기 때문에 요소를 .. 2023. 2. 23.
C언어를 공부하는 이유: C프로그래밍이 활용되는 분야 C언어를 공부하는 이유 - C프로그래밍이 활용되는 분야 C언어는 다양한 분야에서 널리 활용되는 프로그래밍 언어입니다. 몇 가지 대표적인 예는 다음과 같습니다. 운영 체제 C언어는 운영 체제의 핵심 기능을 구현하는 데 많이 사용됩니다. 운영 체제는 하드웨어 자원(메모리, 디스크, CPU 등)을 효율적으로 관리하고, 응용 프로그램이 하드웨어와 상호작용할 수 있도록 하는 소프트웨어입니다. 대표적으로 유닉스(UNIX)와 리눅스(Linux) 운영 체제가 C언어로 개발되었습니다. 대부분의 운영 체제는 C언어로 작성되어 있습니다. 운영 체제는 하드웨어를 관리하고 응용 프로그램이 하드웨어와 상호 작용할 수 있도록 인터페이스를 제공합니다. C언어는 하드웨어와 직접 상호 작용하는 데에 적합한 언어이기 때문에 운영 체제 개.. 2023. 2. 21.
💻 C언어와 C++의 차이, C언어를 잘 하기위한 방법 C/C++, C언어를 잘 하기위한 기본 팁 C언어와 C++언어는 무엇이 다른가 C언어와 C++언어는 둘 다 프로그래밍 언어이지만, 몇 가지 차이점이 있습니다. 🧤객체 지향 프로그래밍 C++은 객체 지향 프로그래밍(OOP) 언어입니다. 객체 지향 프로그래밍은 데이터와 이를 처리하는 함수(메소드)를 하나의 단위로 묶어서 사용합니다. 이러한 개념을 이용하여 C++은 클래스(class)를 사용하여 객체(object)를 생성할 수 있습니다. 반면, C언어는 객체 지향 프로그래밍을 지원하지 않습니다. 🧶 네임스페이스 C++은 네임스페이스(namespace) 개념을 도입하여 변수와 함수의 이름 충돌을 방지할 수 있습니다. 반면, C언어는 네임스페이스를 지원하지 않습니다. 🥽 함수 오버로딩 C++은 함수 오버로딩(fu.. 2023. 2. 21.
구글 지메일로 관심 키워드 뉴스 자동 이메일 받는 방법과 주의사항 구글 이메일로 관심 키워드에 대한 뉴스를 자동으로 받아보고 싶어 방법을 찾아보았다. 키워드 설정하는 방법, 설정 해제하는 방법, 그리고 주의사항에 대해 알아본다. Google 알리미가 알려준다. 구글 이메일 자동설정, 지메일 자동받기, 키워드 뉴스 받기 뭐 이런 용어라고 생각했지만 아주 단순하게 구글 알리미였다. 아래 주소의 링크로 가면 신청할 수 있다. 구글 알리미 바로가기 링크 https://www.google.co.kr/alerts Google 알리미 신청방법 받고자 하는 지메일 계정으로 로그인한 상태에서 신청하면 된다. 로그인을 안한 상태에서도 이메일을 입력하면 알림을 만들 수 있다. 수신빈도는 하루 한번, 일주일 한번, 또는 수시로 받을 수 있다. 출처는 자동, 뉴스, 블로그, 웹, 비디오, 도.. 2023. 2. 16.
🦾 GPT AI 파워 - 콘텐츠 작성 및 이미지 생성까지 자동화하는 워드프레스 무료 플러그인 텍스트를 입력하면 관련된 콘텐츠를 작성해주고 이미지 생성을 자동으로 할 수 있는 워드프레스 무료 플러그인이 있어 소개한다. 현재 기준으로는 5천건 이상 설치되어서 워드프레스 AI 플러그인 중 가장 대중적인데 얼마나 검증이 된 플러그인인지는 잘 모르겠다. GPT AI 파워 - 콘텐츠 작성 및 이미지 생성 해주는 워드프레스 무료 플러그인 GPT AI 파워란 GPT AI Power는 OpenAI의 GPT-3 기술을 사용하여 콘텐츠와 이미지를 생성하는 워드프레스 플러그인이다. GPT AI Power의 핵심 기능 핵심 기능에는 38개 언어를 지원하는 Content Writer, Auto Content Writer, Bulk Content Writer, Image Generator, ChatGPT, WooComme.. 2023. 2. 15.
🗄️ 프로그래밍 C 언어 vs. Python 파이썬 차이점 프로그래밍할 때 파이썬과 C언어 두 가지를 왔다갔다 사용하다보면 자꾸 실수할때가 있다. 오늘은 두 언어의 차이점을 정리해본다. 파이썬과 C언어 차이점 📝 출력할 때, 프린트 Py - 프린트 함수 사용, 한줄로 표현할 때 %(변수) 사용, 줄바꿈 안하려면 , end="" 사용 print(”출력할 내용”) print(”%d는 %s이다” % (숫자, 문자), end="") C - 프린트f 함수 사용, 코드 뒤에 반드시 세미콜론(;), \n 나올때까지 줄바꿈 없음 printf(”출력할 내용”); printf(”%d는 %s이다”, 숫자, 문자) ⌨️ 사용자에게 입력받기 Py - 입력 요청과 변수 저장을 input 함수로 한번에 변수명 = input(”입력 요청: “) C - 입력 요청은 프린트f로, 변수 저장은 .. 2023. 2. 12.
🗄️ C 프로그래밍 언어 - 주의사항 & ; f { } && || 어렵게 배운 C 언어를 잊어버리지 않기 위해 다시 한번 정리해본다. C 프로그래밍 언어란 1972년 만들어진 범용 컴퓨터 프로그래밍 언어로 당시 프로그래밍 언어 B의 후속이자 유닉스 운영체제에서 실행되는 유틸리티를 구현하기 위해 처음 개발되었다. 그렇다면 D도 나올 수 있다는? 구조화된 프로그래밍을 지원하고 런타임을 최소화하며 효율적으로 기계에 명령을 전달하는 메모리와 언어 구성에 대한 액세스를 제공하는 컴파일이 가능하도록 설계되었다. 2000년부터 프로그래밍 언어의 인기도를 측정하는 인덱스에서 상위 2개 언어에 꾸준히 선정되었다. C 언어 특징 #include int main(void) { printf("hello, world\n"); } 프로그램 첫 번째 줄에 #include 를 넣어줘야 한다. C .. 2023. 2. 10.
⏰ 파이썬으로 실시간 인기 검색어 확인하고 스크린샷 자동 저장 | 2023년 2월 9일 오후 3:30 기준 파이썬 업무 자동화 프로젝트 인공지능 공부와 함께 파이썬으로 업무 자동화하기를 실습중이다. 시중에 좋은 책들이 많고 훌륭한 분들이 올려주신 블로그와 깃 소스 등 활용할 것들이 참으로 많아 또 뭐부터 해야할 지 모르는 와중에 신기한 작업이 한번에 완료되어서 포스팅으로 남긴다. 아무래도 실시간 인기 검색어이다보니 실시간으로 올려주는게 맞기도 하고 보통은 따라하다보면 70-80% 지점에서 에러를 잡지 못해 지치는데 이 코드의 경우 진짜 한 5분만에 다 완료가 되었다. 실시간 인기 검색어 TOP10 확인하기 작업 환경은 주피터 노트북이고 셀레니움 라이브러리로 크롬 웹브라우저를 컨트롤하는 것이 주요 내용이다. 셀레니움(Selenium)은 주로 테스트 목적으로 브라우저를 자동화하는 도구인데 웹 기반 프로세스 자동화.. 2023. 2. 9.
🤓 인공지능을 위한 수학 공부 시작 | 주요 토픽들 🧮 인공지능을 위한 수학 공부를 시작하다. 인공지능에 관심이 있고 인공지능을 다뤄서 무엇인가를 해보려고 기웃거리다보니 자꾸 이상한 공식과 숫자들이 난무하다. 😭 애증의 수학, 고등학교 졸업 이후 다시 볼 일이 0.0000001도 없었는데 아무래도 계속 발목을 잡을거 같아 수학 공부를 시작한다. 📖 책으로 시작하는 인공지능 수학 공부 생각해보면 수학을 아예 싫어하거나 못하지는 않았던 것으로.. 애써 기억하는데 어디서부터 뭘 해야할지 몰랐다. 찾아보니 '인공지능을 위한 수학', '딥러닝을 위한 선형대수' 이런 종류의 언급이 꽤 보여서 먼저 관련 책을 찾아보았다. 행렬부터 시작하는걸 보니 파이썬에서 넘파이와 판다스 같은 라이브러리랑 관련이 있어보였다. 와 근데 정말 진도가 안나간다. 그리고 아직 인공지능에 대.. 2023. 2. 9.
[ML/DL] 머신러닝/딥러닝 모델 트랜스포머(Transformer) Transformer, deap learning model 트랜스포머, 영화제목 아님 인공지능 머신러닝 모델 중 하나인 트랜스포머에 대해 알아본다. 2017년 구글 브레인이 논문을 통해 발표 논문제목: Attention is all you need (https://arxiv.org/abs/1706.03762) 의역: 어텐션만 있으면 된다, 어텐션이 다했다 아직 안 읽어봤음, 엄청 길 줄 알았는데 그림 빼고 본문 8장 정도에 신개념을 발표함.. 🥶 제목처럼 순차적 프로세스로 처리하는 기존 RNN(순환신경망)의 한계를 어텐션이라는 메커니즘을 도입해서 해결할 수 있다는 것 2017년 이후에는 딥러닝 하면 거의 트랜스포머가 대세, 경쟁적으로 많은 관련 연구 논문이 발표되고 있음 기존의 RNN(Recurrent .. 2022. 10. 13.
MS워드, 구글 닥스에서 문서에 전체 페이지 수 표시하는 방법 (페이지 번호 / 총 페이지수) 보고서나 문서 작성할 때 보통 바닥글에 페이지 번호를 넣고 페이지 수가 조금 많아지면 페이지 번호 옆에 전체 총 페이지 수를 표시한다. 구글 닥스에서는 이 기능을 꽤 쉽게 설정할 수 있는데 워드는 좀 까다로워서 매번 검색이 필요했다. 그래서 마이크로소프트 워드에서 페이지 번호를 삽입할 때 전체 페이지까지 보이게 하는 방법을 정리한다. 보너스로 구글 닥스에서는 얼마나 쉽게 되는지도 마지막에 추가했으니 참고하자. MS워드에서 전체 페이지수 보여주는 방법 1. [ 필드 ] 메뉴를 찾아야 한다. 필드 메뉴를 찾는 방법은 세 가지가 있다. A. 머리글 및 바닥글 영역을 더블클릭 > [필드]를 선택한다. 워드는 일단 [머리글 및 바닥글] 탭으로 가야한다. 이 탭이 보이려면 머리글이나 바닥글 영역에서 더블클릭을 하면.. 2022. 10. 12.
구글 지메일을 다른 이메일로 자동으로 전달하는 방법 (Email forwarding) 여러 개의 구글 지메일 계정을 사용하다가 회사나 학교에서 또 구글 이메일 계정이 생기면 전부다 로그인을 해놓고 자주 체크하기가 어렵다. 이럴때 유용한 것이 자주 사용하는 이메일로 받은 메일을 그대로 전달하는 것이다. 오늘은 구글 지메일을 다른 이메일로 자동 포워딩하는 방법을 알아본다. 구글 지메일로 받은 이메일 전달하기 1. PC에서 전달하고자 하는 지메일 로그인 후 설정 화면으로 이동한다. ⚙️ PC나 노트북(랩탑)에서 자주 로그인하지 않아 다른 메일로 보내고자하는 지메일 계정에 로그인한다. 이메일 자동 전달 설정은 PC 화면에서만 가능하고 지메일 앱으로는 설정할 수 없다. 로그인 후 오른쪽 상단에 톱니바퀴 아이콘을 누르면 [모든 설정 보기/See all settings] 버튼이 보인다. 이 버튼을 클.. 2022. 10. 12.
인공지능 자격증 - AI 활용능력 평가 AICE 시험에 대해 알아보자 (AI Certificate for Everyone) 인공지능에 관심이 많아 관련 뉴스를 받아보는 중 인공지능 자격증이 나왔다는 소식을 접했다. AICE(AI Certificate for Everyone)이 무엇인지, 어떤 문제가 출제되는지, 접수 방법과 준비해야 하는 것들을 알아보았다. 모두를 위한 인공지능 자격증 AICE AICE는 모두를 위한 자격증이라는 말처럼 초등학생부터 성인까지, 비전공자부터 전문 개발자까지 커버하는 AI 자격증이다. 각 단계별로 자격증 레벨이 다양한데, 가장 높은 단계인 프로페셔널부터 > 어소시에이트 > 베이직 > 주니어 > 퓨처 순으로 난이도가 다르다. 아직은 Basic - Associate - Professional 3개 단계만 나왔고 주니어와 퓨처는 출시 예정이다. AICE Basic Level AI원리, 업무활용 이해 및.. 2022. 10. 5.
맥북에서 C언어 프로그래밍 환경 세팅 - 비주얼 스튜디오(Visual Studio) 설치방법 VS Code for Mac C언어 프로그래밍을 위해서는 마이크로소프트 비주얼 스튜디오(MS Visual Studio) 프로그램이 필요하다. 그런데 비주얼 스튜디오 맥북용 프로그램은 C언어를 지원하지 않는다. 그래서 맥북에서 C언어를 프로그래밍하기 위해서는 비주얼 스튜디오 코드(Visual Studio Code)가 필요하다. VS Code로 불린다. 윈도우에서 설치만 하면 쉽게 시작할 수 있는 비주얼 스튜디오는 사용이 간단하지만 프로그램이 무겁다. 반면에 맥에서 쓰는 VS 코드는 프로그램이 가볍다는 장점이 있지만 비주얼 스튜디오처럼 사용하기 위해서는 몇가지 추가 조치가 필요하다. 오늘은 맥북에서 C언어 프로그래밍 환경을 세팅하기 위해 VS Code 설치와 관련된 절차를 알아본다. 맥북에 VS Code로 C언어 개발환경 세팅하기 1... 2022. 10. 2.
텍스트 마이닝(Text Mining)의 기본 개념 - 데이터 마이닝과 다르거나 유사한 점 텍스트 분석, 텍스트 데이터 마이닝은 문자 그대로 텍스트에서 의미있는 정보를 추출하는 프로세스를 말한다. 여기서 의미있는 정보란 이전에 알려지지 않은 새로운 정보와 같은 고품질 정보를 말하며, 텍스트는 웹사이트, 책, 이메일, 리뷰, 뉴스기사와 같이 텍스트를 포함하는 문서 자원을 가리킨다. 오늘은 텍스트 마이닝에 대한 기본 개념을 알아보자. 데이터 마이닝 vs 텍스트 마이닝 오늘날 많은 데이터가 디지털 형식으로 생성되고 저장되기 때문에 분석을 위해 사용할 수 있는 자원이 매우 풍부하며, 방대한 데이터에서 가치있는 패턴을 찾는 데이터 마이닝은 이러한 빅데이터를 수집하고 저장하는 유용한 방법 중 하나이다. 데이터 마이닝과 관련된 기술은 비록 적용이 보편화된 것은 아니지만 이미 고도로 발달되어 있고 일부 형태.. 2022. 9. 29.
맥북에서 윈도우 한자키 특수문자 복사-붙여넣기 하여 사용하기 맥북과 윈도우를 번갈아가며 사용하다보면 두 운영체제에 각각 장단점이 존재하긴 하지만 일단 맥북에서 사용하는 기호들이 윈도우에서는 보이지 않거나 다르게 보이거나, 또는 에러나는 경우가 있다. 윈도우에서 작성한 것은 대부분 맥에서 잘 보이는데 그 반대는 가끔 그렇지 않다보니 맥북에서 종종 검색을 통해 윈도우에서 사용되는 특수문자를 붙여넣기 하여 사용하곤 한다. 그래서 오늘은 자주 복사하기 위해 검색하는 윈도우 한자키 특수문자를 정리해보았다. 개인적으로는 'ㅁ', 'ㅇ'을 주로 사용하고, 가끔 'ㄱ'도 사용한다. [ㄱ] + 한자키 ! ' , . / : ; ? ^ _ ` |  ̄ 、 。 · ‥ … ¨ 〃­ ― ∥ \ ∼ ´ ~ ˇ ˘ ˝ ˚ ˙ ¸ ˛ ¡ ¿ ː [ㄲ] + 한자키 Æ Ð Ħ IJ Ŀ Ł Ø Œ Þ .. 2022. 9. 18.
맥북(MacBook)으로 파이썬(Python) 학습 - 주피터 노트북(Jupyter Notebook) 에서 새 화면 만들기 맥북에서 주피터 노트북을 실행하는 것까지는 완료 했는데 여기서부터 또 어떻게 주피터와 대화할 수 있는 새로운 파일을 만드는지 몰라 한참 찾아보았다. 다들 너무 당연하게 그냥 사용하는데 실행한 후에 어떻게 코드를 입력할 수 있는 대화형 화면까지 도달하는지는 잘 나와있지 않아서 정리해본다. 그리고 그 다음으로 주피터 노트북을 사용하면서 원하는 위치에 파일 저장하는 방법까지 알아보자. 혹시 누군가 나와 같은 고민을 하고 있다면 일단 이 글을 끝까지 읽고 나서 따라해보길 바란다. 1. 주피터 노트북 실행 화면에서 [New] > [Python 3] 를 클릭한다. 첫 화면에서 보이는 [New]를 클릭하고 파이썬 3을 눌러야 Hello 비슷한거라도 입력할 수 있는 화면이 나온다. * 그런데 괄호 안에 'ipykern.. 2022. 9. 18.
반응형