반응형

Python 9

PyCharm 에서 Mecab 설치 및 사용 방법

개발 환경 windows 10(64bit), python 3.8, PyCharm 개요 - 형태소 분석기 종류 - mecab-ko 설치 - 유저 사전 추가 - 샘플 코드 형태소 분석기 종류 텍스트 형태의 자료 분석을 위해 전처리 작업은 필수입니다. 이를 위해 개발된 한글 형태소 분석기도 여럿 있습니다. 꼬꼬마, khaiii, KOMORAN, MeCab 등이 있습니다. MeCab은 원래 일본어 형태소 분석을 위해 만들어진 오픈소스이며, 한글 형태소 분석을 위해 진행된 은전한닢 프로젝트을 위해 MeCab을 fork해 mecab-ko가 만들어집니다. 형태소 분석기 별로 장단점이 있지만 여기서는 eunjeon을 중심으로알아보겠습니다. (각 형태소의 특징에 대해서는 이 블로그에 잘 정리되어 있으니 참고하시기 바랍니..

gmail 첨부파일을 자동으로 가져오기

거래처에서 전달받는 데이터 중 엑셀 파일을 메일로 전달하는 곳이 있습니다. 담당자는 이 파일을 받아 DB로 업로드 하는 작업을 수동으로 진행합니다. 그 일을 덜고자 python으로 매일 해당 메일의 첨부파일을 자동으로 다운받아 업로드하는 프로그램을 만들어 주었습니다. 여기서는 자동으로 메일의 첨부 파일을 다운로드하는 부분까지만 구현을 해보겠습니다. 전체 소스코드는 이 곳을 참고하세요. ------------------------------------------------------------------------------ 1. 개요 테스트 환경 : windows 10, python 3.8 필요한 패키지 : - 메일 클라이언트를 위해 imapclient , pyzmail(메일 내용 파싱) 사용 - 스케쥴..

tensorflow gpu 가속 기능 사용 설정

[개발 환경] windows 10 / PyCharm / Python 3.8 / CUDA Ver 10.1 / tensorflow, tensorflow-gpu 2.3.1 gpu 가속을 사용하려면 tensorflow-gpu, 그리고 cuda toolkit, cuda DNN을 설치해야 합니다. 최신 cuda 버전은 11.2 이지만 tensorflow 2.3.1에서는 CUDA Toolkit 10.1, cuDNN 7.x 버전을 사용합니다. 다운로드 주소는 각각 아래와 같습니다. CUDA Toolkit 10.1 developer.nvidia.com/cuda-toolkit-archive (2.3GB) CUDA Deep Neural Network Library (cuDNN) 7.6.5 developer.nvidia.co..

윈도우에서 pytesseract 로 이미지에서 숫자 추출하기

pytesseract는 Google’s Tesseract-OCR Engine 용 래퍼입니다. (OCR : Optical Character Recognition, 광학 문자 인식) 이를 사용하여 이미지에서 숫자를 추출하는 과정을 정리해 보았습니다. pytesseract는 pip로 설치만 하고 끝나는 것이 아닌, 환경변수와 Tesseract-OCR의 별도 빌드 과정이 필요합니다. tesseract-ocr.github.io/tessdoc/Home.html 문서를 참고하여 빌드 후 설치합니다. 그리고 "고급 시스템 설정" -> "환경 변수" 에서 시스템 변수 혹은 사용자 변수에 "TESSDATA_PREFIX"라는 변수 이름으로 tesseract가 설치된 위치에 포함된 tessdata 의 전체 경로를 넣어준 후 ..

Python으로 제작한 자동 번역 및 음성 파일 생성툴

테스트 용 툴 제작하다 재밌어 보여서 동영상만 공개해 봅니다. Amazon Polly : aws.amazon.com/ko/polly/ , docs.aws.amazon.com/ko_kr/polly/latest/dg/API_Reference.html , pypi.org/project/boto3/ Google Translate API : pypi.org/project/googletrans/ 엑셀 문서에 한글을 등록한 후 툴에서 오픈해 번역하고 싶은 언어를 추가 후 번역을 시도하면, Google Translate API로 텍스트로 번역을 하고, Amazon Polly로 음성 파일을 만들어 저장합니다. 해당 셀을 선택하면 음성 파일을 들을 수 있습니다.

PyCharm에 자주 쓰는 툴 설치

자주 사용하는 툴들을 PyCharm에 External Tools에 연동하는 절차와 사용법을 기록합니다. PyQt5 : pypi.org/project/PyQt5/ Qt Designer : pypi.org/project/PySide2/ PyUIC5 : pypi.org/project/pyqt5-tools/ PyInstaller : pypi.org/project/pyinstaller/ 아래 내용은 PyCharm 2020.2.x, Python 3.8x와 Windows 10에서 진행된 내용입니다. Qt Designer Qt Designer는 Window를 디자인하기 위한 툴 입니다. PySid2를 설치하면 C:\Users\YOURNAME\AppData\Local\Programs\Python\Python38\Lib\..

PyCharm Repositories 변경

PyCharm 2020.1.x 이후 버전에 Packages 설치를 위한 저장소 설정에 문제가 있는지 패키지 리스트가 보이지 않네요. 찾아보니 daumkakao에서 저장소를 제공해서 pip 의 저장소 설정 변경 방법을 정리해 둡니다. 저장소가 http로 되어 있어 몇 가지 세팅이 필요합니다. 우선 File -> Settings -> Project:your_project_name -> Project Interpreter 에서 '+' 기호를 누른 후 패키지 리스트가 잘 나오면 그냥 설치하시면 됩니다. ^^ 만약 패키지 리스트가 안보인다면 하단의 "Manage Repositories"를 눌러 설정된 저장소를 삭제 후 "http://ftp.daumkakao.com/pypi/simple/"를 추가해 주세요. 이제 ..

Windows 서버에서 프로세스 관리하기

레거시 서비스 중 윈도우 어플리케이션에 종종 문제가 발생할 때가 있습니다. 이를 수정하는게 올바른 방법이겠지만 현실적인 문제로 관리자들이 일정 기간마다 재시작을 수행할 때가 있고, 가끔 다운되면 주말에도 접속해서 재가동 해야 하는 일이 발생하곤 합니다. pm2와 같은 윈도우용 프로그램이 있으면 하는 생각을 해봤지만, 그건 주기적인 재실행 처리가 불가능해서 python으로 직접 만들어 보았습니다. python은 자동 테스트 프로그램 개발을 위해 최근에 사용하기 시작했는데 생각보다 훨씬 재밌었습니다. C++/JS/Python을 넘나들면서 코딩하는게 꽤 귀찮긴 하지만... Github(https://github.com/blackwitch/winPM)에도 같이 올려두었으니 참고하시기 바랍니다. 앞으로 편의를 위..

Elasticsearch 설치기

CentOS에 Elasticsearch를 설치해 보았다. 정리할 생각이 없었는데, 하다보니 중간에 막히는 것들이 처리하면서 정리 한번 해둬야겠단 생각이 들었다. 일단 처음 설치할 때 주의할 점은 Elasticsearch는 root 계정으로 실행할 수 없다. (실행 가능하게 하는 옵션이 있던데, 최신 버전에서는 안되는 듯. 그리고 보안의 측면에서도 당연히 좋지 않아 추천하지 않는다.) 그러므로 전용 계정을 설정해서 설치, 실행하자. 설치 환경 및 각종 버전은 아래와 같다. CentOS 7.5.x Elasticsearch 6.3.0 (https://www.elastic.co/downloads/elasticsearch) plugin, Elastic-HQ (https://github.com/ElasticHQ/e..

반응형