반응형

개발 이야기/DB, 데이터분석, AI 21

S3에 스냅샷 생성 및 복원

Elasticsearch 7.11.0 On Premise 환경에서 AWS S3 에 스냅샷을 생성하는 내용을 정리해 보았습니다. Cloud 환경에서는 조금 다를 수 있으니 참고하세요. 아래 내용은 www.elastic.co/guide/en/elasticsearch/plugins/7.11/repository-s3.html#repository-s3-install의 내용을 참고해서 정리했습니다. 이해를 돕기 위해 이미지가 많이 첨부된 관계로 서술형 문체보다는 간략히 요점만 정리했습니다. 아래와 같은 순서로 정리되어 있습니다. 1. AWS S3 플러그인 설치 2. AWS S3에 스냅샷 저장소 생성 3. Kibana에 AWS S3 저장소 등록 4. 스냅샷 생성/복구하기 5. 검색 가능한 스냅샷 설정 1. AWS S..

PyCharm 에서 Mecab 설치 및 사용 방법

개발 환경 windows 10(64bit), python 3.8, PyCharm 개요 - 형태소 분석기 종류 - mecab-ko 설치 - 유저 사전 추가 - 샘플 코드 형태소 분석기 종류 텍스트 형태의 자료 분석을 위해 전처리 작업은 필수입니다. 이를 위해 개발된 한글 형태소 분석기도 여럿 있습니다. 꼬꼬마, khaiii, KOMORAN, MeCab 등이 있습니다. MeCab은 원래 일본어 형태소 분석을 위해 만들어진 오픈소스이며, 한글 형태소 분석을 위해 진행된 은전한닢 프로젝트을 위해 MeCab을 fork해 mecab-ko가 만들어집니다. 형태소 분석기 별로 장단점이 있지만 여기서는 eunjeon을 중심으로알아보겠습니다. (각 형태소의 특징에 대해서는 이 블로그에 잘 정리되어 있으니 참고하시기 바랍니..

gmail 첨부파일을 자동으로 가져오기

거래처에서 전달받는 데이터 중 엑셀 파일을 메일로 전달하는 곳이 있습니다. 담당자는 이 파일을 받아 DB로 업로드 하는 작업을 수동으로 진행합니다. 그 일을 덜고자 python으로 매일 해당 메일의 첨부파일을 자동으로 다운받아 업로드하는 프로그램을 만들어 주었습니다. 여기서는 자동으로 메일의 첨부 파일을 다운로드하는 부분까지만 구현을 해보겠습니다. 전체 소스코드는 이 곳을 참고하세요. ------------------------------------------------------------------------------ 1. 개요 테스트 환경 : windows 10, python 3.8 필요한 패키지 : - 메일 클라이언트를 위해 imapclient , pyzmail(메일 내용 파싱) 사용 - 스케쥴..

tensorflow gpu 가속 기능 사용 설정

[개발 환경] windows 10 / PyCharm / Python 3.8 / CUDA Ver 10.1 / tensorflow, tensorflow-gpu 2.3.1 gpu 가속을 사용하려면 tensorflow-gpu, 그리고 cuda toolkit, cuda DNN을 설치해야 합니다. 최신 cuda 버전은 11.2 이지만 tensorflow 2.3.1에서는 CUDA Toolkit 10.1, cuDNN 7.x 버전을 사용합니다. 다운로드 주소는 각각 아래와 같습니다. CUDA Toolkit 10.1 developer.nvidia.com/cuda-toolkit-archive (2.3GB) CUDA Deep Neural Network Library (cuDNN) 7.6.5 developer.nvidia.co..

NodeJS에서 Google SpreadSheet에 접속하기

json, 별도 포멧의 파일에 데이터를 입력하고 사용하려면 데이터 가공 및 배포에 대한 허들이 발생합니다. 트래픽이 많이 발생하지 않는다면 spreadsheet에서 데이터를 일괄 관리하고, 필요한 곳에서 spreadsheet 접속하여 갱신된 최신 데이터를 가져와 사용한다면 데이터 가공/배포에 대한 비용을 극적으로 줄일 수 있습니다. 모듈은 google-spreadsheet를 사용하여 Google Spread Sheet API를 사용하며, document는 theoephraim.github.io/node-google-spreadsheet/#/ 를 참고하시면 됩니다. API 사용을 위해서는 console.developers.google.com/에서 API 사용 허가를 설정해야 합니다. sheet 사용을 위한..

윈도우에서 pytesseract 로 이미지에서 숫자 추출하기

pytesseract는 Google’s Tesseract-OCR Engine 용 래퍼입니다. (OCR : Optical Character Recognition, 광학 문자 인식) 이를 사용하여 이미지에서 숫자를 추출하는 과정을 정리해 보았습니다. pytesseract는 pip로 설치만 하고 끝나는 것이 아닌, 환경변수와 Tesseract-OCR의 별도 빌드 과정이 필요합니다. tesseract-ocr.github.io/tessdoc/Home.html 문서를 참고하여 빌드 후 설치합니다. 그리고 "고급 시스템 설정" -> "환경 변수" 에서 시스템 변수 혹은 사용자 변수에 "TESSDATA_PREFIX"라는 변수 이름으로 tesseract가 설치된 위치에 포함된 tessdata 의 전체 경로를 넣어준 후 ..

Python으로 제작한 자동 번역 및 음성 파일 생성툴

테스트 용 툴 제작하다 재밌어 보여서 동영상만 공개해 봅니다. Amazon Polly : aws.amazon.com/ko/polly/ , docs.aws.amazon.com/ko_kr/polly/latest/dg/API_Reference.html , pypi.org/project/boto3/ Google Translate API : pypi.org/project/googletrans/ 엑셀 문서에 한글을 등록한 후 툴에서 오픈해 번역하고 싶은 언어를 추가 후 번역을 시도하면, Google Translate API로 텍스트로 번역을 하고, Amazon Polly로 음성 파일을 만들어 저장합니다. 해당 셀을 선택하면 음성 파일을 들을 수 있습니다.

MSSQL RECOVERY 옵션

타 팀에서 서비스 중인 DB 중 트랜잭션 로그 백업 처리 스케쥴을 등록하지 않아 디스크 용량이 0이 되버려서 이러지도 저러지도 못하는 경우가 있어 처리해준게 벌써 두 번째. RDBMS에서 기본 복구 모델 설정은 보통 full로 되어 있기 때문에 Management studio에서 축소 처리를 해도 백업 전에는 줄어들지 않습니다. DB 관리를 위해 트랜잭션 파일 옵션에 대해서는 두 가지를 신경써야 합니다. 1. 사고 발생 시 복구가 필요한 DB 인가.. 중요한 정보가 기록되고 사고 발생 시 분 단위로 정보를 복구해야 하는지를 생각해서 꼭 필요한 경우 full로 그렇지 않고 하루 혹은 주 단위로 전체 백업을 한 파일로 복구 하거나 혹은 분실되도 상관없는 DB는 simple로 설정하는게 좋습니다. 2. 스케쥴..

precision_threshold 이야기

DSL에서는 precision_threshold값을 적용하여 사용했는데, Kibana에서는 적용해본 적이 없다가 사용하시는 동료들이 값이 이상하다며 내용을 찾아보게 되었습니다. Metrics에 Y-Axis의 Aggregation을 Unique Count로 지정했을때 아래와 같은 값이 출력되고 있었습니다. 이 값이 terms로 뽑을 때와 3% 정도 차이가 나고 있어 DSL에 적용한 precision_threshold 설정을 적용해 봤습니다. Metrics 하단에 JSON input 란이 있습니다. 여기에 아래와 같이 입력하면 됩니다. precision_thredshold의 기본값은 3000이며, 최대값은 40000입니다. 아래와 같이 조정이 되지만 terms와 완전히 동일한 값이 되지는 않습니다. hits..

MSSQL 버전 별 암호화 지원 정리

pwdencrypt에 대해서 찾아보면 MSSQL 2008까지는 hashbytes에 MD2, MD4, MD5, SHA, SHA1을 지원했으면 pwdencrypt는 SHA1을 사용합니다. (2000 이전에는 없었으며, 2000에서는 대/소문자를 구분하지 않는 SHA1, 2005 ~ 2008까지는 대/소문자를 구분하는 SHA1을 사용) 이후 버전에서는 SHA2_256, SHA2_512를 지원하는데 pwdencrypt는 SHA2_512(대소문자 구분)를 사용합니다. MSSQL 2008 이하 버전에서 2012 이상으로 마이그레이션 했을 경우 pwdencrypt로 암호화 할 때 앞 2byte를 버전 번호로 사용하여 pwdcompare에서 비교해서 결과를 돌려주기 때문에 그대로 사용 가능합니다. 그런데 공식 문서에는..

반응형