기존에 사용하던 ELK 6.3을 7.1.1 버전으로 업그레이드하며 그 사이 발생했던 문제들을 정리해 보았습니다. 참고로 모두 수동 설치되어 있는 상태입니다.

1. 설치 및 사용 환경 
2. 신규 장비 세팅하기
3. 신규 장비에 ES 설치하기 (ver 6.3)
4. Rolling 업그레이드 시작 - 6.3에서 6.8로 
5. Rolling 업그레이드 시작 - 6.8에서 7.1.1로
6. Kibana, Logstash 업그레이드


[1. 설치 및 사용 환경 ]
  

 현재 ELK를 사내 시스템에 설치하여 사용중에 있습니다. 돈이 많으면 그냥 편하게 Cloud 서비스를 사용하고 싶은 마음은 간절했으나 사정상 외부에서 서비스하는 시스템들이 보내는 raw data를 모두 가져와 사내의 ES에 밀어 넣고 있습니다. 운영비용도 절감할 수 있지만, 사내에 두고 쓰기 때문에 접근 속도, 운영 편의성 등 여러가지 장점도 있습니다. 어쨌든 좋은 솔루션을 제공해 준 elastic.co 과 오픈소스 개발자 여러분들께 무한 감사 드립니다. 

 

사양은 아래와 같습니다. 

 

OS  CentOS 7.5.x 
H/W

Intel i5, 32GB RAM, 1TB SCSI HDD x2

Intel i7, 32GB RAM, 1TB SSD x2

( 예. 맞아요.   ...    PC에 설치해서 사용중입니다. T-T )

 

총 4대를 모두 master, data mode로 설정하여 사용중에 있습니다. i7 장비 두 대는 이번 업그레이드할 때 신규로 추가했습니다.

 


[2. 신규 장비 세팅하기]

 

 다른 글에서도 정리한 적 있지만, 이번 기회에 다시 한번 깔끔하게 정리를 다시 해봤습니다. 

 1) CentOS 최소 버전 설치(USB로...)
  CentOS 설치용 USB 제작하는 방법은 이 곳을 참고해 주세요. 
 
 2) 설치 시 minimal version으로 설치합니다. 필요한 별도의 패키지는 없으며, 필요하면 추가로 설치하면 되니까요. ES는 root 계정으로 실행하지 않으니 사용할 유저를 미리 추가해 주세요. (이 글에서는 esuser라고 명명합니다.)

 3) Network 설정하기
  /etc/sysconfig/network-scripts/ifcfg-enpxxx 파일을 열어 아래와 같이 내용을 편집/추가 합니다. 

. 
. 
ONBOOT=yes 
IPADDR=172.xx.xx.xx 
GATEWAY=172.xx.xx.x 
DNS1=xx.xx.xx.xx 
DNS2=xxx.xxx.xxx.xxx 
ZONE=public 
. 
. 

   이후 systemctl restart network 한 후 외부와의 통신이 잘 되는지 확인합니다.


 4) hostname을 변경해 두세요. 

 그냥 놔두면 어느 시스템으로 원격 접속을 해도 localhost로 보일 수 있습니다.  /etc/hostname에서 원하는 이름으로 수정할 수 있습니다.

 5) sshd로 원격 접속도 하고, 파일도 이동시켜야 하니 설치를 해둡니다.
  > yum install openssh-server openssh-clients openssh-askpass

 

   22번 포트를 그대로 사용하기 보다는 다른 포트로 바꿔봅니다.
  > vi /etc/ssh/sshd_config

 

  수정된 포트를 방화벽에 추가합니다. 
  > firewall-cmd --permanent --zone=public --add-port=XXX/tcp

  > firewall-cmd --reload

 

  아래와 같이 원격 접속, 파일 전송을 테스트 해보세요.
   원격 접속 시 : > ssh 'root'@'172.31.xx.xx' -p ssh_port_number
   파일 이동 시 : > scp -r -P ssh_port_number /path_you_want_to_copy root@172.31.xx.xx:/path_to_copy

 6) Java 설치 - 7.0부터는 OpenJDK가 내장되어 별도로 설치하실 필요 없습니다.. 7.0 이상 버전을 설치하시려면 이 과정을 건너띄세요.
 > java -version  // 버전을 확인합니다.
 > yum remove java-1.7.0-openjdk.x86_64 -y // 기존 버전이 있을 경우 삭제합니다.
 > yum install java-1.8.0-openjdk-devel.x86_64 -y // 신규 버전을 설치합니다.

 7) ES는 많은 자원을 사용합니다. 아래 내용을 참고하여 시스템 자원 사용량의 제한을 수정하세요.
  > vi /etc/security/limits.conf 에 아래 내용을 추가하세요.  (https://www.elastic.co/guide/en/elasticsearch/reference/current/file-descriptors.html)

esuser hard memlock unlimited >> 하드 세팅으로 메모리 락 제한 없도록 설정 
esuser soft memlock unlimited >> 소프트 세팅으로 메모리 락 제한 없도록 설정 
esuser hard nofile 65536 >> 하드 세팅으로 65536번의 파일을 열어 볼 수 있게 설정 
esuser soft nofile 65536 >> 소프트 세팅으로 65536번의 파일을 열어 볼 수 있게 설정 
esuser hard nproc 65536 >> 하드 세팅으로 65536번의 프로시저를 실행 할 수 있게 설정 
esuser soft nproc 65536 >> 소프트 세팅으로 65536번의 프로시저를 실행 할 수 있게 설정 

* esuser가 아닌 모든 유저의 리소스 자원 한계를 수정하려면 esuser 대신 *을 사용할 수 있습니다.
* ES에서 해당 설정이 잘 되어 있는지는 아래의 방법으로 확인할 수 있습니다. 

GET _nodes/stats/process?filter_path=**.max_file_descriptors 

  > vi /etc/sysctl.conf 에 아래 내용을 추가하세요. 

 vm.max_map_count=262144 


[3. 신규 장비에 ES 설치하기 (ver 6.3)]


 1. 파일을 /app/(혹은 선정된 다른 폴더) 폴더에 복사하고 압축을 풀어둡니다.
 2. /home/esuser/esdata 폴더를 생성합니다. 
 3. 1/2번 과정을 root 계정으로 실행했다면 chown esuser:esuser /path_to_yours 로 권한을 꼭 설정하세요.
 4. /app/elasticsearch-6.xx/config의 jvm.options을 수정합니다.

-Xms15g  // 통상 메인 메모리의 절반 
-Xmx15g 

 5. /app/elasticsearch-6.xx/config의 elasticsearch.yml을 수정합니다.

cluster.name: cluster-name 
node.name: node-mdata-X.XX (ip끝번으로 이름 지정하면 구분하기 쉽습니다.) 
node.master: true 
node.data: true 

path.data: /home/esuser/esdata/data 
path.logs: /home/esuser/esdata/logs 
path.repo: /home/esuser/esdata/repo 

bootstrap.memory_lock: true 

network.bind_host: 0.0.0.0          
network.publish_host: 172.xx.xx.xx      // 설치된 시스템의 IP. 외부 통신용 주소 
network.host: 172.xx.xx.xx              // 내부 통신용 주소  

transport.tcp.compress: true        // node간 통신하는 데이터의 압축 여부를 설정. 
transport.tcp.port: 9300              // node간 통신에 사용하는 포트 

http.port: 9200                         // http를 통한 elasticsearch API 지원 노드의 port를 설정. master에게만 필요함. 

discovery.zen.minimum_master_nodes: 1   // 실제 서비스 환경에서는 최소 3대 이상의 마스터를 운영 필수.해당 옵션은 7.0부터 사용되지 않음 
discovery.zen.ping.unicast.hosts: ["172.xx.xx.xx:9300"] // node 간 연결을 위해 unicast로 master 노드를 지정. 마스터로 등록된 시스템의 모든 ip를 기록. 기본 포트인 9300을 사용한다면 굳이 기록할 필요는 없고, 포트를 변경한 경우만 이와 같이 기록하여 처리. 해당 옵션은 7.0부터 사용되지 않음 

 

 

(* 아래 업그레이드 내용 중 시스템 A/B는 (Intel i5, 32GB RAM, 1TB 자기 기록방식 HDD x2, 기존 사용 중인 시스템)로 구성된 시스템, C/D는 (Intel i7, 32GB RAM, 1TB SSD x2, 신규 시스템)로 구성된 시스템입니다. )
(* 업그레이드 전 두 시스템(A, B)에 400GB의 데이터, 1080개의 인덱스, 8500개의 샤드를 운영중에 있습니다. )


[4. Rolling 업그레이드 시작 - 6.3에서 6.8로]

 

 우선 C, D 시스템에 ES 6.3으로 순차적으로 가동했습니다. 6.8 혹은 7.1로 바로 갈 수 있지만 테스트를 위해 네 대 모두 6.3에서 시작되도록 준비했습니다. ( 호기심에 Kibana 6.8을 연결해 보았지만 실패!! Kibana는 ES와 버전을 맞춰야 하네요. )


 이제 C, D 시스템을 순차적으로 6.8로 업그레이드하여 재시작했습니다. 이까지는 아주 순조로왔습니다. 다만, Kibana 모니터링 화면에서는 시스템을 재가동 할 때 elected master가 바뀌는 것을 확인할 수 있었고, 6.8로 업그레이드 된 C와 D는 Node수에서는 변하지 않았지만, 모니터링 화면에서는 보이지 않는 것을 확인할 수 있었습니다.


 A를 업그레이드 하기 전, A에 연결된 Logstash를 잠시 종료한 후 (ps -ef | grep logstash로 확인 후 kill -SIGTERM ... , rpm으로 설치되어 있지 않은 상태입니다.), C로 연결했습니다. Kibana도 A에서 C로 연결되도록 설정ㅇ르 변경했습니다. 이 때, Kibana 모니터링 화면에서 6.8로 업그레이드 된 모든 서버가 보였습니다. 아마도 kibana 혹은 elected master의 버전과 같은 ES 서버만 보이게 되는 듯 합니다.


 바로 이어 B도 6.8 버전으로 재시작했습니다. 6.8로의 업그레이드는 전반적으로 순조롭게 마무리 되었습니다.
 
[5. Rolling 업그레이드 시작 - 6.8에서 7.1.1로]


 7.1.1에서 ES 설정 중 "discovery.zen.minimum_master_nodes", "discovery.zen.ping.unicast.hosts" 옵션이 "discovery.seed_hosts", "cluster.initial_master_nodes" 옵션으로 대체되었습니다.

    - "discovery.seed_hosts"는 "discovery.zen.ping.unicast.hosts"를 그대로 대체하면 됩니다.
    - "cluster.initial_master_nodes"는 "node.name"에 기록된 이름을 입력해야 합니다. 

 두 옵션에 대해서는 공식 문서에서 보다 상세 내용을 확인할 수 있습니다.

 

 A, B, C 를 7.1.1로 순차적으로 업그레이드 완료하였고, 당시 elected master는 D ES 6.3인 상태였습니다. 이어서 D를 업그레이드 하기 위해 종료했는데, 이때부터 문제가 발생하기 시작했습니다. 이상하게 다른 때와 달리 Kibana에서 elected master가 D인 상태로 유지되었으며, D를 종료한 상태인데도 모니터링 화면에서는 계속 live 되어 있다고 표기가 되었습니다. 시간이 지나도 바뀌는건 없었습니다. 일단 D를 재시작하면 괜찮겠지 하는 안일한 마음에 D를 7.1.1 버전으로 다시 시작했지만, "waiting for elected master node.."라는 메세지가 계속 나오면서 시작되지 않았습니다. 급한 마음에 A를 재시작 해보았지만 역시 "waiting for elected master node.."라는 메세지가 나오면서 시작되지 않았습니다. 이때 서두르지 않고 GET _cluster/health로 상태를 체크하면 시간을 더 두고 어떤 문제가 발생하는지 로그를 정확히 봤어야 하는데, 사정상 그러지 못한 것이 너무 아쉽더군요.


 결국 모든 서버를 내린 후 전체를 재시작하기로 결정을 했습니다. 하지만 계속 같은 경고 메세지를 출력하며, 정상적으로 진행되지 않았습니다. 그래서 공식 포럼에 질문을 올려보았습니다. 이하 내용은 "https://discuss.elastic.co/t/rolling-upgrade-problem-from-6-8-to-7-1-1/186571"에 담당자분과 확인하며 진행한 내용을 정리했습니다.

 

 ES 클러스터일 경우 한 대만 실행했을 때는 elected master를 선출할 수 없는 상태이므로 최소 2대 이상 실행해야 합니다. "cluster.initial_master_nodes"에 설정하면 한 대일 경우도 정상기동이 되는줄 알았는데 제가 잘못 이해한 듯 했습니다. 하지만 2대(B, C)를 실행했을 때도 실행되지 않았습니다. 이때는 아래와 같은 에러가 발생했습니다. 

[REDACTED] failed to join REDACTED... 
org.elasticsearch.transport.RemoteTransportException: 
. 
. 
Caused by: org.elasticsearch.ElasticsearchException: publication cancelled before committing: timed out after 30s 
. 
. 

 담당자는 timeout이 발생한 원인을 좀 더 상세히 알기 위해 elasticsearch.yml에 아래 옵션을 추가 후 로그를 보내달라고 제게 요청했죠.

logger.org.elasticsearch.cluster.service:TRACE
logger.org.elasticsearch.gateway.MetaStateService:TRACE

담당자는 로그를 살핀 후 현재 클러스터에 1000개가 넘는 인덱스가 있으며, elected master는 선출과정에서 각각의 인덱스를 위해 작은 metadata를 써야만 하는데, 이는 인덱스당 평균 60ms가 걸린다고 합니다. 추척된 로그에는 아래와 같은 내용이 기록되어 있었습니다. 

4  [2019-06-20T17:20:50,030][TRACE][o.e.g.MetaStateService   ] [REDACTED-NODE-NAME] [[REDACTED-INDEX-NAME/SHRkSR17SkKb9YAd6q-fEA]] state written ... 
1008  [2019-06-20T17:21:51,765][TRACE][o.e.g.MetaStateService   ] [REDACTED-NODE-NAME] [[REDACTED-INDEX-NAME/jkTAbDtIShmorVWmk-nxUQ]] state written 


   담당자는 현재 시스템 구성에서 1000개 이상의 인덱스는 너무 많으며, 이 때문에 기동 시 제한 시간인 60s를 넘어가면서 timeout이 발생했다고 했습니다. 또한 기동된 B서버는 자기 기록방식의 디스크라 속도가 느려지는 원인 중 하나임을 알려주었습니다. 그래서 인덱스를 줄여야 하지만, 당장 지울 수 없으니 cluster.publich.timeout : 90s 옵션을 elasticsearch.yml에 추가하는게 좋겠다고 이야기 했습니다.

   이 설정을 추가 후 B, C로 다시 시작했지만 "waiting for elected master node..." 경고가 계속 올라왔습니다. 여전히 B 서버의 느린 읽기 속도의 문제 인 것 같아  C, D 서버로 재시작을 시도했더니, 시스템이 정상적으로 가동되기 시작했습니다. 이후 A 서버를 실행하니 정상적으로 가동되었습니다.

 (이 시점에 모니터링을 위해 Kibana를 기동에 문제 발생. 아래 챕터에서 확인하실 수 있습니다.)

 다음으로 남은 B 서버를 가동했는데, 에러가 화면에 나타나지는 않았지만 status 가 계속 red인 상태에서 변하지 않는 문제가 발생했습니다. curl http://172.xx.xx.xx:9200/_cluster/state?pretty=true >> /app/status.txt 로 상태 출력해서 :/UNASSINGED 로 할당 안되는 것 확인하니.. 파일이 너무 많이 열려 있는 문제가 확인되었습니다. 분명 ulimit 설정은 65535까지 설정했는데... ;;  curl http://172.xx.xx.xx:9200/_nodes/stats/process?filter_path=**.max_file_descriptors 로 확인해봐도 65535로 설정된 것을 확인할 수 있었습니다. 다시 > ulimit -a 로 시스템 사용 자원을 확인해 봤더니 open files의 값이 65535였습니다. 할 수 없이 Kibana에서 red로 되어 있는 인덱스와 1000개 넘는 인덱스 중 테스트로 올라간 후 사용하지 않는 인덱스를 삭제했습니다. 이후 인덱스 총 개수는 900여개로 줄었고, B 서버도 정상 가동 되었습니다.

 이로서 이틀간의 롱릴 업그레이드를 겨우 마칠 수 있었습니다. 하지만...  ;;;

[6. Kibana, Logstash 업그레이드]
 업그레이드 중간에 키바나도 7.1.1 로 업그레이드 하여 재시작을 해봤습니다. 하지만, A, C, D 서버가 정상 가동 된 후 1000개가 넘는 인덱스 정리를 위해 Kibana를 재시작했지만 정상 가동이 되지 않고 프로세스가 종료되는 것을 확인했습니다. 로그를 확인하니 max shard count의 값이 1000인데 현재 node 당 2000개가 넘어가고 있었습니다. (당시 에러 로그를 찾을 수 없어 정확한 메세지는 알 수 없네요.) ES는 정상 기동했는데 Kibana에서 이 에러가 나는 이유를 에러를 기록해두지 않아 정확히 알 수 없는 상태입니다. 어쨌든 아래와 같이 각 노드 별 최대 shard 개수를 조정했습니다. 

 curl -XPUT -H 'Content-Type: application/json' '172.xx.xx.xx:9200/_cluster/settings' -d '{ "persistent" : {"cluster.max_shards_per_node" : 3000}}'

 이후 Kibana가 정상 가동 되었으며, 마지막 가동되지 않던 B 서버도 정상화 될 수 있었습니다. 하지만 Kibana의 Discover화면으로 들어가서 검색을 시도하면 계속 에러가 발생했습니다. 로그를 보니 painless script 에서 오류가 나는 것을 확인할 수 있었습니다. 검색하는 data에 painless script에서 사용하는 키워드가 없기 때문인데, 이전 버전에서는 문제가 없었던 것 같은데, 7.0이상에서는 에러가 나더군요. 해당 script에 특정 컬럼이 존재하는지를 검사하는 코드를 모두 추가 했습니다. 

if (!doc.containsKey('your_column') || doc['your_column'].empty) return 'NULL'; else 

.

.

 이제 logstash(6.3 버전)를 재가동 했습니다. 아래 에러가 발생했네요. logstash를 재가동할 때는 이미 새로운 에러가 발생할 것이라는 기대를 하고 있었습니다. 부끄럽군요. :(

 Could not index event to Elasticsearch. 
 {
 	:status=>400, 
    :action=>
 	[
    	"index", 
        	{
            	:_id=>nil, 
                :_index=>"logstash-2019.06.21", 
                :_type=>"_doc", 
                :_routing=>nil
            }, 
    #], 
    :response=>{
    	"index"=>{
        	"_index"=>"logstash-2019.06.21", 
            "_type"=>"_doc", 
            "_id"=>nil, 
            "status"=>400, 
            "error"=>{
            	"type"=>"illegal_argument_exception", 
                "reason"=>"The [default] mapping cannot be updated on index [logstash-2019.06.21]: 
                defaults mappings are not useful anymore now that indices can have at most one type."
            }
        }
    }
}

아마도... 7.0에 수정된 type 관련 문제인 듯 했습니다. logstash도 이제 7.1.1로 업그레이드 후 변경된 config를 우선 적용했습니다.
   
<pipelines.yml file>

- pipeline.id : your_pipeline_name 
  path.config : "/app/logstash-7.1.1/config/your_pipeline_file.config" 

<logstash.yml file>

pipeline.batch.delay : 10 
config.reload.automatic: true 
config.reload.interval: 10s 

자! 이제 끝이길 기대하며 logstash를 다시 재시작했습니다. 조용!!! 오.. !!  끝인가..!! 했는데 신규 데이터가 들어오질 않더군요. 원인은 기존의 "your_pipeline_file.config"에서 type값을 _doc가 아닌 값으로 기존에 지정해뒀기 때문이었습니다.

재시작!! 또 에러!!! logstash 7.0 에서(인지 6.3 다음의 다른 버전이었는지 모르지만.. ) 다중 파이프라인 설정은 하나의 config파일안에 설정하지 않고 pipelines.yml에 추가 id와 config를 추가 설정하여 사용하도록 개선되었습니다. (문서 정독이 꼭 필요하네요!)

 드디어!! ELK의 모든 업그레이드가 종료되었습니다. 6.8 업그레이드와 네 대 중 세 대의 7.1.1 업그레이드가 순조로와 금방 끝날 것으로 기대했던 작업이 무려 하루하고 반일이 걸려버렸습니다. 끝까지 도와주신 David Turner씨에게 다시 한번 감사드리며, 다음부터 업그레이드 전 문서 정독 잘 하고 공식 포럼은 담당자들의 작업 시간을 알아둬야 겠다는 교훈을 얻고 마무리를 할 수 있었습니다.

 이제 index Forcemerge( https://www.elastic.co/guide/en/elasticsearch/reference/current/indices-forcemerge.html ) 해봐야 겠네요. 무슨 일이 일어날지 두렵긴 하지만... 또 삽집을 하게 되면 공유해 보겠습니다. ^^a

 

글이 다 정리되고 나니 7.2 버전이 발표되었네요. 하하하!!


안녕 ~~!! 

+ Recent posts