하둡 서버 구성은 다음과 같은 항목을 주로 고려합니다.
- 필요한 스토리지 용량
-> 하둡은 기본적으로 replica=3으로 하기 때문에 물리적 용량 / 3이 논리적 용량입니다.
-> 여기에 컴퓨팅 수행하면서 발생하는 중간 데이터 용량을 고려해야 하기 때문에
대략 필요 데이터 용량으로만 60 ~ 70% 정도 저장하고 30 ~ 40% 정도는 남겨두도록 용량을 산정합니다.
- 디스크 종류
-> 디스크 종류는 용량이 되면 적절한 성능에 가격이 저렴한 걸로 구매하고 남는 비용으로 서버를 더 추가하는 것을 권장합니다.
디스크 성능과 갯수는 CPU 갯수와도 관계가 있는데 예를 들어 1개 200MB/sec 읽기 처리 성능을 가지는 디스크 20개를
한 서버에 장착하면 전체 4GB/sec로 읽기 처리를 할 수 있는데 이것을 CPU 코어가 잘 처리 못할 경우
비싼 비용을 지불한 만큼의 성능 효과를 볼 수 없습니다.
제가 테스트한 내용으로는 Tajo 0.10.0 기준으로 가장 단순한 질의 수행 시
대략 4core에 400 ~ 500 MB/sec 정도 디스크 성능을 요구하고 있었습니다.
(다양한 설정 값, 질의 워크로드 등에 따라 달라질 수 있습니다.)
2015년 3월 27일 금요일 오후 12시 45분 40초 UTC+9, kim tae huen 님의 말: