고객 성공 사례 /

한국쌔스소프트웨어 ㈜
서울 강남구 대치4동 889-11 대치빌딩 8-10층
전화 (02) 2191-7121
팩스 (02) 2191-7007
www.sas.com/korea

고객 성공 사례

인쇄용인쇄용

성공 사례

 

미 국립환경보건원의 BI 분석 기술에 날개를 달아준 '그리드 컴퓨팅'

미 국립환경보건원 (NIEHS, National Institute of Environmental Health Sciences) 에서는 인명 구조 연구가 곧 핵심 역량이라 할 수 있습니다 . 한편 , NIEHS 의 과학자들은 자신들이 사용하는 데이터 웨어하우스의 컴퓨팅 / 분석 능력의 결핍이 암의 환경적 요인에 대한 획기적 연구 발전에 걸림돌로 작용한다고 판단 , 기존의 데이터 마이닝 접근법에 ' 그리드 컴퓨팅 ' 기술이 접목된 독창적인 솔루션을 개발하기에 이릅니다 .

NIEHS 측의 공식 발표에 따르면 , 이 전략은 연구원들의 낙관적인 기대치를 능가할 정도로 커다란 성과를 거두었다고 합니다 .

지난 십 년 간 , NIEHS 연구원들은 유방암을 유발하는 유전자와 전립선 암을 억제하는 유전자를 발견함으로써 인체생물학 (human biology) 에 대한 사람들의 이해를 증진하는 데 기여했습니다 . 또한 이들은 석면 노출이 인체에 미치는 치명적인 영향과 납에 노출된 아동들의 장애 발생 , 그리고 도시 오염과 건강의 연관성을 최초로 입증해내기도 했습니다 .

NIEHS 가 일구어낸 이런 놀랄만한 성과는 물론 연구원들 (1994 년 노벨 생리?의학상을 수상하기도 했던 ) 의 기술 혁신 덕분이기도 하지만 , 이들이 이용하는 정교한 데이터 모델링 , 데이터 마이닝 및 분석 소프트웨어 프로그램의 공로 또한 무시할 수 없습니다 . 사실상 , 노벨상을 수상한 가장 혁신적인 연구 과학자들이라도 데이터 웨어하우스의 도움 없이는 인간의 유전자를 구성하는 30 억 개 이상의 화학적 기본 쌍을 분석하기란 거의 불가능했을 것입니다 .

따라서 , NIEHS 과학자들이 연구 활동 지원에 다양한 자체 / 상용 데이터 마이닝 및 분석 소프트웨어 애플리케이션을 활용하고 있는 것은 당연한 현상이라고 볼 수 있습니다 . NIEHS 는 여러 패키지 소프트웨어 벤더 가운데에서도 특히 SAS Institute Inc. 의 전문 기술을 채택하였는데 , 이는 SAS 가 지리적으로 가까운 곳에 위치해 있어서가 아니라 (SAS 는 노스캐롤라이나 주 캐리에 , NIEHS 는 트라이앵글 파크에 위치 ) SAS 가 데이터 마이닝과 분석 분야에서 가장 정평이 나 있는 업체이기 때문이었습니다 . 여하튼 NIEHS는 SAS Enterprise Miner 데이터 마이닝 소프트웨어와 그 밖의 SAS 애플리케이션을 함께 도입했습니다 .

IT 보안 담당자 겸 시스템 관리자인 Roy Reter 가 밝힌 바에 의하면 , NIEHS 연구 과학자들은 SAS 를 이용하여 , 견고한 서버 하드웨어 플랫폼에까지 상당한 부담을 줄 수 있는 방대한 규모의 데이터세트를 마이닝한다고 합니다 . 이 데이터세트에는 인간의 유전 데이터는 물론 , 대기의 질과 관련된 데이터 등 기타 환경적 변수까지 담겨 있습니다 . 이에 Reter 는 과학자 팀이 암 발생에 대한 환경적 요인을 연구하면서 서버의 성능에 실망을 표하는 것은 별로 놀랄 일도 아니었다고 밝힙니다 . 다시 말해 , 이들은 그간 수십 테라바이트에 달하는 데이터세트와 씨름하고 있었던 것입니다 .

한편 , NIEHS 의 연구원 중 한 명이 그리드 컴퓨팅이라 불리는 분산 프로세싱 기술을 이용해 SAS 의 데이터 마이닝 소프트웨어를 수십 개의 서로 다른 서버로 확장할 것을 제안했을 때 , Reter 는 놀라움을 감추지 못했다고 합니다 . 그는 다음과 같이 설명합니다 . " 우리 과학자들이 사용할 목적으로 몇 개의 그리드 컴퓨터를 구축했습니다 . 그러던 중 ' 환경성 암 (environmental cancer) 에 관한 연구 ' 에 그리드를 이용해 보자는 아이디어가 나왔습니다 ." ( 그리드 컴퓨팅에 관한 자세한 내용은 본 사례 연구 하단의 BI 배경 설명을 참조하시기 바랍니다 .)

여기에 관심을 가진 NIEHS 연구원이 SAS 에 있는 동료에게 연락을 취했고 , 그는 연구원들을 도와 SAS 인스턴스를 32 개의 개별 Linux 서버에서 로딩할 수 있게 해주었습니다 . 그런 다음 , NIEHS 와 SAS 연구진들은 SAS/CONNECT 라 불리는 SAS 툴을 이용 , 애플리케이션 데이터가 각각의 서버에 지능적으로 분산될 수 있도록 했습니다 . SAS/CONNECT 는 ' MP Connect ' 라는 SAS 기능에 기반을 두고 있는데 , 이 기능은 복수의 SAS 세션 ( 더 큰 애플리케이션의 인스턴스로 각기 구성된 ) 이 병렬 처리될 수 있도록 해줍니다 . 이론적으로 , MP Connect 기능을 이용하면 네트워크에 연결된 무수한 시스템들로 작업부하의 분산이 가능해집니다 .

결국 32 개의 개별 서버가 그룹화 ( 이른바 ' 그리드 ' 라 부르는 ) 를 거쳐 단일 시스템으로 연결되었습니다 . Reter 는 "SAS/CONNECT 같은 첨단 기술은 애플리케이션을 그대로 그리드에서 사용할 수 있게 해준다 " 고 설명합니다 . 결과적으로 NIEHS 연구원들은 분산된 각 SAS 인스턴스와 연결하기 위해 애플리케이션을 재작성할 필요가 없었으며 , 애플리케이션에 관한 한 이들은 단일의 수퍼차지드 (supercharged) SAS 인스턴스와 연결되면 그만이었던 것입니다 .

Reter 는 ' 그리드가 없었다면 애플리케이션을 배치하고 복수의 SAS 인스턴스를 활용할 수 없었을 것 ' 이라고 말합니다 . " 원래는 32 대의 컴퓨터에 대한 프로세스 수동 분할 작업을 고려했어야 할 겁니다 . 이 경우 컴퓨터 32 대에 대한 비용을 검토한 후 각 컴퓨터의 해당 인스턴스를 실행해야 하겠죠 . 그런 다음 프로세스를 수동 분할해야 합니다 ."

또한 그는 NIEHS 연구원들이 SAS 그리드상에서 애플리케이션을 최종 테스트하면서 SAS 그리드가 지닌 확장성이 엄청난 이점을 제공한다는 사실을 발견했다고 전합니다 . "SAS 그리드는 이 핵심 프로젝트에 필요한 실행 시간을 최대 95% 까지 단축시켜 주기도 했습니다 . 또 특정 테스트의 경우 소요 시간이 하루도 채 되지 않았죠 . 만약 한 대의 컴퓨터로만 테스트를 했다면 분할된 프로세스를 하나 처리하는 데만 일주일이 넘게 걸렸을 겁니다 ."

사실 32 대의 Intel 서버와 각 서버에서 구동되는 SAS 인스턴스를 감안했을 때 , NIEHS 의 그리드는 분명 저렴하다고 말할 수는 없습니다 . 그럼에도 Reter 는 여전히 이와 동일한 성능을 지닌 대형 단독 시스템을 구매할 의사가 전혀 없음을 내비쳤습니다 . 당초 , NIEHS 는 지금의 32 노드 그리드 시스템과 동급의 Intel 기반 단일 시스템을 구매할 여건이 되지 않았는데 , 대신 Hewlett-Packard Co., IBM Corp., 또는 Sun Microsystems Inc. 같은 벤더가 제공하는 고가의 대형 시스템에 투자해야 했다고 합니다 .

이런 경험을 겪었던 Reter 는 이제 그리드 컴퓨팅의 열성팬이 되었습니다 . 그는 그리드 컴퓨팅이 모든 애플리케이션에서 그 위력을 발휘하는 것은 아니지만 ( 첨부 기사 참조 ), 분석 / 데이터 마이닝 애플리케이션 ( 대규모 데이터세트를 활용해야 하는 ) 을 이용하는 조직에게 있어서는 최상의 선택이라는 점에 동의합니다 .

" 특히 그리드는 방대한 양의 데이터를 분석하는 데에 있어 그야말로 혁신적인 방법이라 할 수 있습니다 . 단순히 실용적이기만 한 다른 방법들과는 차원이 다르죠 . 우리 과학자들은 대기 질 데이터와 유전자 데이터가 표시되는 마이크로 어레이를 사용하는데 , 이를 통해 우린 정말 방대한 양의 데이터를 접할 수 있습니다 . 이 모든 것들을 경제적으로 분석할 수 있는 방법이 그리드 말고 또 무엇이 있겠습니까 ?"

Reter 는 투자수익률 측면에서도 전혀 복잡할 것이 없다고 얘기합니다 . 그는 SAS 그리드가 암 연구에 조금이라도 보탬이 되고 있다는 점에서 투자 그 이상의 결과를 기대할 수 있을 것이라고 내다보고 있습니다 . 더군다나 그리드가 NIEHS 의 암 연구 애플리케이션의 성능을 획기적으로 향상시켜 준 것은 의외의 큰 성과라 할 수 있겠습니다 . 마지막으로 Reter 는 다음과 같이 결론을 짓습니다 . " 그리드 컴퓨팅의 강력한 파워 덕분에 우리는 놀라운 비용 절감 효과를 직접 경험할 수 있었습니다 . "

Copyright © SAS Institute Inc. All Rights Reserved.

미 국립환경보건원

비즈니스 이슈:
데이터 웨어하우스의 도움 없이는 인간의 유전자를 구성하는 30억 개 이상의 화학적 기본 쌍을 분석하기란 거의 불가능했을 것입니다
Solution:
환경성 암 (Environmental Cancer)에 관한 연구에 필요한 실행 시간을 최대 95%까지 단축하였고, 암 연구 애플리케이션의 성능을 획기적으로 향상시킴과 동시에 비용도 절감하는 효과를 보였습니다

자세히: