클라우드와 만나는 지능: 서비스로서의 추론 AI

추론 AI는 훈련된 데이터 모델을 새로운 데이터에 적용하여 실시간 의사 결정이나 예측을 수행하는 인공 지능의 특화된 형태입니다. “서비스”로 제공될 때 추론 AI는 클라우드 기반으로 제공되어 기업이 내부 AI 하드웨어와 전문 지식 없이도 실시간 AI 의사 결정 능력을 활용할 수 있도록 합니다. 추론 워크로드를 클라우드 서비스에 외부 위탁하면 온프레미스 인프라를 구축하고 유지하는 관련 비용을 절약할 수 있으며 동시에 최신 AI 기술의 혜택을 누릴 수 있습니다. 추론 AI 모델을 배포하는 복잡성을 자세히 살펴보고, 모델 훈련부터 배포까지의 과정을 탐험하며, Gcore에서 제공하는 기능을 살펴보겠습니다.

AI 모델 훈련 및 추론

AI의 세계에는 훈련과 추론이라는 두 가지 주요 작업이 있습니다. 일반적인 AI는 데이터에서 학습한 다음 해당 데이터를 기반으로 예측이나 결정을 내리는 두 작업을 모두 포함합니다. 반면, 추론 AI는 추론 단계에 중점을 둡니다. 데이터세트에서 모델이 훈련된 후에는 추론 AI가 이 모델을 새로운 데이터에 적용하여 즉각적인 결정이나 예측을 수행합니다.

특화는 빠르고 정확한 의사 결정이 필수적이고 시간에 민감한 애플리케이션인 자율 주행 차량 및 실시간 사기 탐지와 같은 분야에서 추론 AI가 중요하게 만듭니다. 자율 주행 자동차의 경우, 이 서비스는 즉각적인 운전 결정을 내리기 위해서 센서 데이터를 신속하게 분석하여 지연을 제거하고 안전성을 향상시킬 수 있습니다. 실시간 사기 탐지에서 추론 AI는 거래 데이터를 즉시 기존 패턴과 비교하여 의심스러운 활동을 감지하거나 차단할 수 있습니다.

효율적인 AI 생산 관리의 필요성

AI 생산 관리에는 상호 연결된 의사 결정과 조정의 복잡한 매트릭스를 살펴보는 것도 포함됩니다. 각각의 결정은 데이터 센터 위치부터 재정 예산까지 여러 파급 효과를 가지고 있습니다. Gcore에서 경험에 의하면, 이 분야는 아직 규칙을 정의하고 있으며, 모델 훈련부터 배포까지의 과정은 직선 경로보다는 미로와 같은 어려움을 겪고 있습니다. 이 섹션에서는 모든 AI 생산 매니저가 성능과 효율성을 최적화하기 위해 주의 깊게 고려해야 하는 주요 구성 요소를 살펴보겠습니다.

위치와 지연 시간은 AI 생산에서 첫 번째로 고려해야 할 사항입니다. 잘못된 데이터 센터 위치를 선택하면 사용자 경험을 심각하게 저하시킬 수 있는 지연 문제를 초래할 수 있습니다. 예를 들어, EU에서 운영 중이지만 데이터 센터가 미국에 있는 경우 대서양 데이터 이동 시간이 뚜렷한 지연을 초래할 수 있으며, 이는 추론 AI에 적합하지 않은 상황입니다.

리소스 관리는 실시간 적응력이 필요합니다. CPU, 메모리 및 특수 하드웨어(GPU 또는 TPU)와 같은 요소는 최신 성능 지표를 기반으로 지속적인 조정이 필요합니다. 개발에서 본격적인 생산으로 전환되면 동적 자원 관리는 품위가 아닌 필수가 되며, 매일 주기로 운영됩니다.

재정 계획은 운영 효율성과 밀접한 관련이 있습니다. 정확한 예산 예측은 사용자 활동에 대한 연산 수요의 불안정성을 감안할 때 장기적인 지속 가능성을 위해서 중요합니다.

소프트웨어 개발의 보다 성숙한 환경과 달리, AI 생산 관리에는 표준화된 계획이 부족합니다. 이는 특별한 전문 지식에 의존해야 하며, 높은 오류율에 대비해야 한다는 것을 의미합니다. 이것은 신속한 혁신과 시행착오에 의해 추진되는 분야입니다. 이러한 맥락에서 이 분야는 아직 변화의 국면에 있습니다. 무모하고 흥미로우며 여전히 표준을 찾고 있습니다.

추론 AI 모델 배포 방법

이제 AI 생산 관리의 주요 구성 요소를 이해했으니, 다양한 도구와 자원을 통합하는 데 중점을 둔 AI 추론 모델을 배포하는 단계별 가이드를 살펴보겠습니다. 목표는 신속하고 효율적인 배포와 확장을 보장하는 환경을 구축하는 것입니다. 다음은 성공에 필수적인 몇 가지 도구입니다.

Docker: 컨테이너화의 산업 표준으로서, 모델의 원활한 배포를 지원합니다.
Whisper: 음성을 텍스트로 변환하는 선두적인 AI 모델로, 저희 서비스의 기반이 됩니다.
단순 서버 프레임워크 (SSF): 이 Graphcore 도구는 서비스용으로, 애플리케이션을 구축하고 패키지(컨테이너)를 만드는 데 유용합니다.
Harbor: Docker 이미지를 보존하는 데 사용되는 오픈 소스 아티팩트 저장소 소프트웨어로, 설정에서 중요한 역할을 합니다. 설치를 위해 공식 문서를 참조하십시오.

다음은 파이프라인의 모습입니다.

준비

모델: 이 가이드에서는 Hugging Face의 사전 훈련된 모델을 사용합니다. 모델 훈련은 이 기사의 범위를 벗어납니다.
환경: 모델 빌딩을 위한 지정된 클러스터가 있습니다. 모든 명령은 SSH를 통해 실행됩니다.

1단계: 가상 환경 설정

가상 환경 생성:

virtualenv .venv --prompt whisper:

활성화:

source .venv/bin/activate

2단계: 필수 패키지 설치

SSF 설치:

pip install https://github.com/graphcore/simple-server-framework/archive/refs/tags/v1.0.0.tar.gz

Docker용 추가 플러그인 설치:

wget https://github.com/docker/buildx/releases/download/v0.11.2/buildx-v0.11.2.linux-amd64
mkdir -p ~/.docker/cli-plugins
mv buildx-v0.11.2.linux-amd64 ~/.docker/cli-plugins/docker-buildx
chmod u+x ~/.docker/cli-plugins/docker-buildx

3단계: 코드베이스

필요한 모든 파일을 포함하는 Gcore 저장소를 복제합니다.

git clone https://github.com/G-Core/ai-code-examples.git

브랜치를 변경합니다.

cd ai-code-examples && git checkout whisper-lux-small-ssf

여기서 두 가지 주요 파일은 ‘ssf_config.yaml’ 및 ‘whisper_ssf_app.py’입니다.

`ssf_config.yaml`은 구축할 패키지를 구성하는 데 중요합니다. 이 파일에는 모델의 이름, 라이선스 및 종속성을 지정하는 필드가 포함되어 있습니다. 입력 및 출력에 대한 개요를 제시하며 엔드포인트와 필드 유형을 자세히 설명합니다. 예를 들어, Whisper 모델의 경우 입력은 임시 파일(TempFile)이고 출력은 문자열(String)입니다. 이 정보는 모델이 사용자와 상호 작용하는 프레임워크를 설정합니다.

Whisper의 예시:

26 endpoints:
27
28   - id: asr
29     version: 1
30     desc: Simple application interface for Whisper
31     custom: ~
32
33     inputs:
34
35       - id: file
36         type: TempFile
37         desc: Audio description text prompt
38
39     outputs:
40
41       - id: result
42         type: String
43         desc: Transcription of the text

SSF는 다양한 데이터 유형을 지원합니다. 자세한 정보는 해당 문서에서 확인할 수 있습니다.

`whisper_ssf_app.py`는 Whisper 모델을 감싸 Simple Server Framework(SSF)와 호환되도록 하는 래퍼 역할을 합니다. 이 스크립트에는 여러 가지 중요한 방법이 포함되어 있습니다.

`build`: 이곳에서 모델의 계산 그래프가 구성됩니다 이는 IPU를 가진 호스트에서 실행되어야 합니다.
`startup`: 모델이 사용자 요청을 처리하기 전에 초기 작업을 관리합니다.
`request`: 이것은 시스템의 핵심으로, 사용자 요청을 처리하는 역할을 담당합니다.
`shutdown`: 진행 중인 요청을 완료하는 것과 같은 역할을 하여 모델이 원활하게 종료되도록 합니다.
`is_healthy`: 이 방법을 사용하여 모델은 독립적인 Docker 컨테이너로서와 Kubernetes와 같은 더 크고 복잡한 시스템의 일부로서 작동할 수 있습니다.

build 메서드 내에서 ‘compile_or_load_model_exe’ 함수가 호출됩니다. 이는 IPU에서 모델의 계산 그래프를 구성할 때 중요합니다. 이 부분이 중요합니다. 이 그래프를 생성하려면 초기 사용자 요청이 입력되어야 합니다. 이 작업에 대해서 첫 번째 실제 사용자 요청을 사용할 수 있지만, 계산 그래프 구축에는 1~2분 또는 그 이상이 소요될 수 있다는 점을 염두에 두십시오. 현재 사용자의 속도에 대한 기대를 고려하면, 이 지연은 중대한 결정 요인이 될 수 있습니다. 이를 해결하기 위해서 build 메서드는 그래프를 구성하기 위한 첫 번째 요청으로 사전 정의된 데이터를 받아들이도록 설계되었습니다. 이 설정에서는 초기 요청을 모방하기 위해서 ‘bootstrap.mp3’를 사용합니다.

4단계: 컨테이너 구축 및 게시

컨테이너를 구축하고 게시하며, 자체 Docker 레지스트리 주소 및 자격 증명을 지정합니다.

gc-ssf --config ssf_config.yaml build package publish --package-tag harbortest.cloud.gcorelabs.com/whisper/mkhl --docker-username gitlab --docker-password XXXXXXXXXX --container-server harbortest.cloud.gcorelabs.com

생성된 컨테이너에는 모델, FastAPI 래퍼, 초기 워밍업을 위한 bootstrap.mp3와 같은 필요한 모든 구성 요소가 포함됩니다. 이것은 Harbor 레지스트리로 푸시될 것입니다.

AI 모델, FastAPI 래퍼, 초기 워밍업을 위한 bootstrap.mp3를 포함한 Docker 컨테이너

5단계: 에지 노드에 배포

에지 노드에 배포하기 위해서 다음 명령을 사용합니다.

gc-ssf --stdout-log-level DEBUG deploy --config ssf_config.yaml --deploy-platform Gcore --port 8100 --deploy-gcore-target-address ai-inference-cluster-1 --deploy-gcore-target-username ubuntu --docker-username gitlab --docker-password XXXXXXXXXXX --package-tag harbortest.cloud.gcorelabs.com/whisper/mkhl:latest --deploy-package --container-server harbortest.cloud.gcorelabs.com

‘gc-ssf deploy’는 목표 호스트에서 명령을 실행하기 위해서 SSH를 사용하기 때문에 노드 간에 ‘ssh-key’를 사용하여 액세스해야 합니다.

이 파이프라인을 따르면 AI 모델을 배포하기 위한 견고한 프레임워크를 확립하여 효율적이면서도 쉽게 확장 가능하고 유지보수가 가능하도록 만들 수 있습니다.

더 지능적인 미래 추론

추론 AI의 성장하는 역할은 거대한 기술 회사에만 국한되지 않으며, 민첩성과 경쟁력을 목표로 하는 모든 조직에게 중요합니다. 이 기술에 대한 투자는 데이터 폭증 문제에 대한 확장 가능하고 진화하는 솔루션과의 전략적인 조화를 형성합니다. 추론 AI 서비스는 AI의 기술적 복잡성을 간소화하여 방대한 데이터를 효과적으로 탐색하고 의미 있고, 행동 가능한 통찰력을 추출할 수 있는 확장 가능하고 간소화된 방법을 제공하기 때문에 필수적인 비즈니스 도구로 자리 잡을 전망입니다.

Gcore가 추론 AI를 활용하는 방법

급증하고 있는 AI의 도입에도 불구하고, 여전히 시장에서는 전문화되고, 즉시 사용 가능하여 배포할 수 있는 AI 클러스터에 대한 수요 간극이 있다는 것을 인식합니다. Gcore는 빠른 글로벌 확장을 위해서 인프라 및 저지연 서비스를 제공하도록 설계되었습니다. 이는 머신 러닝 분야에서 가장 중요한 도전 과제 중 하나인 모델 개발에서 확장 가능한 배포로 전환을 해결합니다. Graphcore의 단순 서버 프레임워크를 사용하여 머신 러닝 모델을 실행하고 추론 AI를 통해 지속적으로 개선할 수 있는 환경을 구축합니다.

결론

추론 AI 서비스는 비즈니스 운영 방식을 변화시킬 수 있으며, 훈련된 데이터 모델을 기반으로 실시간으로 결정하고 예측할 수 있도록 합니다. 이 클라우드 기반 AI 서비스는 AI 생산 관리 과정을 간소화하며 성능을 최적화하고 AI 모델을 효율적으로 배포하는 과정을 용이하게 합니다. 이는 기업이 기민성과 경쟁력을 향상시키고자 하는 모든 조직에 흥미로운 전망을 제공하는 도구입니다.

Gcore의 강력하고 쉽게 배포할 수 있는 AI 클러스터는 효과적인 추론 AI 서비스를 위해 낮은 지연 시간과 높은 성능을 제공합니다. Graphcore의 단순 서버 프레임워크를 사용하여 Gcore는 머신 러닝 모델을 실행하고 추론 AI를 통해 지속적으로 개선할 수 있는 환경을 구축합니다. Gcore가 AI 생태계를 형성하는 방식을 심도 있게 이해하기 위해서 AI 인프라 문서를 참조하십시오.

AI IPU 살펴보기

클라우드와 만나는 지능: 서비스로서의 추론 AI

AI 모델 훈련 및 추론

효율적인 AI 생산 관리의 필요성

추론 AI 모델 배포 방법

준비

1단계: 가상 환경 설정

2단계: 필수 패키지 설치

3단계: 코드베이스

4단계: 컨테이너 구축 및 게시

5단계: 에지 노드에 배포

더 지능적인 미래 추론

Gcore가 추론 AI를 활용하는 방법

결론

목차

Try Gcore Edge & Cloud Platform

WAAP가 애플리케이션을 보호하는 방법

NVIDIA A100 대 H100 대 L40S 대 H200의 비교 분석

Azure Media Services에서 Gcore 스트리밍 플랫폼으로의 원활한 마이그레이션

더 빠른 AI/ML 추론을 위해 GPU 워커 노드를 활용한 관리형 Kubernetes

Gcore으로 이전: 중단된 CDN에서 원활한 전환

Looking Glass를 사용하여 서버 연결 평가: 포괄적인 가이드

클라우드 개발의 이점 살펴보기

Subscribe
to our newsletter

제품

제품

클라우드와 만나는 지능: 서비스로서의 추론 AI

AI 모델 훈련 및 추론

효율적인 AI 생산 관리의 필요성

추론 AI 모델 배포 방법

준비

1단계: 가상 환경 설정

2단계: 필수 패키지 설치

3단계: 코드베이스

4단계: 컨테이너 구축 및 게시

5단계: 에지 노드에 배포

더 지능적인 미래 추론

Gcore가 추론 AI를 활용하는 방법

결론

목차

Try Gcore Edge & Cloud Platform

Related articles

WAAP가 애플리케이션을 보호하는 방법

NVIDIA A100 대 H100 대 L40S 대 H200의 비교 분석

Azure Media Services에서 Gcore 스트리밍 플랫폼으로의 원활한 마이그레이션

더 빠른 AI/ML 추론을 위해 GPU 워커 노드를 활용한 관리형 Kubernetes

Gcore으로 이전: 중단된 CDN에서 원활한 전환

Looking Glass를 사용하여 서버 연결 평가: 포괄적인 가이드

클라우드 개발의 이점 살펴보기

Subscribe to our newsletter

Subscribe
to our newsletter