메뉴

[PRNewswire] 웨카, 대규모 AI 추론을 간소화하는 새로운 솔루션 청사진 공개

-- WARRP 레퍼런스 아키텍처는 RAG 기반 추론 환경의 개발을 가속화하는 포괄적인 모듈식 솔루션을 제공한다

 

애틀란타, 캘리포니아주 캠벨, 2024년 11월 20일 /PRNewswire=연합뉴스/ -- 슈퍼컴퓨팅 2024에서: AI 네이티브 데이터 플랫폼 기업 웨카(WEKA[https://www.weka.io/ ])는 엔터프라이즈 AI 추론 환경의 개발과 구현을 간소화하고 효율화하는 새로운 레퍼런스 아키텍처 솔루션을 선보였다. 웨카 AI RAG 레퍼런스 플랫폼(WARRP)은 생성형 AI(GenAI)개발자 및 클라우드 아키텍트에게 강력한 추론 인프라 프레임워크의 개발을 위한 설계 청사진을 제공한다. 이는 검색 증강 생성(RAG)을 통합하는 것으로, 대규모 언어 모델(LLM)이 외부 소스에서 새로운 데이터를 수집할 수 있도록 AI 추론 프로세스에서 사용되는 기술이다.

 

안전하고 신뢰할 수 있는 AI 운영 구축에 있어 RAG의 중요성

S&P 글로벌 마켓 인텔리전스가 최근 실시한 글로벌 AI 트렌드 연구[https://www.weka.io/resources/analyst-report/2024-global-trends-in-ai/ ]에 따르면, 생성형 AI는 기업에서 다른 모든 AI 애플리케이션을 제치고 가장 많이 채택된 AI 방식으로 빠르게 부상했다. [1]

 

기업이 LLM을 배포할 때 직면하는 주요 과제는 여러 환경과 외부 소스에서 새로운 데이터를 효과적으로 검색하고 상황에 맞게 구성하여 AI 추론을 지원할 수 있도록 하는 것이다. RAG는 AI 추론을 위한 선도적인 기술이며, 외부 데이터 소스에서 새로운 인사이트를 안전하게 검색하여 학습된 AI 모델을 향상시키는 데 사용된다. 추론 프로세스에서 RAG를 사용하면 AI 모델의 착시를 줄이고 출력의 정확도, 신뢰성 및 풍부함을 개선하여 비용이 많이 드는 재학습 주기를 줄일 수 있다.

 

그러나 아키텍처, 모범 사례, 도구, 테스트 전략이 여전히 빠르게 진화하고 있기 때문에, 대규모로 RAG 프레임워크를 지원할 수 있는 강력한 프로덕션 지원 추론 환경을 구축하는 것은 복잡하고 어려운 일이다.

 

추론 가속화를 위한 포괄적인 청사진

웨카는 WARRP를 통해 인프라에 구애받지 않는 퍼런스 아키텍처를 정의했으며, 이를 활용하여 프로덕션 품질의 고성능 RAG 솔루션을 대규모로 구축하고 배포할 수 있다.

 

고객이 RAG 기반의 AI 추론 파이프라인을 신속하게 구축하고 구현할 수 있도록 설계된 WARRP는 워크로드 이동성, 분산된 글로벌 데이터센터 및 멀티클라우드 환경에 최적화된 세계적 수준의 AI 추론 환경을 신속하게 개발하고 배포하는 데 사용할 수 있는 모듈식 구성 요소의 포괄적인 청사진을 제공한다.

 

WARRP 레퍼런스 아키텍처는 고객이 선호하는 클라우드나 서버 하드웨어에서 실행되는 웨카® 데이터 플랫폼 소프트웨어를 기본 계층으로 구축한다. 그런 다음 엔비디아 AI 엔터프라이즈[https://www.nvidia.com/en-us/data-center/products/ai-enterprise/?srsltid=AfmBOoqzLFI8obyVX-0zM_RC5pOZqmqZssXJAGbke1S9aPZOvu9NCzJ6 ] 소프트웨어 플랫폼의 일부인 엔비디아NIM™[https://www.nvidia.com/en-us/ai/#referrer=ai-subdomain ] 마이크로서비스 및 엔비디아NeMo™ 리트리버[https://www.nvidia.com/en-us/ai-data-science/products/nemo/?srsltid=AfmBOoo1mcc3G_J135vtYbqTVYknOPgcc3WyTvruRo8bX-UDUzJg7nz7 ]를 비롯한 엔비디아[https://www.nvidia.com/ko-kr/ ]의 동급 최고의 엔터프라이즈 AI 프레임워크, 런(Run):ai[https://www.run.ai/ ]의 고급 AI 워크로드 및 GPU 오케스트레이션 기능, 데이터 오케스트레이션용 쿠버네티스, 데이터 수집용 밀버스 벡터 DB 등 인기 있는 상용 및 오픈 소스 데이터 관리 소프트웨어 기술을 통합한다.

 

웨카의 최고 기술 책임자 시몬 벤 데이비드(Shimon Ben-David)는 "2023년 생성형 AI 기술의 첫 번째 물결이 기업에 도입되기 시작했을 때, 대부분 조직의 컴퓨팅 및 데이터 인프라 리소스는 AI 모델 학습에 집중되어 있었다"면서 "생성형 AI 모델과 애플리케이션이 성숙해지면서, 많은 기업이 이러한 리소스를 전환하여 추론에 집중하도록 준비를 하고 있지만, 어디서부터 시작해야 할지 모르는 경우가 많다"며, "대규모로 AI 추론을 실행하는 것은 매우 어려운 일이다. 당사는 웨카, 엔비디아, 런:ai, 쿠버네티스, 밀버스 등의 선도적인 AI 및 클라우드 인프라 솔루션을 기반으로 웨카 AI RAG 아키텍처 플랫폼을 개발하여, 엔터프라이즈 AI 모델 실행의 정확성, 보안 및 비용을 개선하기 위해 RAG 구현 프로세스를 간소화하는 강력한 프로덕션 지원 청사진을 제공하고 있다"고 말했다.

 

WARRP는 다양한 LLM 배포를 지원할 수 있는 유연한 모듈식 프레임워크를 제공하여, 프로덕션 환경에서 확장성, 적응성 및 탁월한 성능을 제공한다. 주요 이점은 다음과 같다.

 

- 프로덕션 지원 추론 환경을 더 빠르게 구축한다: 생성형 AI 개발자와 클라우드 아키텍트는 WARRP의 인프라와 클라우드에 구애받지 않는 아키텍처를 사용하여, 생성형 AI 애플리케이션 개발을 간소화하고 추론 작업을 대규모로 더 빠르게 실행할 수 있다. 이는 조직의 기존 및 향후 AI 인프라 구성 요소, 크고 작은 언어 모델, 선호하는 서버, 하이퍼스케일 또는 전문 AI 클라우드 제공업체와 원활하게 통합되어, 조직이 AI 추론 스택을 설계할 때 탁월한 유연성과 선택권을 갖게 한다.

- 하드웨어, 소프트웨어, 클라우드에 구애받지 않는다: WARRP의 모듈식 설계는 대부분의 주요 서버 및 클라우드 서비스 제공업체를 지원한다. 이 아키텍처는 AI 실무자가 선호하는 하이퍼스케일 클라우드 플랫폼, AI 클라우드 서비스 또는 내부 서버 하드웨어에서 최소한의 구성 변경을 통해 동일한 워크로드를 실행할 수 있도록 함으로써, 조직이 성능 저하 없이 워크로드 이동성을 쉽게 달성할 수 있도록 해준다. 공용, 민간 또는 하이브리드 클라우드 등 어떤 환경에 배포되든, AI 파이프라인은 안정적인 동작과 예측 가능한 결과를 보여주며, 하이브리드 및 멀티클라우드 운영을 간소화한다.

- 엔드투엔드 AI 추론 스택을 최적화한다: 특히 대규모 모델 리포지토리와 복잡한 AI 워크로드를 처리할 때, RAG 파이프라인을 실행하는 것은 매우 까다로울 수 있다. 조직은 특히 다중 모델 추론 시나리오에서 웨카 데이터 플랫폼을 AI 추론 스택에 통합함으로써 성능 향상을 크게 도모할 수 있다. 모델을 효율적으로 로드하고 언로드하는 웨카 데이터 플랫폼의 기능은 특히 여러 AI 모델을 포함하는 복잡한 연쇄 추론 워크플로우에서, 사용자 프롬프트에 대한 토큰을 더욱 가속화하고 효율적으로 전달한다.

 

런:ai의 최고 기술 책임자 로넨 다르(Ronen Dar)는 "AI 도입이 가속화되면서 프로덕션 워크로드를 대규모로 배포할 수 있는 간소화된 방법이 절실히 요구되고 있다. 한편, RAG 기반 추론은 AI 혁신 경쟁에서 중요한 영역으로 떠오르며, 조직의 기본 데이터 인프라에 대한 새로운 고려 사항을 제시하고 있다"면서 "WARRP 레퍼런스 아키텍처는 추론 환경을 구축하는 고객에게 탁월한 솔루션을 제공하여, 민간, 공용 및 하이브리드 클라우드 환경 전반에서 GPU 활용도를 극대화하기 위해 엔비디아, 웨카 및 런:ai의 업계 최고의 구성 요소를 사용하여 빠르고 유연하며 안전하게 개발할 수 있는 필수 청사진을 제공한다. 이 조합은 AI 혁신의 최전선에서 경쟁사를 앞서고자 하는 고객에게 윈윈이 될 것이다"고 말했다.

 

엔비디아의 엔터프라이즈 생성 AI 소프트웨어 담당 디렉터인 아만다 손더스(Amanda Saunders)는 "기업들은 데이터를 활용하여 RAG 파이프라인을 구축하고 배포할 수 있는 간단한 방법을 찾고 있다"면서 "웨카와 함께 엔비디아 NIM 및 NeMo를 사용하면 기업 고객은 고성능 AI 추론 및 RAG 작업을 대규모로 개발하고 배포하며 실행할 수 있는 빠른 경로를 확보할 수 있다"고 말했다.

 

https://www.weka.io/resources/reference-architecture/warrp-weka-ai-rag-reference-platform/ 을 방문하면, WARRP 레퍼런스 아키텍처의 첫 번째 릴리스를 무료로 다운로드할 수 있다.

 

슈퍼컴퓨팅 2024 참석자는 부스 #1931의 웨카를 방문하여 자세한 내용과 새로운 솔루션의 데모 버전을 확인할 수 있다.

 

AI 클라우드 서비스 제공업체 언급

 

어플라이드 디지털(Applied Digital)

어플라이드 디지털의 최고 기술 책임자 마이크 매니스칼코(Mike Maniscalco)는 "점점 더 많은 기업이 고객과 직원의 역량을 강화하기 위해 고급 AI 및 생성형 AI 추론을 활용하면서, 단순성, 기능성 및 효율성을 향상시키는 데 RAG를 활용하는 이점을 인식하고 있다"면서 "웨카의 WARRP 스택은 강력한 엔비디아 기술과 안정적이고 확장 가능한 클라우드 인프라의 지원을 받아 RAG 파이프라인을 대규모 프로덕션 배포에 적용하는 데 매우 유용한 레퍼런스 프레임워크를 제공한다"고 말했다.

 

오리 클라우드(Ori Cloud)

오리 클라우드의 설립자 겸 CEO인 마흐디 야히야(Mahdi Yahya)는 "선도적인 생성형 AI 기업들이 세계 최대 규모의 LLM을 학습하기 위해 오리 클라우드에서 실행하고 있으며, 웨카 데이터 플랫폼과의 통합 덕분에 GPU 활용도를 극대화하고 있다"면서 "웨카와 협력하여 WARRP 아키텍처를 사용한 강력한 추론 솔루션을 구축함으로써, 오리 클라우드 고객이 RAG 파이프라인의 이점을 극대화하여 AI 혁신을 가속화할 수 있기를 기대한다"고 말했다.

 

웨카

웨카는 AI 시대를 위해 구축된 기업 데이터 스택에 대한 새로운 방식을 설계하고 있다. 웨카® 데이터 플랫폼은 클라우드와 어디에나 설치할 수 있는 AI 기반 아키텍처가 갖춰진 AI 인프라의 표준을 설정함으로써 온- 프레미스, 클라우드와 엣지 환경에서 데이터를 원활하게 이동할 수 있게 한다. 이 플랫폼은 종래의 데이터 사일로를 GPU, AI 모델 트레이닝과 추론 그리고 기타 성능 집약적인 워크로드를 가속하는 동적 데이터 파이프라인으로 변환하여 보다 효율적으로 작업하고 에너지를 덜 소비하며 관련 탄소 배출량을 줄일 수 있도록 지원한다. 웨카는 전세계에서 가장 혁신적인 기업과 연구 조직들이 복잡한 데이터 문제를 해결하여 더 빠르고 지속 가능하게 발견, 통찰과 결과에 도달할 수 있도록 해주는데 여기에는 포춘 50대 기업 중 12개가 포함되어 있다. 상세 정보가 필요할 경우 www.weka.io를 방문하거나 링크트인[https://www.linkedin.com/company/weka-io/ ], X[https://x.com/WekaIO ]와 페이스북[https://www.facebook.com/WEKADataPlatform ]에서 웨카와 연결하기 바란다.

 

WEKA와 WEKA 로고는 웨카아이오 주식회사의 등록상표이다. 여기에서 사용된 기타 트레이드 명칭들은 그들 각 소유자들의 상표일 수도 있다.

 

[1] 2024 글로벌 AI 트렌드, 2024년 9월, S&P 글로벌 마켓 인텔리전스

 

사진 - https://mma.prnewswire.com/media/2561543/4304845.jpg

Introducing WARRP (PRNewsFoto/WekaIO)

 

로고 - https://mma.prnewswire.com/media/1796062/WEKA_v1_Logo.jpg

WEKA (PRNewsfoto/WekaIO)

 

출처: WekaIO

 

WEKA Debuts New Solution Blueprint to Simplify AI Inferencing at Scale

 

-- WARRP Reference Architecture Provides Comprehensive Modular Solution That Accelerates the Development of RAG-based Inferencing Environments

 

ATLANTA and CAMPBELL, Calif. Nov. 20, 2024 /PRNewswire/ -- From Supercomputing 2024: WEKA [https://www.weka.io/ ], the AI-native data platform company, debuted a new reference architecture solution to simplify and streamline the development and implementation of enterprise AI inferencing environments. The WEKA AI RAG Reference Platform (WARRP) provides generative AI (GenAI) developers and cloud architects with a design blueprint for the development of a robust inferencing infrastructure framework that incorporates retrieval-augmented generation (RAG), a technique used in the AI inference process to enable large language models (LLMs) to gather new data from external sources.

 

The Criticality of RAG in Building Safe, Reliable AI Operations

According to a recent study of global AI trends [https://www.weka.io/resources/analyst-report/2024-global-trends-in-ai/ ] conducted by S&P Global Market Intelligence, GenAI has rapidly emerged as the most highly adopted AI modality, eclipsing all other AI applications in the enterprise.[1]

 

A primary challenge enterprises face when deploying LLMs is ensuring they can effectively retrieve and contextualize new data across multiple environments and from external sources to aid in AI inference. RAG is the leading technique for AI inference, and it is used to enhance trained AI models by safely retrieving new insights from external data sources. Using RAG in the inferencing process can help reduce AI model hallucinations and improve output accuracy, reliability and richness, reducing the need for costly retraining cycles.

 

However, creating robust production-ready inferencing environments that can support RAG frameworks at scale is complex and challenging, as architectures, best practices, tools, and testing strategies are still rapidly evolving.

 

A Comprehensive Blueprint for Inferencing Acceleration

With WARRP, WEKA has defined an infrastructure-agnostic reference architecture that can be leveraged to build and deploy production-quality, high-performance RAG solutions at scale.

 

Designed to help organizations quickly build and implement RAG-based AI inferencing pipelines, WARRP provides a comprehensive blueprint of modular components that can be used to quickly develop and deploy a world-class AI inference environment optimized for workload portability, distributed global data centers and multicloud environments.

 

The WARRP reference architecture builds on WEKA® Data Platform [https://www.weka.io/data-platform/ai-native-data-platform/ ] software running on an organization's preferred cloud or server hardware as its foundational layer. It then incorporates class-leading enterprise AI frameworks from NVIDIA [https://www.nvidia.com/ko-kr/ ] ? including NVIDIA NIM™ [https://www.nvidia.com/en-us/ai/#referrer=ai-subdomain ] microservices and NVIDIA NeMo™ Retriever [https://www.nvidia.com/en-us/ai-data-science/products/nemo/?srsltid=AfmBOoo1mcc3G_J135vtYbqTVYknOPgcc3WyTvruRo8bX-UDUzJg7nz7 ], both part of the NVIDIA AI Enterprise [https://www.nvidia.com/en-us/data-center/products/ai-enterprise/?srsltid=AfmBOoqzLFI8obyVX-0zM_RC5pOZqmqZssXJAGbke1S9aPZOvu9NCzJ6 ] software platform - advanced AI workload and GPU orchestration capabilities from Run:ai [https://www.run.ai/ ] and popular commercial and open-source data management software technologies like Kubernetes for data orchestration, and Milvus Vector DB for data ingestion.

 

"As the first wave of generative AI technologies began moving into the enterprise in 2023, most organizations' compute and data infrastructure resources were focused on AI model training. As GenAI models and applications have matured, many enterprises are now preparing to shift these resources to focus on inferencing but may not know where to begin," said Shimon Ben-David, chief technology officer at WEKA. "Running AI inferencing at scale is extremely challenging. We are developing the WEKA AI RAG Architecture Platform on leading AI and cloud infrastructure solutions from WEKA, NVIDIA, Run:ai, Kubernetes, Milvus, and others to provide a robust production-ready blueprint that streamlines the process of implementing RAG to improve the accuracy, security and cost of running enterprise AI models."

 

WARRP delivers a flexible, modular framework that can support a variety of LLM deployments, offering scalability, adaptability, and exceptional performance in production environments. Key benefits include:

 

- Build a Production-Ready Inferencing Environment Faster: WARRP's infrastructure and cloud-agnostic architecture can be used by GenAI developers and cloud architects to streamline GenAI application development and run inferencing operations at scale faster. It seamlessly integrates with an organization's existing and future AI infrastructure components, large and small language models, and preferred server, hyperscale or specialty AI cloud providers, giving organizations exceptional flexibility and choice in architecting their AI inference stack.

- Hardware, Software, and Cloud Agnostic: WARRP's modular design supports most major server and cloud service providers. The architecture enables organizations to easily achieve workload portability without compromising performance by allowing AI practitioners to run the same workload on their preferred hyperscale cloud platform, AI cloud service, or on-premises server hardware with minimal configuration changes. Whether deployed in a public, private, or hybrid cloud environment, AI pipelines demonstrate stable behavior and predictable results, simplifying hybrid and multicloud operations.

- End-to-End AI Inferencing Stack Optimization: Running RAG pipelines can be highly demanding, especially when dealing with large model repositories and complex AI workloads. Organizations can achieve significant performance improvements by integrating the WEKA Data Platform into their AI inferencing stack, particularly in multi-model inference scenarios. The WEKA Data Platform's ability to load and unload models efficiently further accelerates and efficiently delivers tokens for user prompts, particularly in complex, chained inference workflows involving multiple AI models.

 

"As AI adoption accelerates, there is a critical need for simplified ways to deploy production workloads at scale. Meanwhile, RAG-based inferencing is emerging as an important frontier in the AI innovation race, bringing new considerations for an organization's underlying data infrastructure," said Ronen Dar, chief technology officer at Run:ai. "The WARRP reference architecture provides an excellent solution for customers building an inference environment, providing an essential blueprint to help them develop quickly, flexibly and securely using industry-leading components from NVIDIA, WEKA and Run:ai to maximize GPU utilization across private, public and hybrid cloud environments. This combination is a win-win for customers who want to outpace their competition on the cutting edge of AI innovation."

 

"Enterprises are looking for a simple way to embed their data to build and deploy RAG pipelines," said Amanda Saunders, director of Enterprise Generative AI software, NVIDIA. "Using NVIDIA NIM and NeMo with WEKA, will give enterprise customers a fast path to develop, deploy and run high-performance AI inference and RAG operations at scale."

 

The first release of the WARRP reference architecture is now available for free download. Visit https://www.weka.io/resources/reference-architecture/warrp-weka-ai-rag-reference-platform/ to obtain a copy.

 

Supercomputing 2024 attendees can visit WEKA in Booth #1931 for more details and a demo of the new solution.

 

Supporting AI Cloud Service Provider Quotes

 

Applied Digital

"As companies increasingly harness advanced AI and GenAI inferencing to empower their customers and employees, they recognize the benefits of leveraging RAG for greater simplicity, functionality and efficiency," said Mike Maniscalco, chief technology officer at Applied Digital. "WEKA's WARRP stack provides a highly useful reference framework to deliver RAG pipelines into a production deployment at scale, supported by powerful NVIDIA technology and reliable, scalable cloud infrastructure."

 

Ori Cloud

"Leading GenAI companies are running on Ori Cloud to train the world's largest LLMs and achieving maximum GPU utilization thanks to our integration with the WEKA Data Platform," said Mahdi Yahya, founder and chief executive officer at Ori Cloud. "We look forward to working with WEKA to build robust inference solutions using the WARRP architecture to help Ori Cloud customers maximize the benefits of RAG pipelines to accelerate their AI innovation."

 

Yotta

"To run AI effectively, speed, flexibility, and scalability are required. Yotta's AI solutions, powered by NVIDIA GPUs and built on the WEKA Data Platform, are helping organizations to push the boundaries of what's possible in AI, offering unparalleled performance and flexible scale," said Sunil Gupta, chief executive officer at Yotta. "We look forward to collaborating with WEKA to further enhance our Inference-as-a-Service offerings for natural-language processing, computer vision, and generative AI leveraging the WARRP reference architecture and NVIDIA NIM microservices."

 

About WEKA

WEKA is architecting a new approach to the enterprise data stack built for the AI era. The WEKA® Data Platform sets the standard for AI infrastructure with a cloud and AI-native architecture that can be deployed anywhere, providing seamless data portability across on-premises, cloud, and edge environments. It transforms legacy data silos into dynamic data pipelines that accelerate GPUs, AI model training and inference, and other performance-intensive workloads, enabling them to work more efficiently, consume less energy, and reduce associated carbon emissions. WEKA helps the world's most innovative enterprises and research organizations overcome complex data challenges to reach discoveries, insights, and outcomes faster and more sustainably - including 12 of the Fortune 50. Visit www.weka.io to learn more or connect with WEKA on LinkedIn [https://www.linkedin.com/company/weka-io/ ], X [https://x.com/WekaIO ], and Facebook [https://www.facebook.com/WEKADataPlatform ].

 

WEKA and the WEKA logo are registered trademarks of WekaIO, Inc. Other trade names used herein may be trademarks of their respective owners.

 

[1] 2024 Global Trends in AI, September 2024, S&P Global Market Intelligence

 

Photo - https://mma.prnewswire.com/media/2561543/4304845.jpg

Introducing WARRP (PRNewsFoto/WekaIO)

 

Logo - https://mma.prnewswire.com/media/1796062/WEKA_v1_Logo.jpg

WEKA (PRNewsfoto/WekaIO)

 

Source: WekaIO

 

[편집자 주] 이 보도자료는 자료 제공사에서 제공한 것으로, 연합뉴스는 내용에 대해 어떠한 편집도 하지 않았으며, 연합뉴스의 편집방향과는 무관함을 밝혀 드립니다.

(끝)

 

출처 : PRN 보도자료