Think Magazine Blog

La crescita di IBM Storage Ceph: la base ideale per un moderno data lakehouse
By Raniero Ronchese |
febbraio 22, 2024

Molte organizzazioni stanno intraprendendo progetti di trasformazione digitale in risposta alle nuove sfide locali e globali. L’intelligenza artificiale (AI) e l’automazione permettono di...

Molte organizzazioni stanno intraprendendo progetti di trasformazione digitale in risposta alle nuove sfide locali e globali. L’intelligenza artificiale (AI) e l’automazione permettono di semplificare i modelli operativi, aumentare la produttività , prendere decisioni importanti in minor tempo , svolgere attività a più alto valore aggiunto. E’ altrettanto cruciale adottare infrastrutture e architetture “cloud-native” che abilitino tali progetti,  al fine di sfruttare i vantaggi del cloud pubblico e ibrido , quali il contenimento dei costi, velocità ed elasticità.

Nell’ambito di tali iniziative , le organizazioni devono affrontare sfide senza precedenti relative ai dati , dovute alla rapida crescita dei dati stessi , memorizzati in più location , in più formati e spesso di bassa qualità . Aiutare i clienti significa modernizzare la loro infrastruttura con soluzioni all'avanguardia che diventano la base delle loro trasformazioni digitali. In larga misura, questo implica la fornitura di applicazioni e soluzioni storage disponibili sia in ambienti on-premise che cloud.

E’ necessario adottare soluzioni storage in grado di fornire servizi di gestione del dato (data services) unificati e consistenti ovunque i dati risiedano , on-premise e in ambienti cloud pubblici.

IBM ha investito risorse in termini economici e di capitale umano nello sviluppo di un ampio portafoglio di tali soluzioni storage a valore, rilasciando funzionalità di analisi e integrazione dei dati che sfruttano strumenti di intelligenza artificiale.

RedHat Ceph – ora IBM Storage Ceph - è una piattaforma open-source e software defined storage in grado di assicurare servizi di gestione del dato unificati e consistenti su larga scala indipendentemente dalla distribuzione dei dati.

L'SDS (software - defined storage) è emerso come forza trasformativa nella gestione dei dati, offrendo una serie di vantaggi rispetto ai tradizionali array di storage legacy, tra cui un'estrema flessibilità e scalabilità, adatte a gestire casi d'uso moderni come l'AI generativa. Con IBM Storage Ceph, le risorse di storage sono astratte dall'hardware sottostante, consentendo un'allocazione dinamica e un utilizzo efficiente dello storage. Questa flessibilità non solo semplifica la gestione, ma migliora anche l'agilità nell'adattarsi alle esigenze dei business aziendali in continua evoluzione e nello scalare la potenza elaborativa  e la capacità dello storage man mano che vengono introdotti nuovi carichi di lavoro.

La piattaforma IBM Storage Ceph , in grado di autoripararsi e autogestirsi automaticamente in modalità self-healing e self-managing , è progettata per fornire servizi di storage “unified”  , ovvero file storage , block storage e object storage unificati su larga scala e su hardware standard di mercato.[1] Lo storage unifiied aiuta i clienti a passare da applicazioni legacy che girano su storage a file (file storage) o storage a blocchi (block storage) , indipendenti e separati , a una piattaforma unica che includa questi e lo storage a oggetti (object storage) in un'unico appliance.

IBM Storage Ceph è ottimizzato per grandi implementazioni su singolo sito e multisito e può scalare in modo efficiente per supportare centinaia di petabyte di dati e decine di miliardi di oggetti,[2] aspetto fondamentale per i carichi di lavoro tradizionali e per quelli più recenti di AI generativa. La scalabilità, la resilienza e la sicurezza di IBM Storage Ceph lo rendono ideale per supportare i data lakehouse e i framework open source AI/ML, oltre a carichi di lavoro più tradizionali come MySQL e MongoDB su Red Hat OpenShift o RedHat OpenStack. È uno dei motivi per cui IBM Storage Ceph è incluso con licenza fino a 768 TiB Raw in watsonx.data, l'architettura data lakehouse di IBM anch’essa basata su open source e standard aperti , ottimizzata per soluzioni di big data , analytics e carichi di lavoro AI. 

La base ideale per carichi Compute-Intensive e Data-Intensive

La crescita esplosiva dei dati non strutturati e l'AI generativa condividono una relazione simbiotica, in cui ciascun elemento influenza e offre vantaggi all'altro. Nel suo report Top Trends in Enterprise Data Storage 2023, Gartner afferma che "entro il 2028, le grandi aziende triplicheranno la loro capacità di dati non strutturati nelle loro sedi on premise, edge e in cloud pubblico, rispetto al primo semestre 2023".[3] La proliferazione di dati non strutturati, come testo, immagini e video, fornisce una fonte ampia e diversificata per il training dei modelli di AI generativa. A sua volta, l'AI generativa aiuta a comprendere ed estrarre preziose informazioni e insights da pool di dati non strutturati in continua espansione. Questa sinergia si traduce in un ciclo in cui l'AI generativa prospera sull'abbondanza di dati non strutturati e la continua generazione di dati realistici da parte dell'AI arricchisce e perfeziona ulteriormente la comprensione dei dataset non strutturati, promuovendo innovazione e progresso.

Secondo lo stesso report di Gartner, si prevede che entro il 2028 il 70% dei dati di file e oggetti sarà distribuito su una piattaforma consolidata di storage di dati non strutturati (rispetto al 35% del 2023), pertanto [4] le organizzazioni hanno bisogno di una soluzione di gestione dello storage in grado di accelerare l'inserimento dei dati, la pulizia , preparazione e la classificazione dei dati, la gestione e l'ampliamento dei metadati e la gestione e la distribuzione della capacità su scala cloud, come l'SDS (software-defined storage). IBM Storage Ceph scala perfettamente per soddisfare queste crescenti richieste di dati. Le sue capacità di gestione automatica , self-healing , self-managing , assicurano che il sistema si adatti continuamente a condizioni in continua evoluzione, rendendo la soluzione priva di problemi, mantenendo facilmente l'integrità dei dati.

Per accelerare e scalare l'impatto dei dati e dell'AI all'interno di un'organizzazione e, in ultima analisi, migliorare i risultati di business, le aziende devono essere ibride per definizione. Questo include la possibilità di consumare servizi di storage on-prem con un modello operativo cloud-native. L'architettura plug-and-play di IBM Storage Ceph semplifica e consolida lo storage per varie piattaforme, ambienti cloud, hypervisors, repository di dati open source come Apache Iceberg o Apache Parquet e stack di soluzioni complete come watsonx.ai, watsonx.data e altre. IBM Storage Ceph è inoltre scalabile aggiungendo facilmente nuovi nodi o device al cluster, senza interruzioni o tempi di inattività del servizio. ​Offre ai clienti un modo semplice ed efficace per creare un data lakehouse con watsonx.data e altri carichi di lavoro AI di nuova generazione. 

"In Snap, abbiamo sempre più esigenza di archiviare un numero sempre maggiore di dati e abbiamo bisogno di una piattaforma in grado di scalare rapidamente, soddisfare i nostri KPI di prestazioni ed essere, allo stesso tempo, economicamente conveniente. IBM Storage Ceph è la piattaforma preferita grazie alla sua architettura semplice e scalabile, all'interfaccia facile da gestire e alla implementazione software-defined a costi contenuti. Avere l’esperienza e il supporto di livello mondiale di IBM è un'altra parte importante della nostra decisione di utilizzare IBM Storage Ceph per una componente così critica del nostro business." -- Snap Inc.

Rapido accesso ai dati con NVMe su TCP

Nell'ultimo anno, IBM ha introdotto diversi importanti aggiornamenti a Ceph, tra cui, più recentemente, IBM Storage Ceph 7.0. Questa piattaforma Ceph di nuova generazione si prepara per le funzionalità NVMe/TCP progettate per consentire un più rapido trasferimento dei dati tra dispositivi di storage, server e piattaforme cloud, mantenendo le caratteristiche di bassa latenza ed elevata larghezza di banda dell’ NVMe tradizionale. Questo lo rende adatto per le applicazioni che richiedono un accesso storage ultra-veloce, come database, analytics e distribuzione di contenuti, e semplifica l'infrastruttura grazie alla sua compatibilità con gli investimenti di tecnologia di rete tradizionali. Questi vantaggi aiuteranno i clienti ad adottare un approccio software-defined progettato per offrire un'esperienza simile al cloud in termini di velocità, agilità ed economia.

NVMe/TCP può aiutare Ceph a colmare il divario per lo storage a blocchi tradizionale con architetture a scalabilità orizzontale scale-out . Con NVMe/TCP, Ceph sarà progettato per essere integrato con piattaforme come VMware per aiutare le aziende a replicare le architetture cloud nel loro data center, allontanandosi dalle costose e rigide reti SAN e dagli array di storage monolitici.

Ulteriori nuove funzioni incluse in Ceph 7.0:

  • Certificazione di conformità SEC e FINRA per WORM con object lock, che consente la conformità WORM per l'object storage
  • Supporto NFS per l'accesso al file system CephFS per client Ceph non nativi
  • Per ulteriori dettagli sulle funzioni, visitare la community IBM Storage qui

Economie di scala del cloud con IBM Storage Ceph

Poiché IBM Storage Ceph archivia i dati come oggetti all'interno di pool di storage logici, un singolo cluster può avere più pool, ognuno customizzato in base ai diversi requisiti di prestazioni o capacità. Ciò consente ai clienti di beneficiare di un accesso più semplice e rapido ai dati con classificazioni di contenuti e contesti, di una capacità di storage limitata solo dalle dimensioni dell'infrastruttura di un'organizzazione e della riduzione dei costi su larga scala grazie alla rimozione delle limitazioni hardware rispetto alle architetture di array di storage tradizionali e legacy.

Accelera il time to value

IBM ha reso la distribuzione di Ceph più semplice che mai. Con IBM Storage Ready Nodes for Ceph, la piattaforma Ceph può essere implementata come una soluzione software e hardware completa e viene fornita in una varietà di configurazioni differenti in termini di capacità , ottimizzate per l'esecuzione di carichi di lavoro .

La crescita di IBM Storage Ceph è solo un altro esempio di come il portafoglio hardware e software storage di IBM fornisca un time to value più rapido con capacità e prestazioni scalabili e ottimizzazione dei costi per i clienti.

Ulteriori informazioni su  IBM STORAGE CEPH


1,2 https://www.redhat.com/en/resources/data-solutions-overview

3, 4 Top Trends in Enterprise Data Storage 2023; Chandra Mukhyala, Julia Palmer, Jeff Vogel; June 29, 2023

Think Magazine

thinkMagazine | # 6

TECH FOR REAL

Tecnologia e competenze per affrontare e vincere le sfide di oggi e di domani.
 

Download

 

thinkMagazine | # 5

LET’S CREATE TOGETHER

Digital e Green, le migliori energie per un paese più inclusivo e pronto al futuro
 

Download

 

thinkMagazine | # 4

SUSTAINABLE GROWTH

Tecnologia e capitale umano per lo sviluppo sostenibile e la rinascita dell'Italia
 

Download

 

thinkMagazine | # 3

GOOD TECH

Tutto il buono dell'innovazione per la sostenibilità del business o dell'ambiente
 

Download

 

thinkMagazine | # 2

DIGITAL REINVENTION

IBM Studios, Nuova energia per l'innovazione in Italia
 

<

Download

 

thinkMagazine | #1

AUGUMENTED INTELLIGENCE

Capitale umano, competenze e tecnologie esponenziali per accellerare l'Italia
 

Download