le 5v dei big data

Le 5v dei big data: le caratteristiche di una massa di dati

Tutti i grandi colossi digitali fanno uso dei big data. Ma come si definisce una massa di dati? Bisogna considerare le 5v dei big data.

Prima di entrare nel dettaglio, iniziamo col dire che si parla di volume, velocità, varietà, veridicità e valore. Queste sono le cinque caratteristiche principali individuate dai grandi colossi per definire il sistema di catalogazione e conservazione di tutti i dati ricavati attraverso gli utenti.

Il nome stesso che li definisce, big data, indica infatti una dimensione elevata di dati. Quando i dati sono tanti diventa indispensabile gestirli con criterio.

Questa mole enorme di informazioni non può essere gestita con metodi convenzionali poiché queste ultime non solo vengono raccolte da una varietà di meccanismi tra cui software, sensori, dispositivi e altro hardware, ma crescono anche con gli anni man mano che la potenza di calcolo diventa più economica e accessibile. Una gestione manuale di queste quantità di dati è impensabile.

In questo articolo esaminiamo quali dati possono far parte della categoria dei big data, quali sono le componenti che determinano le velocità di acquisizione, quali differenti nature possono avere, qual è il livello di veridicità dei dati e ultimo ma più importante, qual’ è il loro. Infine vediamo perché conoscerli è importante per qualsiasi azienda.

rappresentazione-di-ingegneri-che-lavorano-su-server-che-contengono-big-data

Scopriamo meglio le 5v dei big Data:

Volume dei big data

Il volume si riferisce esattamente alla grandezza dei dati. Per esempio, nel 2016, il traffico mobile globale stimato era di 6,2 Exabyte (6,2 miliardi di GB) al mese. È stimato che entro la fine del 2020 avremo quasi 40000 ExaByte di dati.

I grandi del tech come Amazon ottengono dati in tempo reale, ogni secondo da milioni di utenti. Eseguono elaborazioni dei dati quasi in tempo reale e dopo aver eseguito algoritmi di apprendimento automatico prendono decisioni per fornire la migliore esperienza al cliente.

Velocità

Per velocità si intende invece la rapidità nell’accumulazione dei dati. I dati fluiscono da fonti come macchine, reti, social media, telefoni cellulari ecc.

Il flusso è costante e continuo e determina il potenziale rispetto alla velocità con cui i dati vengono generati ed elaborati per soddisfare le richieste.

I dati di campionamento possono aiutare nell’affrontare problemi come la “velocità”.

Esempio: su Google vengono effettuate più di 3,5 miliardi di ricerche al giorno. Inoltre, gli utenti di FaceBook aumentano del 22% (circa) di anno in anno.

Se prendiamo in esame sempre una piattaforma di social network e immaginiamo miliardi di persone che caricano giornalmente, a tutte le ore, contenuti di vario tipo come foto, video e testi, la velocità coi quali questi dati vengono trasferiti dai dispositivi degli utenti ai server dell’azienda definisce la velocità stessa.

Si parla quindi di velocità di trasferimento dei dati.

Varietà

Un’altra variabile di cui è necessario tener conto è la varietà. Quest’ultima si riferisce alla natura dei dati:

  • strutturati: sono dati organizzati e si riferisce a informazioni che hanno definito la lunghezza e il formato dei dati.
  • semistrutturati: sono dati semi-organizzati ed è una forma che non è conforme alla struttura formale dei dati. I file di registro sono gli esempi di questo tipo di dati.
  • non strutturati: questi sono dati non organizzati e che quindi non si adattano perfettamente alla tradizionale struttura di righe e colonne del database relazionale. Testi, immagini, video, ecc. Sono esempi di dati non strutturati che non possono essere archiviati sotto forma di righe e colonne.

I dati del mondo reale non sono omogenei e la difficoltà per chi deve gestirli e riuscire a catalogarli in maniera ordinata. Video, foto, didascalie ma anche un commento e un collegamento ipertestuale, tutti collegati tra loro, possono rappresentare una vera sfida per chi si occupa di progettare e analizzare i dati.

Veridicità

Organizzare i dati non sempre (anzi potremmo dire quasi mai) si rivela un’operazione semplice poiché vengono a crearsi delle incongruenze, ridondanze, inconsistenze nella gestione dei dati stessi.

Significa che i dati posso diventare disordinati a causa delle variabili descritte in precedenza e sono di conseguenza molto difficili da controllare.

Le masse di dati sono inoltre molto variabili e dinamiche e provvengono da origini diverse creando confusione. In un mondo di dati così eterogenei è difficile stabilire cosa sia giusto e cosa sia sbagliato. La veridicità indica quindi il livello di affidabilità o inaffidabilità dei dati.

Valore

L’ultima delle variabili fondamentali dei big data è quella che definisce il valore. Quest’ultima è una variabile fondamentale perché l’importanza dei big data stessi sta nella possibilità di essere utili per le aziende quindi di portare dei benefici.

Infatti i dati fini a se stessi non hanno alcuna importanza. Per essere davvero utili devono poter essere convertiti in informazioni preziose che permettono alle aziende di verificare ed eventualmente modificare le sue mosse.

Se prendiamo Netflix, per esempio, ci rendiamo conto di quanto tutto ciò sia estremamente vero. Basti pensare alla mole di informazioni che ogni minuto riesce a ricavare dai propri utenti e come il comportamento degli utenti influisca sulle decisioni aziendali determinando come l’azienda di muove rispetto alla creazione di nuovi contenuti o l’eliminazione di altri.

I dati gli sono utili anche per gli utenti stessi che in base alle loro preferenze di visione ricevono consigli su altri contenuti che possono essere di loro interesse.

L’utilizzo dei big data, per Netflix come per tutti coloro che li usano, significa ridurre l’abbandono per gli utenti.

Coloro che usano le informazioni derivanti dai big data ottengono un vantaggio competitivo.

Perché conoscere le 5v dei Big Data è importante per le aziende?

Quando pensiamo ai big data ci vengono subito in mente le grandi aziende che li producono. Siamo un po’ meno propensi a pensare all’utilizzo che ne possono fare le piccole e medie imprese.

C’è da considerare inoltre che modeste quantità di dati possono essere prodotte anche dagli asset aziendali, come per esempio il sito web dell’azienda.

Riuscire a leggere e soprattutto interpretare i dati può aiutare imprenditori, dipendenti e dirigenti a capire meglio cosa sta succedendo nei vari aspetti dell’azienda. Inoltre possono aiutarli a conoscere meglio i loro clienti e a offrirgli ciò che più desiderano.

Conoscere le 5v dei big data si rivela quindi indispensabile per comprendere come poterli sfruttare a proprio vantaggio.

Se vuoi sapere come sfruttarli nella tua azienda, contattaci.

Condividi questo articolo!

Project Manager: cosa fa e come ti può aiutare in azienda
Algoritmi di machine learning: come funzionano?