Elementi fondamentali della specifica CSV

In programmazione ed in statistica è fondamentale saper lavorare con dataset esterni. La prima cosa necessaria è saper importare correttamente diversi tipi di file all’interno del sistema in cui si sta lavorando. La maggior parte dei file contenenti dataset viene salvato attraverso l’estensione .csv.

Il CSV, abbreviazione di comma-separated values, è un formato di file basato su file di testo utilizzato per l’importazione ed esportazione (ad esempio da fogli elettronici o database) di una tabella di dati. Non esiste uno standard formale che lo definisca, ma solo alcune prassi più o meno consolidate. Ogni riga della tabella è normalmente rappresentata da una linea di testo, composta da diverse componenti (campi, o colonne, se si fa riferimento alla costruzione matriciale di un dataset). La separazione delle componenti è uno degli aspetti cruciali della lettura di un file .csv. Non esiste, infatti, una vera convenzione su quale separatore indichi la fine di una componente e l’inizio della successiva, ed è essenziale riuscire a ottenere questa informazione. I separatori più utilizzati sono “,” e “;”, ma è possibile trovare anche file che utilizzano come separatori spazi, virgolette o apici stessi. Questo implica che solitamente non è consigliato l’utilizzo di un di questi caratteri nella creazione dei record di un dataset, in quanto può facilmente portare ad una divisione errata del dataset.

Lascia un commento