Kildeinndata (SID) er dataene du vil bruke som input for modellen din. Dette kan være alle typer data, inkludert:
* Strukturerte data: Denne typen data lagres i et strukturert format, for eksempel et regneark eller en database.
* Ustrukturerte data: Denne typen data lagres ikke i et strukturert format, for eksempel tekst eller bilder.
SID kan komme fra en rekke kilder, inkludert:
* Interne data: Disse dataene genereres i organisasjonen din og lagres vanligvis i en database eller ERP-system (Enterprise Resource Planning).
* Eksterne data: Disse dataene genereres utenfor organisasjonen din og kan finnes på nettet, i sosiale medier eller i offentlige databaser.
Kvaliteten på SID-en din er avgjørende for suksessen til modellen din. Dårlige data vil føre til dårlige resultater. Derfor er det viktig å ta seg tid til å rengjøre og klargjøre SID-en før du bruker den til modellering.
Her er noen tips for å forberede din SID:
* Rengjør dataene dine: Dette innebærer å fjerne eventuelle dupliserte eller feilaktige data.
* Standardiser dataene dine: Dette innebærer å konvertere alle dataene dine til et konsistent format.
* Berik dataene dine: Dette innebærer å legge til tilleggsdata til SID-en din, for eksempel demografisk informasjon eller værdata.
Når du har forberedt din SID, kan du begynne å bruke den til å bygge modellen din.