Estem treballant per restaurar l'aplicació de Unionpedia a la Google Play Store
SortintEntrant
🌟Hem simplificat el nostre disseny per a una millor navegació!
Instagram Facebook X LinkedIn

Neteja de dades

Índex Neteja de dades

La neteja de dades (en anglès data cleansing o data scrubbing) és l'acció o treball de descobriment, correcció i/o eliminació de registres de dades errònies d'una taula o d'una base de dades.

Taula de continguts

  1. 16 les relacions: Anglès, Apache Spark, Base de dades, Clúster, Dades (informàtica), Dades massives, Desviació tipus, Entorn de treball (informàtica), Flux de treball, IBM, Interfície de programació d'aplicacions, Magatzem de dades, Open Source Initiative, Proves de validació, Python, Validació encreuada.

Anglès

L'anglès o anglés (English) és una llengua germànica occidental de la família de les llengües indoeuropees.

Veure Neteja de dades і Anglès

Apache Spark

Fig. 1 Estructura interna de l'Apache Spark Apache Spark és una plataforma de codi obert orientat a l'analítica i processat de dades massives.

Veure Neteja de dades і Apache Spark

Base de dades

FIg.1 Esquema de blocs del disseny d'una base de dades Una base de dades o un banc de dades és un conjunt de dades segons una estructura coherent i accessibles des d'un o més programes o aplicacions, de manera que qualsevol d'aquestes dades pot ésser extreta del conjunt i actualitzada, sense afectar ni l'estructura del conjunt ni les altres dades.

Veure Neteja de dades і Base de dades

Clúster

El concepte clúster en informàtica és utilitzat per definir diversos tipus d'associacions de computadors força diferenciades entre elles.

Veure Neteja de dades і Clúster

Dades (informàtica)

Diversos tipus de dades que poden ser visualitzats a través d'un dispositiu d'ordinador Les dades són qualsevol seqüència d'un o més símbols als quals se'ls dóna significat mitjançant actes específics d'interpretació.

Veure Neteja de dades і Dades (informàtica)

Dades massives

consulta.

Veure Neteja de dades і Dades massives

Desviació tipus

Representació d'una distribució normal. Cada franja de tonalitat diferent té l'amplada d'una desviació tipus. Probabilitat acumulada d'una distribució normal amb un valor esperat de 0 i una desviació estàndard d'1. Un conjunt de dades amb una mitjana de 50 (en blau) i una desviació estàndard (σ) de 20.

Veure Neteja de dades і Desviació tipus

Entorn de treball (informàtica)

L'entorn de treball o marc de treball és Infraestructura de programari que, en la programació orientada a objectes, facilita la concepció de les aplicacions mitjançant la utilització de biblioteques de classes o generadors de programes.

Veure Neteja de dades і Entorn de treball (informàtica)

Flux de treball

El flux de treball (workflow en anglès) és l'estudi dels aspectes operacionals d'una activitat de treball: com s'estructuren les tasques, com es fan, quin és el seu ordre correlatiu, com se sincronitzen, com flueix la informació que suporta les tasques i com se li fa seguiment al compliment de les tasques.

Veure Neteja de dades і Flux de treball

IBM

IBM és l'acrònim dInternational Business Machines també coneguda col·loquialment com el gegant blau.

Veure Neteja de dades і IBM

Interfície de programació d'aplicacions

Una interfície de programació d'aplicacions (en anglès Application Programming Interface, API) és una interfície que especifica com diferents components de programes informàtics haurien d'interaccionar.

Veure Neteja de dades і Interfície de programació d'aplicacions

Magatzem de dades

Un magatzem de dades (de l'anglès data warehouse) és una base de dades amb la informació històrica d'una organització dissenyada i estructurada per a realitzar-hi consultes eficientment.

Veure Neteja de dades і Magatzem de dades

Open Source Initiative

L'Open Source Initiative (OSI, en català Iniciativa pel Codi Obert) és una organització sense ànim de lucre dedicada a promocionar el programari de codi obert.

Veure Neteja de dades і Open Source Initiative

Proves de validació

Les proves de validació a l'enginyeria de software son el procés de revisió que el sistema de programari produït compleix amb les especificacions i que compleix la seva comesa.

Veure Neteja de dades і Proves de validació

Python

Python és un llenguatge de programació d'alt nivell i propòsit general molt utilitzat.

Veure Neteja de dades і Python

Validació encreuada

La validació encreuada —cross-validation en anglès— és una tècnica utilitzada per avaluar els resultats d'una anàlisi estadística i garantir que són independents de la partició entre dades d'entrenament i prova.

Veure Neteja de dades і Validació encreuada