Utilizando la base de datos Adult Data Set disponible en UCI Machine Learning Repository: Adult Data Set
# Leer base de datos
read_csv
baseAdult <- read_csv("baseAdult.csv")
lapply(baseAdult, class)
# Validar niveles de variables:
fac_cols <- sapply(baseAdult, is.factor)
lapply(baseAdult[, fac_cols], levels)
frequency(RangoI)
View(baseAdult)
library(ggplot2)
library(plyr)
library(ROCR)
library(corrplot)
library(caret)
install.packages('rworldmap',dependencies=TRUE)
library(rworldmap)
library(data.table)
# Leer base de datos
library(readxl)
baseA<-read_csv('baseAdult.csv')
View(baseA)
# Análisis exploratorio
#con parámetros gráficos
par(mfrow=c(3,5))
# Layout
m=matrix(c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15), byrow=TRUE, ncol =5)
# Resultado de ésta línea
[,1] [,2] [,3] [,4] [,5]
[1,] 1 4 7 10 13
[2,] 2 5 8 11 14
[3,] 3 6 9 12 15
m
layout(m)
# Muestra las 15 particiones
layout.show(15)
# Resultado de ésta línea
# 1 Gráficos
# g1 Histograma para Edad
par(mar=rep(2,4))
hist(x=baseA$Edad,las=2,xedad='Edad',main='Edad',cex.main=0.6,cex.axis=0.4,col=rainbow(14))
# g2 Barras para Clase
tdatosc<-prop.table(table(baseA$Clase))*100
tdatosc
g2=barplot(tdatosc,las=2,main='Clase',cex.main=0.6,cex.axis=0.4,cex.names=0.4,col=rainbow(9))
# g3 Histograma para Muestra
g3=hist(x=baseA$Muestra,las=2,xmuestra='Muestra',main='Muestra',cex.main=0.6,cex.axis=0.4,col=rainbow(9))
# g4 Barras para Nivel educativo
tdatosne<-prop.table(table(baseA$NivelE))*100
tdatosne
g4=barplot(tdatosne,las=2,main='NivelE',cex.main=0.6,cex.axis=0.4,cex.names=0.4,col=rainbow(17))
# g5 Histograma para Número de años de educación
hist(x=baseA$NumE,las=2,xnumE='NumE',main='Años E',cex.main=0.6,cex.axis=0.4,col=rainbow(16))
# g6 Barras para Relaciones
tdatosr<-prop.table(table(baseA$Estatus))*100
tdatosr
g6=barplot(tdatosr,las=2,main='Relaciones',cex.main=0.6,cex.axis=0.4,cex.names=0.4,col=rainbow(6))
# g7 Pastel para Sexo
tdatoss<-prop.table(table(baseA$Sexo))*100
pct=round(tdatoss,digits=0)
pct
lbls=paste(pct,'%',sep='')
color<-c('red','blue')
pie(x=pct,main='Sexo',cex.main=0.6,line=0.25,labels=lbls,cex=0.5,
col=color)
legend('topright',c('Female','Male'),cex=0.4,fill=color)
# g8 Barras para Estado civil
tdatosec<-prop.table(table(baseA$Ecivil))*100
tdatosec
g8=barplot(tdatosec,las=2,main='Estado C',cex.main=0.6,cex.axis=0.4,cex.names=0.4,col=rainbow(7))
# g9 Barras para Raza
tdatosra<-prop.table(table(baseA$Raza))*100
tdatosra
g9=barplot(tdatosra,las=2,main='Raza',cex.main=0.6,cex.axis=0.4,cex.names=0.4,col=rainbow(5))
# g10 Barras para Ocupación
tdatoso<-prop.table(table(baseA$Ocupacion))*100
tdatoso
g10=barplot(tdatoso,las=2,main='Ocupación',cex.main=0.6,cex.axis=0.4,
cex.names=0.4,col=rainbow(15))
# g11 Histograma para Ganancias
hist(x=baseA$Ganancias,las=2,xgan='Ganancias',main='Ganancias',
cex.main=0.6,cex.axis=0.4,col=rainbow(16))
# g12 Histograma para Pérdidas
hist(x=baseA$Perdidas,las=2,xper='Perdidas',main='Pérdidas',
cex.main=0.6,cex.axis=0.4,col=rainbow(16))
# g13 Barras para País
tdatosp<-prop.table(table(baseA$PaisO))*100
tdatosp
g13=barplot(tdatosp,las=2,main='PaisO',adj=1,cex.main=0.6,cex.axis=0.4,cex.names=0.4,col=rainbow(34))
# g14 Histograma para Horas trabajo
hist(x=baseA$MediaH,las=2,xmediash='MediaH',adj=1,main='MediasH',cex.main=0.6,cex.axis=0.4,col=rainbow(16))
# g15 Pastel para Ingreso
tdatosi<-prop.table(table(baseA$RangoI))*100
pcti=round(tdatosi,digits=0)
pcti
lblsi=paste(pcti,'%',sep='')
color<-c('turquoise','salmon')
pie(x=pcti,main='Ingreso',cex.main=0.6,line=0.25,labels=lblsi,cex=0.5,
col=color)
legend('topright',c('<=50K','>50K'),cex=0.4,fill=color)
# Resultado de ésta línea
Comentarios
Publicar un comentario