Ir al contenido principal

Matriz de gráficos con RStudio Cloud

Utilizando la base de datos Adult Data Set disponible en UCI Machine Learning Repository: Adult Data Set

 

Utilizando RStudio Cloud
Código para elaborar matriz de gráficos

# Leer base de datos

read_csv

baseAdult <- read_csv("baseAdult.csv")

lapply(baseAdult, class)


# Validar niveles de variables:

fac_cols <- sapply(baseAdult, is.factor)

lapply(baseAdult[, fac_cols], levels)

frequency(RangoI)

View(baseAdult)

library(ggplot2)

library(plyr)

library(ROCR)

library(corrplot)

library(caret)

install.packages('rworldmap',dependencies=TRUE)

library(rworldmap)

library(data.table)


# Leer base de datos

library(readxl)

baseA<-read_csv('baseAdult.csv')

View(baseA)


# Análisis exploratorio

#con parámetros gráficos

par(mfrow=c(3,5))


# Layout

m=matrix(c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15), byrow=TRUE, ncol =5)

# Resultado de ésta línea

     [,1] [,2] [,3] [,4] [,5]
[1,]    1    4    7   10   13
[2,]    2    5    8   11   14
[3,]    3    6    9   12   15

m

layout(m)

# Muestra las 15 particiones

layout.show(15)

# Resultado de ésta línea


# 1 Gráficos

# g1  Histograma para Edad

par(mar=rep(2,4))

hist(x=baseA$Edad,las=2,xedad='Edad',main='Edad',cex.main=0.6,cex.axis=0.4,col=rainbow(14))


# g2  Barras para Clase

tdatosc<-prop.table(table(baseA$Clase))*100

tdatosc

g2=barplot(tdatosc,las=2,main='Clase',cex.main=0.6,cex.axis=0.4,cex.names=0.4,col=rainbow(9))


# g3  Histograma para Muestra

g3=hist(x=baseA$Muestra,las=2,xmuestra='Muestra',main='Muestra',cex.main=0.6,cex.axis=0.4,col=rainbow(9))


# g4  Barras para Nivel educativo

tdatosne<-prop.table(table(baseA$NivelE))*100

tdatosne

g4=barplot(tdatosne,las=2,main='NivelE',cex.main=0.6,cex.axis=0.4,cex.names=0.4,col=rainbow(17))


# g5  Histograma para Número de años de educación

hist(x=baseA$NumE,las=2,xnumE='NumE',main='Años E',cex.main=0.6,cex.axis=0.4,col=rainbow(16))


# g6  Barras para Relaciones

tdatosr<-prop.table(table(baseA$Estatus))*100

tdatosr

g6=barplot(tdatosr,las=2,main='Relaciones',cex.main=0.6,cex.axis=0.4,cex.names=0.4,col=rainbow(6))


# g7 Pastel para Sexo

tdatoss<-prop.table(table(baseA$Sexo))*100

pct=round(tdatoss,digits=0)

pct

lbls=paste(pct,'%',sep='')

color<-c('red','blue')

pie(x=pct,main='Sexo',cex.main=0.6,line=0.25,labels=lbls,cex=0.5,

    col=color)

legend('topright',c('Female','Male'),cex=0.4,fill=color)


# g8  Barras para Estado civil

tdatosec<-prop.table(table(baseA$Ecivil))*100

tdatosec

g8=barplot(tdatosec,las=2,main='Estado C',cex.main=0.6,cex.axis=0.4,cex.names=0.4,col=rainbow(7))


# g9  Barras para Raza

tdatosra<-prop.table(table(baseA$Raza))*100

tdatosra

g9=barplot(tdatosra,las=2,main='Raza',cex.main=0.6,cex.axis=0.4,cex.names=0.4,col=rainbow(5))


# g10  Barras para Ocupación

tdatoso<-prop.table(table(baseA$Ocupacion))*100

tdatoso

g10=barplot(tdatoso,las=2,main='Ocupación',cex.main=0.6,cex.axis=0.4,

           cex.names=0.4,col=rainbow(15))


# g11 Histograma para Ganancias

hist(x=baseA$Ganancias,las=2,xgan='Ganancias',main='Ganancias',

     cex.main=0.6,cex.axis=0.4,col=rainbow(16))


# g12 Histograma para Pérdidas

hist(x=baseA$Perdidas,las=2,xper='Perdidas',main='Pérdidas',

     cex.main=0.6,cex.axis=0.4,col=rainbow(16))


# g13 Barras para País

tdatosp<-prop.table(table(baseA$PaisO))*100

tdatosp

g13=barplot(tdatosp,las=2,main='PaisO',adj=1,cex.main=0.6,cex.axis=0.4,cex.names=0.4,col=rainbow(34))


# g14 Histograma para Horas trabajo

hist(x=baseA$MediaH,las=2,xmediash='MediaH',adj=1,main='MediasH',cex.main=0.6,cex.axis=0.4,col=rainbow(16))


# g15 Pastel para Ingreso

tdatosi<-prop.table(table(baseA$RangoI))*100

pcti=round(tdatosi,digits=0)

pcti

lblsi=paste(pcti,'%',sep='')

color<-c('turquoise','salmon')

pie(x=pcti,main='Ingreso',cex.main=0.6,line=0.25,labels=lblsi,cex=0.5,

    col=color)

legend('topright',c('<=50K','>50K'),cex=0.4,fill=color)

# Resultado de ésta línea



Comentarios

Entradas más populares de este blog

Estadística, Ciencia de Datos, Big Data y Datos Abiertos

 Grandes volúmenes de datos Referencias 1.  Estadística 2  Big Data 3  ¿Cuál es la relación entre el Big Data y la Estadística? (universia.net) 4  ¿Cuáles son las diferencias entre Big Data y Data Science? - PiperLab 5  Están invitadxs — Open Data Day 6  La estadística como fuente clave de los datos abiertos | datos.gob.es

Proyectos de Ciencia de Datos

 Alumnos de la Experiencia Educativa: Big Data Estos proyectos han sido desarrollados por estudiantes de la Licenciatura en Estadística. Esperamos que sirvan a otros estudiantes apasionados de los números. https://www.freepik.es/ Proyecto 1. Conjunto de Datos de Rendimiento del Estudiante Inicio | Estadística y Big Data (wixsite.com) Autores: Scarleht Sánchez y Elizabeth Cruz Proyecto 2. Diabetes en Mujeres Indígenas PIMA Blog | Diego Y Gabriela Big Data (wixsite.com) Autores: Diego y Gabriela Proyecto 3. Adultos Inicio | Big Data (wixsite.com) Autores: Paloma Proyecto 4. Análisis casos de Varicela Húngara Inicio | DATA CLUB (wixsite.com) Análisis casos de varicela Húngara (godaddysites.com) Autores: Monserrat Proyecto 5. Análisis en la base de datos de Iris BIG DATA DJ Autores: Proyecto 6. Calidad de Vino Tinto y Vino Blanco Calidad de vino tinto y vino blanco (data-scienceb.blogspot.com) Autores: Proyecto 7. Complicaciones del infarto agudo de Miocardio Miocardio | My Site (wixsite.c

Excel Cloud - Excel para la web - Excel en la nube

Descripción Aplicación basada en explorador que se puede usar para ver y editar Hojas de Excel en el explorador Pasos: 1 Inicia sesión en  Drive . Si no tienes cuenta de Gmail entonces crear una cuenta de correo en Gmail 2 Ir a las aplicaciones de Google y elegir Hojas de cálculo 3 Elegir una hoja de cálculo nueva dando clic en el signo + 4 En esta nueva hoja editable se puede copiar e importar datos. Seleccionar los datos y elegir  Insertar / Gráfico , de esta forma se obtendrá un gráfico de barras. Seleccionar gráfico y en Tipo de Gráfico elegir Mapa . 5 En la opción Personalizar es posible elegir mapa regional . Referencias Trabajar con datos de hojas de cálculo en OneDrive - Excel (microsoft.com)

Google Trends

Tendencias de búsquedas de Google Tendencias de Google Actividad: 1. Elegir palabras clave 2. Generar base de datos 3. Descargar base de datos 4. Limpiar datos 5. Hacer visualizaciones

Metodología de John Rollins para estudios en Ciencia de Datos

La metodología de John Rollins con adecuaciones para estudios en el área de ciencia de datos, la cual consiste de 11 etapas que advierten tecnologías y enfoques Etapa 1: Comprensión del proyecto. Definir el problema, el planteamiento de los objetivos y la posible solución. Etapa 2. Enfoque Analítico. Aplicar técnicas estadísticas y aprendizaje automático. Construir, experimentar e implementar un modelo de clasificación o de predicción según sea el caso. Etapa 3. Requerimientos de Datos. Determinar los requerimientos de datos como contenidos de datos, formatos y representaciones, guiados por el conocimiento del contexto o negocio. Etapa 4. Recolección de Datos. Identificar y reunir los datos disponibles, estructurados, no estructurados y semiestructurados. Etapa 5. Comprensión de Datos. Utilizar estadísticas descriptivas y técnicas de visualización. Etapa 6. Preparación de Datos. Limpiar los datos, combinar datos de archivos y plataformas, y crear predictores para la con

El Big Data en los Recursos y Derechos Humanos

El Big Data en los Recursos y Derechos Humanos Big Data se refiere a la gestión de grandes cantidades de datos de forma que puedan ser tratados y analizados para la extracción de información relevante para generar informes y predicciones. El Big Data aporta una serie de utilidades para los profesionales de los recursos humanos. Gracias a una gestión adecuada de los datos, es posible recopilar toda la información que manejan de forma correcta y organizada. Pero, ¿Qué ventajas ofrece? Los individuos alrededor del mundo pueden ver vulnerados sus derechos humanos a través del manejo indiscriminado de la herramienta big data , ya que la información que se genera día a día y segundo a segundo por medio de los dispositivos tecnológicos -como los teléfonos inteligentes- abarca desde los hábitos de consumo de las personas hasta aspectos de su vida privada, como pueden ser sus creencias religiosas o sus datos biométricos. Así, la vulneración de derechos humanos se puede dar desde la manera en qu

Día de los Datos Abiertos

Facultad de Estadística e Informática Licenciatura en Estadística Referencias Están invitadxs — Open Data Day  - Día de los Datos Abiertos Open Government Data and Services (un.org)  - Naciones Unidas Plataformas de Datos Abiertos Barómetro de Datos Abiertos - Open Data Barometer Eventos en el mundo Open Data Day 2021 - YouTube  - Open Data Day 2021 #OpenDataDay2021 Datos abiertos y la toma de decisiones en tiempos de pandemia #ODD2021 - YouTube  - Organización de los Datos Americanos (OEA) Herramientas de planificación datos abiertos - YouTube Datos Abiertos - Uso y Aprovechamiento de Datos Abiertos - YouTube  - Colombia Taller del nuevo portal de datos abiertos de la CDMX- ADIP - YouTube  - Ciudad de México Datos abiertos para la innovación - YouTube  - Ecuador Geocatmin : Datos abiertos en la nube - YouTube  - Perú Datos y Mezcales - Open data day 2021 - YouTube  - Ciudad de México Celebración del Día Internacional de los Datos Abiertos - YouTube  - República Dominicana  Datos abier

Big Data, Ética o Espionaje gubernamental

Big Data es el campo emergente que ofrece nuevas formas de dar valor añadido a las empresas. Sin embargo, el dilema moral sobre su uso por las compañías, ha puesto en tela de juicio el negocio que se realiza con ellos y la privacidad de las personas (Maza, 2017). Es decir, l a dificultad de garantizar el anonimato de los datos  se ha convertido en uno de los aspectos más reiterados al hablar de preservar la privacidad cuando se trabaja en minería de datos. De igual forma, poner la información anónima implica extraer de las bases de datos aquella información que implícitamente sea posible relacionar. Este tema de la privacidad de los datos y sobre quienes recae se ha debatido ya por muchos años sobre todo por el manejo que las compañías han hechos de estos datos  (Maza, 2017). Esto tiene que ver con la ética. Big Data, espionaje y privacidad de los datos personales en Internet: Big Data, espionaje y privacidad de los datos personales en Internet (eneslis.blogspot.com) Al respecto, Pasto

Singapur, el país del futuro ¿Black Mirror?

  Singapur Barcelona, Singapur y Londres, las mejores smart cities del mundo

¿Cuántas V's caracterizan al Big Data?

3 V's ¿Volumen, Variedad y Velocidad? 4 V's  ¿V olumen,  Variedad, Velocidad y Veracidad? 5 V's  ¿V olumen,  Variedad, Velocidad, Veracidad y Valor? 6 V's  ¿V olumen,  Variedad, Velocidad, Veracidad,  Viabilidad y Visualización ? 7 V's ¿ V olumen,  Variedad, Velocidad, Veracidad,  Viabilidad, Visualización y  Valor? 8 V's ¿ V olumen,  Variedad, Velocidad, Veracidad,  Viabilidad, Visualización,  Valor y Viscosidad? 9 V's ¿ V olumen,  Variedad, Velocidad, Veracidad,  Viabilidad, Visualización,  Valor, Viscosidad y Variabilidad? Referencias Las 7 V del Big data: Características más importantes - IIC (uam.es)