Data Processing with Tidyverse in R

 



El proceso de análisis de datos siempre conlleva procedimientos de tratamiento de valores que implican realizar eliminación o generación de nuevos datos.  Este proceso es importante ya que sin datos eficientes y veraces todos los procesos posteriores serán erróneos o poco eficientes. 

Ademas, R trabaja en forma preferente con datos tabulados (en forma de tablas) y su formato preferido es el DataFrame. Los datos tabulados establecen: 

  • Cada variable esta almacenada en su propia columna.
  • Cada observación esta almacenada en su fila.
  • Cada observación esta almacenada en su propia fila.
El análisis de los datos tiene como objetivo extraer información de ello. Por ello se requiere entre otras operaciones: Extraer las variables existentes en el conjunto de datos. Extraer las observaciones preexistentes. Derivar nuevas variables sobre las ya existentes y Cambiar la unidades de las variables.

El paquete Tidyverse provee una serie de herramientas destinadas a facilitar este proceso . 

Tidyverse es una colección de paquetes disponibles en R y orientados a la manipulación, importación, exploración y visualización de datos y que se utiliza exhaustivamente en ciencia de datos. El uso de Tidyverse permite facilitar el trabajo estadístico y la generación de trabajos reproducibles, esta compuesto de los siguientes paquetes:  
  • readr
  • dplyr
  • ggplot2
  • tibble
  • tidyr
  • purr
  • stringsr
  • forcats
Descargue el laboratorio junto con las descripciones de los procesos realizados: 


Manipulación de datos usando dplyr

Códigos: Github

Publicar un comentario

Post a Comment (0)

Artículo Anterior Artículo Siguiente