El proceso de análisis de datos siempre conlleva procedimientos de tratamiento de valores que implican realizar eliminación o generación de nuevos datos. Este proceso es importante ya que sin datos eficientes y veraces todos los procesos posteriores serán erróneos o poco eficientes.
Ademas, R trabaja en forma preferente con datos tabulados (en forma de tablas) y su formato preferido es el DataFrame. Los datos tabulados establecen:
- Cada variable esta almacenada en su propia columna.
- Cada observación esta almacenada en su fila.
- Cada observación esta almacenada en su propia fila.
El análisis de los datos tiene como objetivo extraer información de ello. Por ello se requiere entre otras operaciones: Extraer las variables existentes en el conjunto de datos. Extraer las observaciones preexistentes. Derivar nuevas variables sobre las ya existentes y Cambiar la unidades de las variables.
El paquete Tidyverse provee una serie de herramientas destinadas a facilitar este proceso .
Tidyverse es una colección de paquetes disponibles en R y orientados a la manipulación, importación, exploración y visualización de datos y que se utiliza exhaustivamente en ciencia de datos. El uso de Tidyverse permite facilitar el trabajo estadÃstico y la generación de trabajos reproducibles, esta compuesto de los siguientes paquetes:
- readr
- dplyr
- ggplot2
- tibble
- tidyr
- purr
- stringsr
- forcats
Descargue el laboratorio junto con las descripciones de los procesos realizados:
Publicar un comentario