
DEPURACIÓN DE DATOS CON SPSS Y SAS
(Data Cleaning)
Juana María Alonso Revenga
Editorial: García Maroto Editores
Edición: 1
Fecha Publicación: 2019
ISBN: -
ISBN ebook: 9788417969080
Páginas: 224
Grado: Universitario
Área: Ciencias y Salud
Sección: Matemáticas
Idioma: Español
Etiquetas: U. Complutense de Madrid, UCM
Tweet
Edición: 1
Fecha Publicación: 2019
ISBN: -
ISBN ebook: 9788417969080
Páginas: 224
Grado: Universitario
Área: Ciencias y Salud
Sección: Matemáticas
Idioma: Español
Etiquetas: U. Complutense de Madrid, UCM
Tweet
©García-Maroto Editores S.L. Todos los derechos reservados.
Prólogo
TEMA 1. TIPOS DE VARIABLES: TRANSFORMACIONES Y CODIFICACIÓN
1.1 Introducción
1.2 Tipos de variables: Nominales. Ordinales y Continuas
1.3 Transformaciones de variables con SPSS
1.4 Recuento de valores en los casos con SPSS
1.5 Recodificación de variables con SPSS
1.6. Categorización de variables con SPSS
1.7 Asignación de rangos con SPSS
1.8 Recodificación automática con SPSS
1.9 Manipulación de fechas con SPSS
1.10 Transformación de datos con SAS: El Procedimiento Format
1.11 Chequeo y recodificación de variables con SAS
1.12 Categorización de variables con SAS
1.13 Análisis y manipulación de fechas con SAS
Práctica resuelta
Ejercicios
TEMA 2. CONTROL DE INTEGRIDAD DE LOS DATOS
2.1 El problema de los datos atípicos
2.2 Detección de outliers con SPSS
2.3 Detección de outliers en distribuciones bidimensionales con SPSS
2.4. Detección de outliers univariantes con SAS
2.5. Detección de outliers en distribuciones bidimensionales con SAS
2.6.- Detección de outliers en distribuciones multivariantes con SAS
2.7. Detección y tratamiento de duplicados
Práctica resuelta
Ejercicios
TEMA 3. DATOS MISSING: DETECCIÓN Y TRATAMIENTO
3.1 El problema de los datos perdidos
3.2. Imputación de datos en variables unidimensionales y series temporales con SPSS
3.3 Análisis de valores perdidos con SPSS
3.4. Imputación de datos en variables unidimensionales y series temporales con SAS
3.5. Imputación de valores perdidos para variables multivariantes con SAS
Práctica resuelta
Ejercicios
TEMA 4. DATOS MISSING II: IMPUTACIÓN MÚLTIPLE
4.1 Introducción a la Imputación múltiple
4.2. Imputación Múltiple con SPSS
4.3. Imputación Múltiple con SAS
Práctica resuelta
Ejercicios
TEMA 5. EVALUACIÓN DE LAS HIPÓTESIS DE PARTIDA PARA EL ANÁLISIS DE DATOS
5.1 Estudio de la Normalidad de los datos
5.2 Análisis de la hipótesis de normalidad univariante con SPSS
5.3 Estudio de la Normalidad univariante con SAS
5.4 Transformaciones Box-Cox
5.5. Contraste de la hipótesis de Normalidad Multivariante con SAS
Práctica resuelta
Ejercicios
Bibliografía
*La edición digital no incluye códigos de acceso a material adicional o programas mencionados en el libro.
Prólogo.
Los que nos hemos enfrentado al análisis de una base de datos sabemos la importancia de realizar un diseño adecuado para la recogida de datos. Pero en la actualidad, en muchas ocasiones este primer paso no se puede realizar y nos encontramos con grandes cantidades de datos, no estructurados, con errores, outliers, etc…, que es necesario analizar. La fase de limpieza y preparación de los datos para su posterior análisis es tan necesaria como ingrata, por esta razón este libro se ha desarrollado para proporcionar las herramientas necesarias para llevar a cabo esta labor de una forma lo más eficiente posible.
Para ello nos basamos en tres pilares fundamentales:
• Exponer de forma sencilla y clara las diferentes metodologías existentes para depurar una base de datos en el sentido más completo. Es decir, reconocimiento de errores, detección de outliers, datos perdidos, falta de Normalidad en los datos.
• Presentar las técnicas estadísticas para resolver estos problemas de forma automática, como la estimación de los datos perdidos mediante estimación multivariante, imputación múltiple o las transformaciones para conseguir Normalidad en los datos.
• Ilustrar mediante ejemplos con datos reales, como llevar a la práctica todas las técnicas presentadas, utilizando en cada problema el software adecuado para resolverlo. Para ello, todos los datos de los ejemplos y ejercicios están disponibles en la siguiente dirección:
https://www.ucm.es/estadisticaycienciadatos/juana-maria-alonso-revenga-1
El software elegido cubre un amplio espectro de posibles analistas de datos. Por un lado, el programa SPSS es de amplia utilización para la realización de análisis estadísticos
especialmente en el área de ciencias de la salud, tiene la ventaja de su fácil manejo y buena presentación de los resultados.
En otros ámbitos como el financiero, estadística oficial, aseguradoras, etc…, donde la cantidad de datos que tenemos que analizar es muy amplia se suele utilizar el programa SAS.
El contenido está estructurado en cinco temas. En el Tema 1 se presentan técnicas necesarias para el correcto procesamiento de los datos como la codificación (cifrado) de los datos, la transformación de los datos o la categorización de variables de tipo continuo. El Tema 2 está dedicado al estudio de diferentes metodologías para la detección automática de outliers, tanto univariantes como multivariantes. Los Temas 3 y 4 están dedicados al análisis de los datos missing así como su estimación. En el Tema 4, en concreto, se presentan los métodos de Imputación Múltiple que mejoran considerablemente el comportamiento de los estimadores. Para finalizar, en el Tema 5, se presenta el estudio de la hipótesis de Normalidad en los datos tanto desde un punto de vista univariante como multivariante. Muchas técnicas inferenciales necesitan del cumplimiento de dicha hipótesis para poder ser utilizadas. Por esto además, se presentan las transformaciones Box-Cox con las que poder conseguir el cumplimiento de esta hipótesis para las variables transformadas.
Finalmente agradecer a los alumnos del Grado en Estadística Aplicada de la Facultad de Estudios Estadísticos de la Universidad Complutense de Madrid su interés y entusiasmo demostrado en las clases prácticas de esta asignatura.
Profesor Titular Facultad de Estudios Estadísticos
Universidad Complutense de Madrid
Libros que también te pueden interesar
MÉTODOS DE COMPRA
* Precios con IVA
Busca el término o términos dentro de cada uno de los libros
