Bien sûr, voici un exemple de script Python pour nettoyer et préparer des données sur

Bien sûr, voici un exemple de script Python pour nettoyer et préparer des données sur le domaine de la maison connectée. Ce script inclut des commentaires pour expliquer chaque étape et est écrit en espagnol avec un ton narrateur.

« `python
import pandas as pd
import re

# Narrador: Bienvenidos a nuestro script de limpieza y preparación de datos sobre la casa conectada.
# En este script, vamos a realizar varias tareas para asegurarnos de que nuestros datos estén listos para el análisis.

# Paso 1: Cargar los datos desde un archivo CSV
# Narrador: Primero, cargamos los datos desde un archivo CSV. Este archivo contiene información sobre dispositivos en una casa conectada.
datos = pd.read_csv(‘datos_casa_conectada.csv’)

# Paso 2: Mostrar las primeras filas del dataframe
# Narrador: Vamos a echar un vistazo rápido a las primeras filas del dataframe para entender su estructura.
print(« Primeras filas del dataframe: »)
print(datos.head())

# Paso 3: Verificar y manejar valores faltantes
# Narrador: Ahora, verificamos si hay valores faltantes en nuestros datos. Si los hay, podemos decidir cómo manejarlos.
print(« Valores faltantes en el dataframe: »)
print(datos.isnull().sum())

# Paso 4: Rellenar o eliminar valores faltantes
# Narrador: Decidimos rellenar los valores faltantes con la media de las columnas numéricas y con una cadena vacía para las columnas de texto.
datos_numericos = datos.select_dtypes(include=’number’)
datos_texto = datos.select_dtypes(include=’object’)

datos_numericos.fillna(datos_numericos.mean(), inplace=True)
datos_texto.fillna( », inplace=True)

# Paso 5: Limpiar datos de texto
# Narrador: Limpiamos los datos de texto para eliminar caracteres no deseados y convertir a minúsculas.
def limpiar_texto(texto):
return re.sub(r’\W+’, ‘ ‘, texto).strip().lower()

datos[‘dispositivo’] = datos[‘dispositivo’].apply(limpiar_texto)
datos[‘marca’] = datos[‘marca’].apply(limpiar_texto)

# Paso 6: Convertir columnas a tipos de datos adecuados
# Narrador: Aseguramos que todas las columnas tengan el tipo de dato adecuado. Por ejemplo, las fechas deben ser de tipo datetime.
datos[‘fecha_instalacion’] = pd.to_datetime(datos[‘fecha_instalacion’], errors=’coerce’)

# Paso 7: Crear nuevas columnas derivadas
# Narrador: Creamos nuevas columnas que pueden ser útiles para el análisis. Por ejemplo, una columna que indique si el dispositivo es antiguo.
datos[‘dispositivo_antiguo’] = datos[‘fecha_instalacion’] < '2020-01-01' # Paso 8: Guardar los datos limpios en un nuevo archivo CSV # Narrador: Finalmente, guardamos los datos limpios en un nuevo archivo CSV para su uso posterior. datos.to_csv('datos_casa_conectada_limpios.csv', index=False) # Narrador: ¡Y eso es todo! Hemos limpiado y preparado nuestros datos sobre la casa conectada. Este script puede ser adaptado a otros conjuntos de datos con ligeras modificaciones. ``` Este script realiza las siguientes tareas: 1. Carga los datos desde un archivo CSV. 2. Muestra las primeras filas del dataframe para entender su estructura. 3. Verifica y maneja valores faltantes. 4. Limpia los datos de texto para eliminar caracteres no deseados y convertir a minúsculas. 5. Convierte columnas a tipos de datos adecuados. 6. Crea nuevas columnas derivadas que pueden ser útiles para el análisis. 7. Guarda los datos limpios en un nuevo archivo CSV. Este script puede ser adaptado a otros conjuntos de datos con ligeras modificaciones.

Retour en haut