¡Hola, mineros de datos! ¿Listos para un juego divertido sobre data mining en Python? ¡Vamos

¡Hola, mineros de datos! ¿Listos para un juego divertido sobre data mining en Python? ¡Vamos a crear un juego interactivo que te ayudará a aprender y practicar conceptos básicos del data mining de una manera entretenida!

### Introducción al Juego

En este juego, tú serás un científico de datos que debe resolver misterios utilizando técnicas de data mining. Cada nivel te presentará un conjunto de datos y una pregunta que deberás resolver utilizando Python. ¡Vamos a empezar!

### Nivel 1: Exploración de Datos

Objetivo: Descubrir la media de edades en un conjunto de datos.

« `python
# Importar librerías necesarias
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
‘Nombre’: [‘Ana’, ‘Carlos’, ‘María’, ‘Luis’],
‘Edad’: [25, 30, 22, 35]
}
df = pd.DataFrame(data)

# Calcular la media de edades
media_edad = df[‘Edad’].mean()
print(f »La media de edades es: {media_edad} »)
« `

### Nivel 2: Limpieza de Datos

Objetivo: Eliminar valores nulos en un conjunto de datos.

« `python
# Importar librerías necesarias
import numpy as np

# Crear un DataFrame con valores nulos
data = {
‘Nombre’: [‘Ana’, ‘Carlos’, ‘María’, ‘Luis’],
‘Edad’: [25, np.nan, 22, 35]
}
df = pd.DataFrame(data)

# Eliminar filas con valores nulos en la columna ‘Edad’
df_limpio = df.dropna(subset=[‘Edad’])
print(df_limpio)
« `

### Nivel 3: Análisis de Clústeres

Objetivo: Agrupar datos en clústeres utilizando el algoritmo K-means.

« `python
# Importar librerías necesarias
from sklearn.cluster import KMeans

# Crear un DataFrame de ejemplo
data = {
‘Ingresos’: [50000, 60000, 70000, 80000],
‘Gastos’: [30000, 35000, 40000, 45000]
}
df = pd.DataFrame(data)

# Aplicar K-means con 2 clústeres
kmeans = KMeans(n_clusters=2)
df[‘Cluster’] = kmeans.fit_predict(df[[‘Ingresos’, ‘Gastos’]])
print(df)
« `

### Nivel 4: Predicción con Regresión Lineal

Objetivo: Predecir el precio de una casa basado en su tamaño.

« `python
# Importar librerías necesarias
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# Crear un DataFrame de ejemplo
data = {
‘Tamaño’: [100, 200, 300, 400],
‘Precio’: [150000, 250000, 350000, 450000]
}
df = pd.DataFrame(data)

# Separar las características y la etiqueta
X = df[[‘Tamaño’]]
y = df[‘Precio’]

# Dividir el conjunto de datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo de regresión lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Hacer una predicción
prediccion = modelo.predict(X_test)
print(f »Predicción del precio para una casa de 250 metros cuadrados: {modelo.predict([[250]])} »)
« `

### Nivel 5: Evaluación del Modelo

Objetivo: Evaluar la precisión de un modelo de clasificación.

« `python
# Importar librerías necesarias
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Crear un DataFrame de ejemplo
data = {
‘Ingresos’: [50000, 60000, 70000, 80000],
‘Ahorros’: [10000, 15000, 20000, 25000],
‘Riesgo’: [‘Bajo’, ‘Medio’, ‘Alto’, ‘Bajo’]
}
df = pd.DataFrame(data)

# Convertir la columna ‘Riesgo’ a enteros
df[‘Riesgo’] = df[‘Riesgo’].map({‘Bajo’: 0, ‘Medio’: 1, ‘Alto’: 2})

# Separar las características y la etiqueta
X = df[[‘Ingresos’, ‘Ahorros’]]
y = df[‘Riesgo’]

# Dividir el conjunto de datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y