Estadistica Practica Para Ciencia De Datos Y Python High Quality -
¿Quieres recomendaciones de artículos y papers interesantes sobre estadística práctica para ciencia de datos usando Python (alta calidad)? Asumiré que buscas papers y recursos académicos/prácticos; te doy una lista curada con breve descripción y por qué resultan útiles.
Final Code: A Complete Pipeline
def statistical_report(df, numeric_col, categorical_col=None):
"""Quick statistical summary for a numeric column."""
data = df[numeric_col].dropna()
print(f"=== Statistical Report: numeric_col ===\n")
# Descriptives
print(f"Mean: np.mean(data):.2f")
print(f"Median: np.median(data):.2f")
print(f"Std: np.std(data, ddof=1):.2f")
print(f"Skewness: stats.skew(data):.3f")
# Normality
_, p_norm = stats.normaltest(data)
print(f"Normal? p=p_norm:.4f → 'Yes' if p_norm>0.05 else 'No'")
# CI
ci = stats.t.interval(0.95, len(data)-1, loc=np.mean(data), scale=stats.sem(data))
print(f"95% CI: [ci[0]:.2f, ci[1]:.2f]")
# Compare groups
if categorical_col and categorical_col in df.columns:
groups = [group[numeric_col].dropna().values
for name, group in df.groupby(categorical_col)]
if len(groups) == 2:
stat, p = stats.mannwhitneyu(*groups, alternative='two-sided')
print(f"\ncategorical_col comparison: p=p:.4f")
# Plot
fig, axes = plt.subplots(1, 2, figsize=(12,4))
sns.histplot(data, kde=True, ax=axes[0])
sns.boxplot(y=data, ax=axes[1])
plt.suptitle(f"numeric_col Distribution")
plt.show()
Distribución Normal vs. Realidad
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
Intervalos de Confianza (IC)
Un IC del 95% significa: "si tomaramos 100 muestras distintas, en 95 de ellas el parámetro verdadero caería dentro de este intervalo". Distribución Normal vs
from scipy import stats
import numpy as np