-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathcuaderno_panda.py
More file actions
129 lines (86 loc) · 4.59 KB
/
cuaderno_panda.py
File metadata and controls
129 lines (86 loc) · 4.59 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
# -*- coding: utf-8 -*-
"""Python TOTAL - Pandas.ipynb
Automatically generated by Colaboratory.
Original file is located at
https://colab.research.google.com/drive/1uXPQgRFyhRzarWbO9ytZ1Y2amriZgeex
# Práctica de la librería Pandas
En este notebook, se desarrollarán una serie de tareas utilizando la librería Pandas (el "Excel" de Python).
Se proponen y documentan posibles formas de resolver los ejercicios, pero pueden existir varias formas de lograr los mismos resultados.
Siempre es una buena idea verificar la [Documentación Oficial de Pandas](https://pandas.pydata.org/pandas-docs/stable/), donde es posible encontrar todo tipo de información referida a esta librería. Y si te quedas trabado, busca en Google "como hacer [algo] con Pandas". Hay enormes probabilidades de que esa pregunta ya haya sido respondida!
"""
# Importamos Pandas
import pandas as pd
# Creamos una serie de números y hallamos su media
numeros = pd.Series([1,2,3,5,67,35,235,62])
numeros.mean()
# Hallamos la suma de dichos números
numeros.sum()
# Creamos una SERIE de tres colores diferentes
colores = pd.Series(['rojo','amarillo','verde'])
# Visualizamos la serie creada
colores
# Creamos una serie con tipos de autos, y la visualizamos
tipos_autos = pd.Series(['sedan', 'SUV', 'Pick up'])
tipos_autos
# Combinamos las series de tipos de autos y colores en un DATAFRAME
tabla_autos = pd.DataFrame({'Tipo de Auto':tipos_autos, 'Color':colores})
tabla_autos
# Conectamos el cuaderno actual con nuestro Drive
from google.colab import drive
drive.mount('/content/drive')
# Importar "ventas-autos.csv" y convertirlo en un nuevo DATAFRAME
ventas_autos = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/ventas-autos.csv')
ventas_autos
"""Este será nuestro "Dataframe de Flujo Vehicular"
"""
# Exportar el Dataframe como un archivo CSV a mi carpeta "/content/drive/MyDrive/Colab Notebooks/pruebas/"
ventas_autos.to_csv('/content/drive/MyDrive/Colab Notebooks/este_archivo.csv')
# Analicemos los tipos de datos disponibles en el dataset de ventas autos
ventas_autos.dtypes
# Apliquemos estadística descriptiva (cantidad de valores, media, desviación estándar, valores mínimos y máximos, cuartiles) al dataset
ventas_autos.describe()
# Obtenemos información del dataset utilizando info()
ventas_autos.info()
# Listamos los nombres de las columnas de nuestro dataset
ventas_autos.columns
# Averiguamos el "largo" de nuestro dataset
len(ventas_autos)
# Mostramos las primeras 5 filas del dataset
ventas_autos.head()
# Mostramos las primeras 7 filas del dataset
ventas_autos.head(7)
# Mostramos las últimas 3 filas del dataset
ventas_autos.tail(3)
# Utilizamos .loc para seleccionar la fila de índice 3 del DataFrame
ventas_autos.loc[3]
# Utilizamos .iloc para seleccionar las filas 3, 7 y 9
ventas_autos.iloc[[3,7,9]]
"""En la documentación podrás observar la diferencia entre el funcionamiento de [.loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html) e [.iloc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)."""
# Seleccionar la columna "Kilometraje"
ventas_autos['Kilometraje']
# Encontrar el valor medio de la columnas "Kilometraje"
ventas_autos['Kilometraje'].mean()
# Seleccionar aquellas columnas que tengan valores superiores a 100,000 kilómetros en la columna Kilometraje
ventas_autos[ventas_autos['Kilometraje'] > 100000]
# Creamos una tabla cruzada de doble entrada entre Fabricante y cantidad de puertas
pd.crosstab(ventas_autos['Fabricante'], ventas_autos['Puertas'])
# Agrupamos las columnas por fabricante y buscandos el valor medio de las columnas numéricas
ventas_autos.groupby(['Fabricante']).mean()
# Commented out IPython magic to ensure Python compatibility.
# Importamos Matplotlib y creamos un gráfico con los valores de la columna Kilometraje
import matplotlib as plt
# %matplotlib inline
ventas_autos['Kilometraje'].plot()
# Puede que un gráfico más apropiado en este caso sea un histograma?
ventas_autos['Kilometraje'].hist()
# Intentamos graficar la columna de precios
ventas_autos['Precio (USD)'].plot()
"""No funcionó, verdad? Alguna idea de por qué esto puede ocurrir?
Una pista es buscar: "cómo convertir strings de Pandas a números"
[Aqui hay un enlace a StackOverflow referido a este tema](https://stackoverflow.com/questions/44469313/price-column-object-to-int-in-pandas).
"""
# Elimina la puntuación de la columna de precios
ventas_autos['Precio (USD)'] = ventas_autos['Precio (USD)'].str.replace('[\$\.\,]', '')
ventas_autos['Precio (USD)'] = ventas_autos['Precio (USD)'].astype(int)/100
ventas_autos
ventas_autos['Precio (USD)'].plot()