Motivación: visualizar datos multidimensionales

Motivación: visualizar datos multidimensionales#

Clasificación y clustering#

Datos bidimensionales con etiquetas

	x1	x2	label
0	2.631858	0.689365	1
1	0.080804	4.690690	0
2	3.002519	0.742654	1
3	-0.637628	4.091047	0
4	-0.072283	2.883769	0
5	0.628358	4.460136	0
6	-2.674373	2.480062	2
7	-0.577483	3.005434	2
8	2.727562	1.305125	1
9	0.341948	3.941046	0

_images/db40463c1fce0b90966f368b227be6fabe4b661e168dd2e24bdedef894fa07e2.png

Datos tridimensionales con etiquetas

	x1	x2	x3	label
0	9.863844	0.448826	9.282223	0
1	10.596115	-11.280679	-5.449909	2
2	-2.083092	7.565793	-5.662472	3
3	5.578687	5.149093	-6.176931	1
4	4.101746	3.373981	-6.774126	1

_images/97f4489ad6fde5c5f8e5d41f622c6bb2517a9a0ee7efbd5b8e7534ad0c764703.png

Regresión#

<matplotlib.legend.Legend at 0x199c5e86fd0>

_images/84127f391a9fe35c517754a88d3307dab489c849c5738510fc60fa6c25f9576b.png

_images/213fa2fa203939fb16573eba2e7705d65e2edc6887ad862dba2fa2bc154fce14.png

Más de tres dimensiones#

Cuando tenemos más dimensiones no podemos visualizar los datos.

Datos iris

Usamos la scatter_matrix

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

df = pd.DataFrame(iris.data, columns=iris.feature_names)
colors=np.array(50*['r']+50*['g']+50*['b'])
pd.plotting.scatter_matrix(df, 
                           alpha=0.6, 
                           figsize=(10,10), 
                           #color=colors,
                           hist_kwds={'bins':30})
plt.show()

_images/25958f44a25d93da040d6e83fc9893ae00d6d9c1f65d91aab8747043f2aa8eba.png

_images/5f80d7b564f30f9250f0e40879d1fa30be40b0dd6bb6e3bc152d5c9adc313151.png

	species	island	bill_length_mm	bill_depth_mm	flipper_length_mm	body_mass_g	sex
0	Adelie	Torgersen	39.1	18.7	181.0	3750.0	Male
1	Adelie	Torgersen	39.5	17.4	186.0	3800.0	Female
2	Adelie	Torgersen	40.3	18.0	195.0	3250.0	Female
3	Adelie	Torgersen	NaN	NaN	NaN	NaN	NaN
4	Adelie	Torgersen	36.7	19.3	193.0	3450.0	Female
5	Adelie	Torgersen	39.3	20.6	190.0	3650.0	Male
6	Adelie	Torgersen	38.9	17.8	181.0	3625.0	Female
7	Adelie	Torgersen	39.2	19.6	195.0	4675.0	Male
8	Adelie	Torgersen	34.1	18.1	193.0	3475.0	NaN
9	Adelie	Torgersen	42.0	20.2	190.0	4250.0	NaN

Método pairplot del paquete seaborn

https://seaborn.pydata.org/generated/seaborn.pairplot.html

sns.pairplot(df)

<seaborn.axisgrid.PairGrid at 0x199c172f770>

_images/98b3daad13c6726a942f745289015092c708d2ea26194367f99fc900134f0ae2.png

sns.pairplot(df, hue="species")

<seaborn.axisgrid.PairGrid at 0x199c73c6850>

_images/21a012a491eddfedaa57273e3d0e6eea16ff3198c4d50429506907fd42592765.png

Puede haber datos sin etiquetas

	x1	x2	x3	x4	x5
0	-0.224315	-8.840152	10.145993	33.286302	-1.376902
1	1.337257	2.383882	-1.854636	-11.590022	18.471552
2	0.882366	3.544989	-1.117054	-14.303068	14.009670
3	0.295153	-3.844863	3.634823	15.538617	-4.391063
4	0.780587	-0.465342	2.121288	2.874332	1.209348

_images/3c85780d20e3362de432176433cd85752113170f5e705e5794a2d337554fccc6.png

Proyecciones#

Las gráficas anteriores son proyecciones ortogonales de los datos sobre los diferentes planos formados eligiendo coordenadas de los diferentes atributos, por parejas

Ejemplo ad hoc en tres dimensiones

	x1	x2	x3	label
0	-1.017333	0.098265	0.038147	4
1	-1.266728	-0.147091	0.011565	4
2	-1.010595	-0.059136	-0.128969	4
3	0.018001	-1.076903	0.076536	5
4	-0.088302	-0.908741	-0.319811	5

_images/b12be07a169b36dfa2b1d601c1fd8e13c7f09ae17dd0ee73d0fb90cc42df791c.png

<seaborn.axisgrid.PairGrid at 0x199c5d74050>

_images/ff60a500583de54a27efb2d996fad5ddefec00b392aade3832258dc3d9facccc.png

_images/8b6c13848adc18dabfe52650242724b86306c8764e3db486b4f691207353ae1a.png

Ninguna proyección es completamente satisfactoria: problema con la distancia.

Nota: estas no son las únicas proyecciones posibles.Existen más proyecciones posibles

Recordatorio: proyección ortogonal en una recta

Ejemplo ad hoc en el plano

	x1	x2
0	1.056981	0.935569
1	0.781720	0.935267
2	0.810779	0.867002
3	0.906029	1.030259
4	1.103518	1.027526

<seaborn.axisgrid.PairGrid at 0x199c18eafd0>

_images/09b95e4debe8905d682cc0393a8511f53ddeedbc77e91af1f7d11b13a5578fc3.png

Show code cell output Hide code cell output

	x1	x2	p1	p2
0	1.056981	0.935569	0.996275	0.060706
1	0.781720	0.935267	0.858494	-0.076773
2	0.810779	0.867002	0.838890	-0.028112
3	0.906029	1.030259	0.968144	-0.062115
4	1.103518	1.027526	1.065522	0.037996

_images/a6f092a7c8e2ab1c76012c01a6136161caf36895f7a36d82b0267ed8037d92f1.png

Nota: existen direcciones para las cuales las proyecciones son más adecuadas

Mapa#

Un mapa es una proyección cartográfica en la que puntos geográficos cercanos están cerca en el mapa.

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2