• Nenhum resultado encontrado

Thiago Marzagão 1 PRÉ-PROCESSAMENTO

N/A
N/A
Protected

Academic year: 2021

Share "Thiago Marzagão 1 PRÉ-PROCESSAMENTO"

Copied!
20
0
0

Texto

(1)

MINERAC

¸ ˜

AO DE DADOS

Thiago Marzag˜ao1

1marzagao.1@osu.edu

(2)
(3)
(4)
(5)

str como int/float

import pandas as pd data = pd.read_csv(‘municipios.csv’) data data.columns data[‘codigo’]

id (‘codigo’) deveria ser str (ou object), n˜ao int do contr´ario v´arias coisas podem dar errado:

...zeros `a esquerda podem desaparecer

...id pode ser arredondado

(6)

int/float como str

data[‘rural’] data[‘rural’] + 5 data[‘rural’] * 5 "macarena" * 5

‘rural’ deveria ser float, n˜ao str ou object do contr´ario v´arias coisas podem dar errado: ...opera¸c˜oes matem´aticas v˜ao dar erro ...o erro pode ser silencioso!

(7)

solu¸c˜

ao

data = pd.read_csv(‘municipios.csv’,

dtype = {‘codigo’: str, ‘rural’: float}) data

(8)

separador de campos = separador de decimal

data = pd.read_csv(‘municipios2.csv’) data

Em municipios2.csv o separador de campos e o separador de decimal

s˜ao o mesmo: ,

(9)

separador de campos = separador de decimal

data = pd.read_csv(‘municipios.csv’,

dtype = {‘rural’: float"}, decimal = ‘,’)

(10)

separador de campos != v´ırgula

Nem sempre a v´ırgula ´e o separador de campo.

O Excel em portuguˆes, por exemplo, exporta p/ CSV separando c/

ponto-e-v´ırgula.

Nesses casos ´e preciso informar explicitamente o separador:

(11)

CSV sem nomes de colunas

Quando o CSV n˜ao tem nomes de colunas:

(12)

pulando linhas

data = pd.read_csv(‘municipios.csv’, skiprows = 5) data

(13)

pulando colunas

data = pd.read_csv(‘municipios.csv’,

usecols = [‘latitude’, ‘longitude’]) data

(14)

missing data

v´arios “tipos” de missing data: None (em Python)

NULL (SQL, outras linguagens) (errado! n˜ao fa¸cam)

- (errado! n˜ao fa¸cam) 0 (errado! n˜ao fa¸cam)

01/01/1900 (errado! n˜ao fa¸cam)

(15)

missing data

missing data propriamente identificado:

(50.5 + 42.1 + 30.4 + 60.7 + None + 45.8) / 6 d´a erro; e isso ´e bom!

vocˆe n˜ao quer que essa m´edia seja calculada missing data impropriamente identificado:

(50.5 + 42.1 + 30.4 + 60.7 + -999 + 45.8) / 6 (50.5 + 42.1 + 30.4 + 60.7 + 0 + 45.8) / 6 (50.5 + 42.1 + 30.4 + 60.7 + -1 + 45.8) / 6

(16)

missing data

p/ encontrar poss´ıveis problemas: data[‘rural’].describe()

(17)

duplicidades

origem: por exemplo, diferentes grafias de um mesmo nome

(18)

unidade inconsistente

(19)

datas em formatos inconsistentes

caso mais comum: confus˜ao entre DD/MM/AAAA e MM/DD/AAAA

3/4/2005? 3 de abril de 2005 ou 4 mar¸co de 2005?

(20)

dicion´

ario de dados

dicion´ario de dados = arquivo contendo descri¸c˜ao detalhada de cada

Referências

Documentos relacionados

e os modelos patrocinados, que até no espaço da publicação do site, têm sempre a marca LAB Observador, bem visível, não sendo por isso confundível». De seguida,

a) Respeito à Vida – significando prover um sistema viário seguro, confortável e confiável, mantendo a integridade das pessoas e bens a serem deslocados

Objetivou-se com este estudo avaliar a qualidade microbiológica da carne ovina in natura por meio da determinação do Número Mais Provável (NMP) para Coliformes Totais

Acolhimento no aeroporto de Marselha pelo representante da DRAF e transporte de autocarro para o hotel (Le-Cannet-des-Maures, no centro do Departamento do Var).. 18h30 Alojamento

Os resultados deste último deste apresentam uma distribuição semelhante em relação aos dois casos de protocolo de transporte utilizado, e a presença ou não de

3º A licitação destina-se a garantir a observância do princípio constitucional da isonomia, a seleção da proposta mais vantajosa para a administração e a promoção

Percebemos que os e as jovens, assim como as crianças têm uma naturalidade para a prática de instrumentos percussivos e essa dinâmica propiciou uma nova dimensão para

do texto 1. Procuraremos mostrar se no conto I love my husband os dois seres, a saber, o marido e a mulher ocorrem as seguintes sintagmatizações: a) se são unidos na mesma frase ou