Ferramentas do usuário

Ferramentas do site


pandas

Pandas

 import pandas as pd 

Importas CSV

 df = pd.read_csv('nomefile.csv', sep=';', encoding='cp1252', usecols=[1,2,5])  

OBS: os argumentos não são obrigatórios além do próprio nome_do_arquivo. Por default o encoding é UTF-8 e separado por ,.

Verificar o tamanho do Data Frame

df.shape

Return: Linhas x Colunas

Descreve os dados

Muito útil para verificar se tem colunas vazias

df.info()

Mostrar primeiras linhas

df.head(3)

OBS: por default mostra 5 linhas

Mostra as ultimas linhas

df.tail()

Mostra linhas Amostras (aleatórias) do Data Frame

df.sample(5)

Conta o número de linhas de cada coluna

df.count()

Mostra os tipos de objetos de cada coluna

df.dtypes

Descreve colunas

df.describe()

Obter os valores de describe:

alturas = df['alturas']
alt_descri = alturas.describe()
q1 = alt_descri['25%']
mediana = alt_descri['50%']
q3 = alt_descri['75%']

O Return de describe() são: quantidades de registros, média, desvio-padrão, menor valor, 1º quartil (25%), mediana (50%), 3º quartil (75%) e maior valor.

Trocar o nome das colunas

df.columns=['nome_coluna1','nome_coluna2','nome_coluna3']

Contagem de linhas por valores iguais em uma coluna

df['nome_coluna'].value_counts()

Ordenação dos valores

df['nome_coluna'].value_counts().sort_index()

Gerar gráficos

Gerar Histogramas

 
df.hist(column="Age",bins=100)
plt.show()

Argumento bins é a subdivisão dos dados

Gráfico de barras verticais

df['nome_coluna'].value_counts().plot.bar()

Gráfico de barras horizontais

df['nome_coluna'].value_counts(ascending=True).plot.barh(title='titulo_grafico')
  • ascending=True - Organiza a tabela antes de plotar o gráfico

obs: caso esteja utilizando o python jupiter utilize o comando %matplotlib inline antes de gerar o gráfico.

Listar string* únicas do DataFrame

df['nome_coluna'].unique()

Filtro de data frame

Gera um Data Frame de Retorno da coluna filtrada.

Filtrar por uma variável

df_objeto_filtrado = df[df['nome_coluna']=='nome_objeto_a_ser_filtrado']

Mostrar apenas uma coluna do Data Frame

df['nome_coluna']

Mostrar duas ou mais colunas do Data Frame

df[['nome_coluna1','nome_coluna2','nome_coluna3']]

Filtrar por um string e conta as aparições

df[df['nome_coluna'].str.contains('string_a_pesquisar').count()]

Filtrar por maior valor

df[df['nome_coluna']==df['nome_coluna'].max()]

Filtrar por menor valor

df[df['nome_coluna']==df['nome_coluna'].min()]

Agrupamento de dados

df.groupby('uf_busca')['mensalidade'].max()

Return: uf e mensalidade

Localização de linhas do Agrupamento de dados

Como o agrupamento retorna apenas as linhas envolvidas no filtro, utiliza-se o loc para retornar a linha correspondente aos ids da filtragem realizadas e mostra elas completas.

df.loc[df.groupby('uf_busca')['mensalidade'].idxmax()] 

Filtrar entre valores

df[(df['mensalidade']>500) & (df['mensalidade']<1000)]

Query

df_fem = df.query('Sexo=="F" & Peso <60)
altura_fem = df_fem['Alt']
 
pandas.txt · Última modificação: 2024/07/07 20:19 por jdos

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki