pandas
Essa é uma revisão anterior do documento!
Tabela de conteúdos
Pandas
import pandas as pd
Importas CSV
df = pd.read_csv('nomefile.csv', sep=';', encoding='cp1252', usecols=[1,2,5])
OBS: os argumentos não são obrigatórios além do próprio nome_do_arquivo.
Por default
o encoding é UTF-8
e separado por ,
.
Verificar o tamanho do Data Frame
df.shape()
Return: Linhas x Colunas
Descreve os dados
Muito útil para verificar se tem colunas vazias
df.info()
Mostrar primeiras linhas
df.head(3)
OBS: por default
mostra 5 linhas
Mostra as ultimas linhas
df.tail()
Mostra linhas Amostras (aleatórias) do Data Frame
df.sample(5)
Conta o número de linhas de cada coluna
df.count()
Mostra os tipos de objetos de cada coluna
df.dtypes
Descreve colunas
df.describe()
Trocar o nome das colunas
df.columns=['nome_coluna1','nome_coluna2','nome_coluna3']
Contagem de linhas por valores iguais em uma coluna
df['nome_coluna'].value_counts()
Gerar gráficos
Gráfico de barras verticais
df['nome_coluna'].value_counts().plot.bar()
Gráfico de barras horizontais
df['nome_coluna'].value_counts(ascending=True).plot.barh(title='titulo_grafico')
- ascending=True - Organiza a tabela antes de plotar o gráfico
obs: caso esteja utilizando o python jupiter utilize o comando %matplotlib inline
antes de gerar o gráfico.
Listar string* únicas do DataFrame
df['nome_coluna'].unique()
Filtro de data frame
Gera um Data Frame de Retorno
da coluna filtrada.
Filtrar por uma variável
df_objeto_filtrado = df[df['nome_coluna']=='nome_objeto_a_ser_filtrado']
Filtrar por um string e conta as aparições
df[df['nome_coluna'].str.contains('string_a_pesquisar').count()]
Filtrar por maior valor
df[df['nome_coluna']==df['nome_coluna'].max()
pandas.1720359350.txt.gz · Última modificação: 2024/07/07 10:35 por jdos