import pandas as pd
df = pd.read_csv('nomefile.csv', sep=';', encoding='cp1252', usecols=[1,2,5])
OBS: os argumentos não são obrigatórios além do próprio nome_do_arquivo.
Por default
o encoding é UTF-8
e separado por ,
.
df.shape
Return: Linhas x Colunas
Muito útil para verificar se tem colunas vazias
df.info()
df.head(3)
OBS: por default
mostra 5 linhas
df.tail()
df.sample(5)
df.count()
df.dtypes
df.describe()
Obter os valores de describe:
alturas = df['alturas'] alt_descri = alturas.describe() q1 = alt_descri['25%'] mediana = alt_descri['50%'] q3 = alt_descri['75%']
O Return de describe() são: quantidades de registros, média, desvio-padrão, menor valor, 1º quartil (25%), mediana (50%), 3º quartil (75%) e maior valor. |
df.columns=['nome_coluna1','nome_coluna2','nome_coluna3']
df['nome_coluna'].value_counts()
df['nome_coluna'].value_counts().sort_index()
df.hist(column="Age",bins=100) plt.show()
Argumento bins é a subdivisão dos dados
df['nome_coluna'].value_counts().plot.bar()
df['nome_coluna'].value_counts(ascending=True).plot.barh(title='titulo_grafico')
obs: caso esteja utilizando o python jupiter utilize o comando %matplotlib inline
antes de gerar o gráfico.
df['nome_coluna'].unique()
Gera um Data Frame de Retorno
da coluna filtrada.
df_objeto_filtrado = df[df['nome_coluna']=='nome_objeto_a_ser_filtrado']
df['nome_coluna']
df[['nome_coluna1','nome_coluna2','nome_coluna3']]
df[df['nome_coluna'].str.contains('string_a_pesquisar').count()]
df[df['nome_coluna']==df['nome_coluna'].max()]
df[df['nome_coluna']==df['nome_coluna'].min()]
df.groupby('uf_busca')['mensalidade'].max()
Return: uf e mensalidade
Como o agrupamento retorna apenas as linhas envolvidas no filtro, utiliza-se o loc
para retornar a linha correspondente aos ids da filtragem realizadas e mostra elas completas.
df.loc[df.groupby('uf_busca')['mensalidade'].idxmax()]
df[(df['mensalidade']>500) & (df['mensalidade']<1000)]
df_fem = df.query('Sexo=="F" & Peso <60) altura_fem = df_fem['Alt']