===== Atividades do Aprendizado ===== - Subdivisão: Dados de treino de testes. - Escolha de algoritmos - Treinamento - Avaliação e teste ==== Interação do aprendizado cíclico ==== Realizar nova avaliação -> Modificar os dados -> Alterar os Parâmetros -> Realizar novos testes ===== Descrição de Padrões ===== ==== Tendência Central ==== - Média - Mediana - Moda ==== Dispersão ou disseminação de dados ==== - Faixa - Mínimo - Máximo - Quartis - Variância - Desvio-padrão ==== Outros ==== - Tabela de distribuição de frequência - Histograma - Gráfico de pizza - Polígonos de frequência - Gráficos de barras ===== Valores Ausentes ===== - Recorrer ao processo que ela é gerada e tentar recupera-la - **Imputation** - alterar um valor ausente por um substituto, exitem técnicas: - Educated Guessing - deduz o valor de acordo com o padrão dos dados - Não muito utilizada - Average Imputation - utiliza-se o valor médio da coluna (para dados numéricos) e atribui esse valor para os campos ausentes. - Common point Imputation - Utiliza-se o valor mais comum da coluna e insere aos campos vazios. - Regression Substitution - Cria-se um modelo de regressão múltiplo para estimar valores ausentes. - Multiple Imputation - Estende o conceito de regressão com a identificação de correlações com os dados ausentes. === Normalização de Valores === Deixar todos os conjuntos de dados em uma escala comum, sem distorcer as diferenças no intervalo de valores, ou seja, transformar um conjunto de dados que estão em diferentes grandezas e escalas em um conjunto de dados padronizados. ===== Outliers ===== === Tratamento de outliers === É um valor atípico, que apresenta um grande afastamento dos valores da série, ou que é inconsistente, ou seja, identificar registros fora do comum e analisá-los de acordo com o interesse. É um estratégia para melhorar ou adequar o conjunto de dados obtidos. Os resultados de um pesquisa podem ser **fortemente comprometidos devido ao fato de pessoas se sentirem constrangidas e não querem responder determinadas questões.** Técnicas para preencher informações faltantes: - Descartar a pessoa/dado que tenha pelo menos uma variável faltante. - Preencher o dado faltante utilizando técnicas de imputação de dados (como já citadas). ==== Sites para dados públicos brasileiros ==== - https://dadosabertos.camara.leg.br/ - https://www.senado.leg.br/ - http://dadosabertos.cl.df.gov.br/ - http://dados.gov.br - http://dados.df.gov.br/ - https://brasil.io/ - https://patiodigital.prefeitura.sp.gov.br/