Bem-vindo à minha seção "Projetos Concluídos", a qual é um espaço dedicado à exibição orgulhosa de projetos desenvolvidos ao longo de minha formação e impulsionados por minha curiosidade em temas específicos. Esta seção destaca meu trabalho em visualização de dados, painéis, análise de dados e aprendizado de máquina. Cada projeto ilustra minha habilidade técnica, pensamento inovador e jornada contínua rumo à maestria nessas áreas. Importante ressaltar que todos os projetos apresentados utilizam conjuntos de dados públicos, evidenciando minha capacidade de extrair insights significativos e criar narrativas visuais envolventes a partir de informações amplamente acessíveis.
Por favor, note que, em consonância com padrões de privacidade e para assegurar a confidencialidade dos dados de clientes, esta seção exclui intencionalmente projetos reais de clientes. Nosso compromisso com a privacidade é firme, garantindo que cada projeto seja tratado com o mais alto nível de discrição e respeito pela confidencialidade. Convido você a explorar esta seção para testemunhar o potencial e as possibilidades que trago para cada desafio, destacando minha paixão pela visualização de dados, dashboards, análise de dados e aprendizado de máquina.
Modelo de Previsão de Risco de Concessão de Crédito
Este projeto descreve a criação de um modelo de aprendizado de máquina destinado a auxiliar na decisão de concessão de crédito a novos clientes por instituições financeiras. Ele representa uma ferramenta essencial para os tomadores de decisão do setor financeiro, ajudando a reduzir riscos e aprimorar práticas de concessão de crédito. O desenvolvimento do modelo foi realizado no ambiente de desenvolvimento integrado RStudio, utilizando a linguagem de programação R e vários pacotes essenciais para a execução de todas as etapas necessárias. Essas etapas incluíram a limpeza dos dados, análise exploratória, engenharia de recursos e o treinamento de modelos de aprendizado de máquina, explorando diferentes algoritmos e variáveis preditivas para determinar os modelos mais eficazes.
Realizado como parte do meu curso de "Big Data Analytics com R e Azure Machine Learning" na Data Science Academy (www.datascienceacademy.com.br), este projeto representa uma oportunidade de aplicar novas habilidades e conhecimentos em cenários do mundo real. Embora os instrutores fornecessem uma solução para o problema em questão, meu objetivo era refinar e inovar as metodologias existentes, aproveitando técnicas avançadas de manipulação de dados e seleção de modelos.
Este projeto visou desenvolver um modelo avançado de previsão de risco de crédito, adaptado às necessidades específicas das instituições financeiras. Através de coleta de dados abrangente e análise exploratória, aprimorei a precisão e confiabilidade do modelo. Utilizei algoritmos como Random Forest, Support Vector Machines e Naive Bayes para identificar a metodologia mais eficaz.
Neste Projeto de Previsão de Risco de Concessão de Crédito, apliquei técnicas de aprendizado de máquina para abordar desafios reais enfrentados por instituições financeiras. Aperfeiçoei um modelo preditivo para o risco de concessão de crédito, alcançando uma precisão geral de 88,7%, com uma precisão específica de 87,7% e um recall de 85,5%.
Você pode acessar o relatório final, o dataset e todos os arquivos usados neste projeto no meu repositório GitHub clicando aqui.
Exploração das Condições de Saneamento nos Estados Brasileiros
Este projeto conduz uma análise exploratória profunda dos dados de saneamento de vários estados do Brasil. O principal objetivo foi investigar a relação entre a população beneficiada pelos serviços de abastecimento de água e esgotamento sanitário, considerando também as variações demográficas entre os estados.
O objetivo deste projeto é realizar uma análise detalhada das condições de saneamento no Brasil, empregando técnicas sofisticadas de visualização de dados para revelar padrões e desigualdades. Dedicou-se atenção especial à elaboração de um gráfico de dispersão que mostra a relação entre a proporção da população beneficiada pelos serviços de abastecimento de água e esgotamento sanitário. Nesse gráfico, os estados são representados em diferentes cores, e o tamanho dos pontos reflete a população de cada estado. Para enriquecer a análise, foram conduzidas outras avaliações, predominantemente gráficas, para obter insights adicionais.
A análise exploratória revelou percepções significativas sobre as desigualdades nas condições de saneamento entre os estados do Brasil. O gráfico de dispersão destacou variações consideráveis no acesso à infraestrutura de saneamento, evidenciando diferenças marcantes entre as regiões. Análises gráficas suplementares foram eficazes em identificar padrões e correlações que ajudam a compreender as disparidades no acesso ao saneamento observadas entre os estados.
utilizando técnicas avançadas de visualização para extrair informações essenciais. Com metodologias detalhadas e explicações claras, serve como um recurso valioso para pesquisadores, políticos e demais interessados em melhorar a infraestrutura de saneamento e abordar as disparidades regionais. Mediante análises contínuas e intervenções fundamentadas em dados, é possível avançar na garantia de acesso equitativo às instalações de saneamento para todos os cidadãos brasileiros.
Clique aqui aqui para acessar o relatório final e todos os arquivos, incluindo o conjunto de dados, no meu repositório GitHub, ou clique aqui para explorar um dashboard interativo no Tableau Public, onde você pode realizar análises por região, estado ou volume.
Análise Financeira de Custos Hospitalares com SQL e R
Este projeto utiliza SQL e R para analisar dados de custos hospitalares, coletados através de uma ampla pesquisa nacional realizada pela Agência de Saúde dos EUA. Concentrando-se em registros de pacientes internados de 0 a 17 anos em Wisconsin, a pesquisa adotou uma metodologia analítica em duas fases para explorar questões sobre os custos hospitalares e as características demográficas dos pacientes.
O principal propósito deste estudo foi mostrar como o SQL e o R podem ser integrados de maneira eficaz para realizar análises estatísticas descritivas, criar testes de hipóteses simples e desenvolver modelos lineares. Essa metodologia não apenas proporciona uma clara compreensão das despesas em saúde, mas também destaca os principais fatores que impactam esses custos.
Na etapa inicial, utilizou-se o SQL para conduzir uma análise exploratória, criando uma base sólida para pesquisas mais aprofundadas. Posteriormente, realizou-se uma análise estatística avançada com o uso do R, aplicando ferramentas como testes ANOVA e modelos de regressão linear. Essas técnicas permitiram uma avaliação detalhada dos padrões de gastos, a modelagem dos custos de hospitalização e a análise do impacto de diversos fatores demográficos nas despesas hospitalares.
Este projeto abrangente não apenas evidenciou o uso eficiente de SQL e R na realização de análises financeiras no setor de saúde, mas também tratou de questões comerciais fundamentais. Através da utilização de análises estatísticas avançadas e modelos preditivos, o estudo ofereceu insights valiosos sobre os fatores que determinam os custos hospitalares, contribuindo para decisões mais informadas na gestão de cuidados de saúde e no desenvolvimento de políticas. Adotando uma metodologia similar com um conjunto de dados mais amplo e robusto, os stakeholders podem desenvolver estratégias mais eficazes de alocação de recursos e gestão de custos para aprimorar os resultados em saúde.
Acesse o relatório final, o conjunto de dados e todos os arquivos usados, disponíveis no meu repositório GitHub, clicando aqui.
Análise Exploratória de Casos e Mortes por Covid19 no Brasil
Neste projeto, uma investigação e análise detalhada dos casos e óbitos de COVID-19 por todo o Brasil, desde o início de 2020 até o começo de 2022, foram realizadas utilizando o software R. O principal objetivo foi interpretar os vastos dados coletados durante a pandemia para identificar padrões e percepções importantes. Concentrando-se exclusivamente no uso do R para o pré-processamento de dados e análise visual, o projeto tratou de maneira minuciosa a dinâmica complexa do impacto da pandemia em várias regiões do Brasil.
O banco de dados, oriundo da base oficial de saúde do Brasil, estabeleceu uma fundação robusta para este estudo. As fases iniciais de pré-processamento dos dados incluíram uma meticulosa limpeza e preparação. Variáveis chave foram escolhidas e eventuais inconsistências nos dados foram corrigidas para assegurar precisão na subsequente fase de análise exploratória dos dados.
A fase exploratória mergulhou em técnicas estatísticas e visualizações para revelar tendências temporais e regionais nos casos e taxas de mortalidade da COVID-19. Este estágio foi essencial para detectar diferenças regionais significativas no impacto do vírus e na eficácia das intervenções de saúde pública. Além disso, ressaltou períodos críticos de disseminação do vírus e alterações nas taxas de mortalidade, oferecendo insights valiosos que poderiam direcionar estratégias futuras de saúde pública.
Em conclusão, o projeto não apenas evidenciou as pronunciadas disparidades regionais nos impactos da COVID-19, mas também sublinhou a importância de respostas de saúde pública personalizadas. Essas descobertas são extremamente valiosas para os formuladores de políticas e profissionais de saúde à medida que se preparam para futuras crises de saúde pública. A análise detalhada, juntamente com um dicionário abrangente de variáveis e o uso inovador da linguagem de programação R, estabelece este estudo como um marco significativo para pesquisas epidemiológicas em andamento e futuras.
Para mais informações sobre este projeto, clique aqui e acesse meu repositório GitHub, onde você encontrará o relatório final, todos os arquivos relacionados e o conjunto de dados utilizado.