EXPLORE MEUS CÓDIGOS DE CIÊNCIA DE DADOS NO GITHUB!
Tenho desenvolvido diversos projetos acadêmicos voltados para a área de Ciência de Dados e gostaria de compartilhar esse conhecimento com você.
Neste repositório, você encontrará códigos e notebooks relacionados à análise de dados, aprendizado de máquina e outras aplicações práticas que exploram conceitos fundamentais e avançados da Ciência de Dados.
Se tiver interesse em explorar os conteúdos, colaborar, sugerir melhorias ou simplesmente trocar ideias, fique à vontade para navegar, contribuir e interagir.
A troca de conhecimento é sempre bem-vinda!
👉 https://github.com/marcovsilva
IAPredict: Motor de Inteligência Artificial e Simulação da Copa so mundo 2026
Resumo: Pipeline completo de Engenharia de Dados e Machine Learning para prever matematicamente o campeão do mundo, abrangendo desde a ingestão de 150 anos de dados históricos até o treinamento do algoritmo e simulação massiva de multiversos.
Detalhes: Desenvolvi um ecossistema preditivo end-to-end utilizando Python e PostgreSQL. Implementei um pipeline ETL estruturado (Arquitetura Medallion: Bronze, Silver e Gold) para higienizar e tratar resultados de partidas internacionais, criando um algoritmo matemático de força dinâmica (Ranking ELO) que pune derrotas vexatórias e utiliza decaimento exponencial de tempo. Treinei um Modelo Linear Generalizado (Regressão de Poisson via `statsmodels`) rigorosamente protegido contra *Data Leakage*, focado em inferir os Gols Esperados (xG). Em cima da Inteligência Artificial, construí um Simulador de Monte Carlo capaz de jogar a Copa do Mundo inteira milhares de vezes, utilizando o Algoritmo Húngaro (Teoria dos Grafos) para resolver automaticamente o chaveamento logístico da FIFA. O modelo final é envelopado e operado por usuários leigos através de um Web App interativo em Streamlit com painéis avançados de *Data Visualization*.
Tech: Python, PostgreSQL, Pandas, NumPy, Statsmodels, SciPy, Streamlit, Altair, Machine Learning (GLM/Poisson), Engenharia de Dados (ETL), Estatística Avançada e Algoritmos de Grafos.
Plataforma Web de Bolão e Simulação da Copa do Mundo 2026
Resumo: Projeto web completo para gestão de palpites e simulação do torneio, abrangendo desde o cálculo dinâmico da fase de grupos no frontend até a integração automatizada de APIs para resultados em tempo real no backend.
Detalhes: Desenvolvi uma aplicação full-stack utilizando Django para gerenciar o ecossistema de usuários, palpites e classificação geral. Implementei um motor de cálculo reativo em JavaScript Vanilla que analisa os placares digitados e monta a árvore do mata-mata dinamicamente (incluindo critérios de desempate e repescagem de melhores terceiros). O backend processa regras de pontuação personalizadas e atualiza o ranking oficial instantaneamente. Além disso, o projeto conta com um painel administrativo ágil e inclui um script de automação backend preparado para consumir a API-Football, garantindo a sincronização 100% autônoma dos resultados oficiais durante o evento mundial.
Tech: Python, Django, JavaScript, Tailwind CSS, Banco de Dados Relacional, Integração de APIs (REST), Automação de Tarefas (Cron/Management Commands), Web Development.
Modelo Preditivo de Risco de Crédito
Resumo: Projeto de Machine Learning para previsão de inadimplência, abrangendo desde a engenharia da variável alvo até a geração de inferências para concessão de crédito.
Detalhes: Desenvolvi um pipeline completo de Ciência de Dados utilizando múltiplas bases financeiras e cadastrais para identificar clientes com maior risco de inadimplência. Realizei Análise Exploratória de Dados (EDA), tratamento de dados ausentes, engenharia de features de negócio e prevenção de data leakage. A modelagem foi construída com LightGBM, utilizando balanceamento de classes e validação estratificada, alcançando ROC-AUC de 0.9466 e Gini de 0.8932. O projeto inclui geração automatizada de probabilidades de inadimplência para suporte à decisão de crédito e produção de arquivo final de submissão para inferência em ambiente de teste.
Tech: Python, LightGBM, Pandas, NumPy, Scikit-learn, Feature Engineering, Machine Learning, Credit Risk Modeling, Data Analysis, Matplotlib, Seaborn.
Predição e Análise Geoespacial de Focos de Queimadas
Resumo: Pipeline de Ciência de Dados, da extração de microdados do INPE à modelagem preditiva.
Detalhes: Integrei dados geoespaciais via API "Base dos Dados" para mapear e prever focos de incêndio no Brasil. Realizei limpeza massiva de dados, engenharia de features temporais/espaciais e treinei modelos (Random Forest/XGBoost), gerando artefatos reproduzíveis para monitoramento ambiental.
Tech: Python, XGBoost, Base dos Dados (SQL), Análise Geoespacial, Scikit-learn.
Classificação de Sinais de Trânsito com CNNs e Transfer Learning (GTSDB)
Resumo: Pipeline robusto de Deep Learning para classificação de imagens em cenário de alto desbalanceamento.
Detalhes: Avaliei e implementei arquiteturas modernas (MobileNetV2, ResNet50, GoogLeNet) para classificar sinais de trânsito. O diferencial foi o uso de estratégias de Data Augmentation e WeightedRandomSampler para corrigir o desbalanceamento severo das classes, garantindo que o modelo aprendesse a identificar sinais raros com alto F1-Score.
Tech: PyTorch, CNNs, Transfer Learning, Pandas, Scikit-learn.
Detecção de Objetos: Sinais de Trânsito (Pipeline Clássico)
Resumo: Construção de um sistema de detecção de objetos "do zero" focado nos fundamentos matemáticos da Visão Computacional.
Detalhes: Implementei um detector utilizando janelas deslizantes (Sliding Windows) e pirâmides de imagem para localizar sinais em fotos de estradas. Combinei descritores HOG com um classificador SVM e apliquei técnicas de refinamento como Hard Negative Mining (para reduzir falsos positivos) e Non-Maximum Suppression (NMS).
Tech: Python, OpenCV, Scikit-image, SVM, HOG Features.
Reconhecimento de Sinais de Trânsito (HOG + SVM)
Resumo: Classificação eficiente de imagens para sistemas autônomos utilizando extração de características manuais.
Detalhes: Desenvolvi um sistema para reconhecer 43 categorias de sinais de trânsito alemães (GTSRB). Ao utilizar descritores de gradientes orientados (HOG) alimentando um SVM Linear, o projeto atingiu ~97% de acurácia com baixo custo computacional, ideal para sistemas embarcados.
Tech: Python, Scikit-learn, Scikit-image, NumPy.
Estabilidade e Risco de Crédito (Home Credit)
Resumo: Modelo de Credit Scoring focado em identificação de inadimplência em base desbalanceada.
Detalhes: Simulação de cenário bancário real utilizando dados da competição Home Credit. Treinei um classificador Random Forest (Acurácia 97%, AUC 0.99) e realizei uma análise crítica sobre o trade-off entre precisão e recall, propondo estratégias de negócio para mitigar o risco financeiro dos falsos negativos.
Tech: Python, Random Forest, Análise de Risco, Matriz de Confusão.
Classificação de Inadimplência: Redes Neurais (Keras) vs. MLP
Resumo: Estudo comparativo de arquiteturas neurais para detecção de risco de crédito.
Detalhes: Desenvolvi e comparei o desempenho de Redes Neurais Artificiais (via Keras/TensorFlow) contra Perceptrons Multicamadas (Scikit-learn). O estudo focou na otimização de hiperparâmetros (Dropout, Batch Size, Learning Rate) para maximizar a métrica AUC-ROC, priorizando a detecção de clientes inadimplentes.
Tech: TensorFlow, Keras, Scikit-learn, Redes Neurais.
Forecasting de Vendas de Café (Prophet vs. ARIMA)
Resumo: Previsão de demanda para gestão de estoque utilizando modelos estatísticos modernos.
Detalhes: Analisei padrões de consumo e sazonalidade semanal em máquinas de vendas. Comparei a eficácia do modelo clássico ARIMA contra o algoritmo Facebook Prophet, entregando métricas comparativas (RMSE/MAE) para apoiar decisões estratégicas de reposição de produtos.
Tech: Python, Facebook Prophet, Statsmodels, ARIMA.
Análise de Temperaturas em Melbourne: Holt-Winters vs. ARIMA
Resumo: Modelagem climática para identificação de padrões sazonais complexos.
Detalhes: Apliquei testes de estacionariedade e decomposição de séries temporais em dados históricos (1981-1990). Demonstrei que o modelo de Suavização Exponencial (Holt-Winters) superou o ARIMA ao capturar explicitamente a componente sazonal dos dados climáticos.
Tech: Python, Time Series Analysis, Statsmodels.
Regressão Multivariada: Predição de Peso (Lasso Regression)
Resumo: Otimização de modelos preditivos com seleção automática de features.
Detalhes: Implementei um pipeline de regressão para predição de características físicas com Validação Cruzada (K-Fold). O destaque foi o uso da regularização Lasso para eliminar variáveis irrelevantes (feature selection) e evitar overfitting, superando modelos de Ridge e Random Forest em consistência.
Tech: Python, Lasso/Ridge Regression, Cross-Validation.
Regressão Linear Simples: Salário vs. Experiência
Resumo: Estudo estatístico fundamental sobre correlação e predição salarial.
Detalhes: Análise de correlação linear para prever salários com base em anos de experiência. Além do ajuste do modelo, realizei uma análise segmentada por gênero para investigar diferenças estruturais nos coeficientes e interceptos, validando com métricas de erro (EQM/MAPE).
Tech: Python, Scikit-learn, Estatística Descritiva.
Clusterização de Transações de Vendas (Segmentação de Produtos)
Resumo: Aplicação de aprendizado não supervisionado para identificar padrões de compra e otimizar estoque.
Detalhes: Realizei um estudo comparativo de algoritmos de clusterização (K-Means, DBSCAN e Agglomerative Clustering) em dados de vendas semanais. O pipeline incluiu pré-processamento com normalização e redução de dimensionalidade via PCA (Análise de Componentes Principais). Utilizei métricas como Silhouette Score e Davies-Bouldin para validar que o método Agglomerative Clustering foi o mais eficaz na segmentação de produtos de alto volume vs. alta variabilidade.
Tech: Python, Scikit-learn, PCA, K-Means, Hierarchical Clustering.
Classificação de E-mails (Spam Detector) com Otimização de Hiperparâmetros
Resumo: Benchmark de modelos de classificação supervisionada para filtragem de segurança de e-mails.
Detalhes: Desenvolvi e comparei a performance de 6 algoritmos de Machine Learning (incluindo Naive Bayes, SVM e Random Forest) para classificar e-mails. O diferencial do projeto foi o pipeline rigoroso de avaliação: apliquei escalonamento de dados (StandardScaler/MinMaxScaler) e utilizei GridSearchCV para o ajuste fino (tuning) de hiperparâmetros, maximizando a acurácia e analisando a matriz de confusão para minimizar falsos positivos.
Tech: Python, Scikit-learn, GridSearchCV, Random Forest, SVM, NLP Context.
Case Study Bellabeat: Análise de Comportamento (Google Analytics)
Resumo: Análise estratégica de dados de wearables para direcionamento de marketing (Business Intelligence).
Detalhes: Utilizando a linguagem R, processei dados de saúde (FitBit) para identificar correlações entre sono e sedentarismo. Apliquei clusterização (K-means) para segmentar perfis de usuários, fornecendo recomendações de negócio baseadas em dados para a equipe executiva da Bellabeat.
Tech: R Language, Tidyverse, ggplot2, K-means Clustering.
Previsão de Desastres Naturais
Resumo: Protótipo de sistema de alerta antecipado baseado em dados climáticos.
Detalhes: Projeto acadêmico focado na classificação de probabilidade de desastres (deslizamentos/inundações). O pipeline incluiu a padronização de variáveis ambientais (StandardScaler) e a implementação de Regressão Logística Multinomial para auxiliar autoridades na tomada de decisão preventiva.
Tech: Python, Scikit-learn, Regressão Logística, Análise Multivariada.
Análise Exploratória de Dados (EDA): Previsão de Preços de Carros
Resumo: Higienização de dados brutos e análise estatística descritiva para inteligência de mercado automotivo.
Detalhes: Foco na engenharia de dados e preparação. Implementei rotinas de limpeza (Data Cleaning) para converter dados não estruturados de preços e tratar inconsistências. Realizei análise estatística completa e visualização de distribuição (histogramas) para identificar padrões de precificação e anomalias, preparando a base para modelagem preditiva.
Tech: Python, Pandas, NumPy, Matplotlib, Seaborn.