Portfólio Marcos Vinicius da Silva

Página de projetos em código Python e R de diversos projetos

EXPLORE MEUS CÓDIGOS DE CIÊNCIA DE DADOS NO GITHUB!

Tenho desenvolvido diversos projetos acadêmicos voltados para a área de Ciência de Dados e gostaria de compartilhar esse conhecimento com você.

Neste repositório, você encontrará códigos e notebooks relacionados à análise de dados, aprendizado de máquina e outras aplicações práticas que exploram conceitos fundamentais e avançados da Ciência de Dados.

Se tiver interesse em explorar os conteúdos, colaborar, sugerir melhorias ou simplesmente trocar ideias, fique à vontade para navegar, contribuir e interagir.
A troca de conhecimento é sempre bem-vinda!

👉 https://github.com/marcovsilva

IAPredict: Motor de Inteligência Artificial e Simulação da Copa so mundo 2026

Resumo: Pipeline completo de Engenharia de Dados e Machine Learning para prever matematicamente o campeão do mundo, abrangendo desde a ingestão de 150 anos de dados históricos até o treinamento do algoritmo e simulação massiva de multiversos.

Detalhes: Desenvolvi um ecossistema preditivo end-to-end utilizando Python e PostgreSQL. Implementei um pipeline ETL estruturado (Arquitetura Medallion: Bronze, Silver e Gold) para higienizar e tratar resultados de partidas internacionais, criando um algoritmo matemático de força dinâmica (Ranking ELO) que pune derrotas vexatórias e utiliza decaimento exponencial de tempo. Treinei um Modelo Linear Generalizado (Regressão de Poisson via `statsmodels`) rigorosamente protegido contra *Data Leakage*, focado em inferir os Gols Esperados (xG). Em cima da Inteligência Artificial, construí um Simulador de Monte Carlo capaz de jogar a Copa do Mundo inteira milhares de vezes, utilizando o Algoritmo Húngaro (Teoria dos Grafos) para resolver automaticamente o chaveamento logístico da FIFA. O modelo final é envelopado e operado por usuários leigos através de um Web App interativo em Streamlit com painéis avançados de *Data Visualization*.

Tech: Python, PostgreSQL, Pandas, NumPy, Statsmodels, SciPy, Streamlit, Altair, Machine Learning (GLM/Poisson), Engenharia de Dados (ETL), Estatística Avançada e Algoritmos de Grafos.

Clique aqui para acessar a IAPredict - Copa do Mundo 2026

Plataforma Web de Bolão e Simulação da Copa do Mundo 2026

Resumo: Projeto web completo para gestão de palpites e simulação do torneio, abrangendo desde o cálculo dinâmico da fase de grupos no frontend até a integração automatizada de APIs para resultados em tempo real no backend.

Detalhes: Desenvolvi uma aplicação full-stack utilizando Django para gerenciar o ecossistema de usuários, palpites e classificação geral. Implementei um motor de cálculo reativo em JavaScript Vanilla que analisa os placares digitados e monta a árvore do mata-mata dinamicamente (incluindo critérios de desempate e repescagem de melhores terceiros). O backend processa regras de pontuação personalizadas e atualiza o ranking oficial instantaneamente. Além disso, o projeto conta com um painel administrativo ágil e inclui um script de automação backend preparado para consumir a API-Football, garantindo a sincronização 100% autônoma dos resultados oficiais durante o evento mundial.

Tech: Python, Django, JavaScript, Tailwind CSS, Banco de Dados Relacional, Integração de APIs (REST), Automação de Tarefas (Cron/Management Commands), Web Development.

Clique aqui para acessar a Plataforma Web de Bolão e Simulação da Copa do Mundo 2026.

Modelo Preditivo de Risco de Crédito

Resumo: Projeto de Machine Learning para previsão de inadimplência, abrangendo desde a engenharia da variável alvo até a geração de inferências para concessão de crédito.

Detalhes: Desenvolvi um pipeline completo de Ciência de Dados utilizando múltiplas bases financeiras e cadastrais para identificar clientes com maior risco de inadimplência. Realizei Análise Exploratória de Dados (EDA), tratamento de dados ausentes, engenharia de features de negócio e prevenção de data leakage. A modelagem foi construída com LightGBM, utilizando balanceamento de classes e validação estratificada, alcançando ROC-AUC de 0.9466 e Gini de 0.8932. O projeto inclui geração automatizada de probabilidades de inadimplência para suporte à decisão de crédito e produção de arquivo final de submissão para inferência em ambiente de teste.

Tech: Python, LightGBM, Pandas, NumPy, Scikit-learn, Feature Engineering, Machine Learning, Credit Risk Modeling, Data Analysis, Matplotlib, Seaborn.

Clique aqui para acessar o Projeto de Modelo Preditivo de Risco de Crédito.

Predição e Análise Geoespacial de Focos de Queimadas

Resumo: Pipeline de Ciência de Dados, da extração de microdados do INPE à modelagem preditiva.

Detalhes: Integrei dados geoespaciais via API "Base dos Dados" para mapear e prever focos de incêndio no Brasil. Realizei limpeza massiva de dados, engenharia de features temporais/espaciais e treinei modelos (Random Forest/XGBoost), gerando artefatos reproduzíveis para monitoramento ambiental.

Tech: Python, XGBoost, Base dos Dados (SQL), Análise Geoespacial, Scikit-learn.

Clique aqui para acessar o Projeto de Predição e Análise Geoespacial de Focos de Queimadas

Classificação de Sinais de Trânsito com CNNs e Transfer Learning (GTSDB)

Resumo: Pipeline robusto de Deep Learning para classificação de imagens em cenário de alto desbalanceamento.

Detalhes: Avaliei e implementei arquiteturas modernas (MobileNetV2, ResNet50, GoogLeNet) para classificar sinais de trânsito. O diferencial foi o uso de estratégias de Data Augmentation e WeightedRandomSampler para corrigir o desbalanceamento severo das classes, garantindo que o modelo aprendesse a identificar sinais raros com alto F1-Score.

Tech: PyTorch, CNNs, Transfer Learning, Pandas, Scikit-learn.

Clique aqui para acessar o Projeto de Classificação de Sinais de Trânsito com CNNs e Transfer Learning (GTSDB)

Detecção de Objetos: Sinais de Trânsito (Pipeline Clássico)

Resumo: Construção de um sistema de detecção de objetos "do zero" focado nos fundamentos matemáticos da Visão Computacional.

Detalhes: Implementei um detector utilizando janelas deslizantes (Sliding Windows) e pirâmides de imagem para localizar sinais em fotos de estradas. Combinei descritores HOG com um classificador SVM e apliquei técnicas de refinamento como Hard Negative Mining (para reduzir falsos positivos) e Non-Maximum Suppression (NMS).

Tech: Python, OpenCV, Scikit-image, SVM, HOG Features.

Clique aqui para acessar o Projeto de Detecção de Sinais de Trânsito com HOG e SVM

Reconhecimento de Sinais de Trânsito (HOG + SVM)

Resumo: Classificação eficiente de imagens para sistemas autônomos utilizando extração de características manuais.

Detalhes: Desenvolvi um sistema para reconhecer 43 categorias de sinais de trânsito alemães (GTSRB). Ao utilizar descritores de gradientes orientados (HOG) alimentando um SVM Linear, o projeto atingiu ~97% de acurácia com baixo custo computacional, ideal para sistemas embarcados.

Tech: Python, Scikit-learn, Scikit-image, NumPy.

Clique aqui para acessar o Projeto de Reconhecimento de Sinais de Trânsito com HOG e SVM

Estabilidade e Risco de Crédito (Home Credit)

Resumo: Modelo de Credit Scoring focado em identificação de inadimplência em base desbalanceada.

Detalhes: Simulação de cenário bancário real utilizando dados da competição Home Credit. Treinei um classificador Random Forest (Acurácia 97%, AUC 0.99) e realizei uma análise crítica sobre o trade-off entre precisão e recall, propondo estratégias de negócio para mitigar o risco financeiro dos falsos negativos.

Tech: Python, Random Forest, Análise de Risco, Matriz de Confusão.

Clique aqui para acessar o Projeto de Estabilidade e Risco de Crédito

Classificação de Inadimplência: Redes Neurais (Keras) vs. MLP

Resumo: Estudo comparativo de arquiteturas neurais para detecção de risco de crédito.

Detalhes: Desenvolvi e comparei o desempenho de Redes Neurais Artificiais (via Keras/TensorFlow) contra Perceptrons Multicamadas (Scikit-learn). O estudo focou na otimização de hiperparâmetros (Dropout, Batch Size, Learning Rate) para maximizar a métrica AUC-ROC, priorizando a detecção de clientes inadimplentes.

Tech: TensorFlow, Keras, Scikit-learn, Redes Neurais.

Clique aqui para acessar o Projeto de Classificação de Inadimplência de Clientes (Keras vc MLP)

Forecasting de Vendas de Café (Prophet vs. ARIMA)

Resumo: Previsão de demanda para gestão de estoque utilizando modelos estatísticos modernos.

Detalhes: Analisei padrões de consumo e sazonalidade semanal em máquinas de vendas. Comparei a eficácia do modelo clássico ARIMA contra o algoritmo Facebook Prophet, entregando métricas comparativas (RMSE/MAE) para apoiar decisões estratégicas de reposição de produtos.

Tech: Python, Facebook Prophet, Statsmodels, ARIMA.

Clique aqui para acessar o Projeto de Forecasting de Vendas de Café (Prophet vs. ARIMA)

Análise de Temperaturas em Melbourne: Holt-Winters vs. ARIMA

Resumo: Modelagem climática para identificação de padrões sazonais complexos.

Detalhes: Apliquei testes de estacionariedade e decomposição de séries temporais em dados históricos (1981-1990). Demonstrei que o modelo de Suavização Exponencial (Holt-Winters) superou o ARIMA ao capturar explicitamente a componente sazonal dos dados climáticos.

Tech: Python, Time Series Analysis, Statsmodels.

Clique aqui para acessar o Projeto de Análise de Temperaturas em Melbourne: Holt-Winters vs. ARIMA

Regressão Multivariada: Predição de Peso (Lasso Regression)

Resumo: Otimização de modelos preditivos com seleção automática de features.

Detalhes: Implementei um pipeline de regressão para predição de características físicas com Validação Cruzada (K-Fold). O destaque foi o uso da regularização Lasso para eliminar variáveis irrelevantes (feature selection) e evitar overfitting, superando modelos de Ridge e Random Forest em consistência.

Tech: Python, Lasso/Ridge Regression, Cross-Validation.

Clique aqui para acessar o Projeto de Regressão Multivariada: Predição de Peso (Lasso Regression)

Regressão Linear Simples: Salário vs. Experiência

Resumo: Estudo estatístico fundamental sobre correlação e predição salarial.

Detalhes: Análise de correlação linear para prever salários com base em anos de experiência. Além do ajuste do modelo, realizei uma análise segmentada por gênero para investigar diferenças estruturais nos coeficientes e interceptos, validando com métricas de erro (EQM/MAPE).

Tech: Python, Scikit-learn, Estatística Descritiva.

Clique aqui para acessar o Projeto de Regressão Linear Simples: Salário vs. Experiência

Clusterização de Transações de Vendas (Segmentação de Produtos)

Resumo: Aplicação de aprendizado não supervisionado para identificar padrões de compra e otimizar estoque.

Detalhes: Realizei um estudo comparativo de algoritmos de clusterização (K-Means, DBSCAN e Agglomerative Clustering) em dados de vendas semanais. O pipeline incluiu pré-processamento com normalização e redução de dimensionalidade via PCA (Análise de Componentes Principais). Utilizei métricas como Silhouette Score e Davies-Bouldin para validar que o método Agglomerative Clustering foi o mais eficaz na segmentação de produtos de alto volume vs. alta variabilidade.

Tech: Python, Scikit-learn, PCA, K-Means, Hierarchical Clustering.

Clique aqui para acessar o Projeto de Clusterização de Transações Semanais de Vendas

Classificação de E-mails (Spam Detector) com Otimização de Hiperparâmetros

Resumo: Benchmark de modelos de classificação supervisionada para filtragem de segurança de e-mails.

Detalhes: Desenvolvi e comparei a performance de 6 algoritmos de Machine Learning (incluindo Naive Bayes, SVM e Random Forest) para classificar e-mails. O diferencial do projeto foi o pipeline rigoroso de avaliação: apliquei escalonamento de dados (StandardScaler/MinMaxScaler) e utilizei GridSearchCV para o ajuste fino (tuning) de hiperparâmetros, maximizando a acurácia e analisando a matriz de confusão para minimizar falsos positivos.

Tech: Python, Scikit-learn, GridSearchCV, Random Forest, SVM, NLP Context.

Clique aqui para acessar o Projeto de Classificação de E-mails (Spam Detector) com Otimização de Hiperparâmetros

Case Study Bellabeat: Análise de Comportamento (Google Analytics)

Resumo: Análise estratégica de dados de wearables para direcionamento de marketing (Business Intelligence).

Detalhes: Utilizando a linguagem R, processei dados de saúde (FitBit) para identificar correlações entre sono e sedentarismo. Apliquei clusterização (K-means) para segmentar perfis de usuários, fornecendo recomendações de negócio baseadas em dados para a equipe executiva da Bellabeat.

Tech: R Language, Tidyverse, ggplot2, K-means Clustering.

Clique aqui para acessar o Projeto de Case Study Bellabeat: Análise de Comportamento (Google Analytics)

Previsão de Desastres Naturais

Resumo: Protótipo de sistema de alerta antecipado baseado em dados climáticos.

Detalhes: Projeto acadêmico focado na classificação de probabilidade de desastres (deslizamentos/inundações). O pipeline incluiu a padronização de variáveis ambientais (StandardScaler) e a implementação de Regressão Logística Multinomial para auxiliar autoridades na tomada de decisão preventiva.

Tech: Python, Scikit-learn, Regressão Logística, Análise Multivariada.

Clique aqui para acessar o Projeto de Previsão de Desastres Naturais

Análise Exploratória de Dados (EDA): Previsão de Preços de Carros

Resumo: Higienização de dados brutos e análise estatística descritiva para inteligência de mercado automotivo.

Detalhes: Foco na engenharia de dados e preparação. Implementei rotinas de limpeza (Data Cleaning) para converter dados não estruturados de preços e tratar inconsistências. Realizei análise estatística completa e visualização de distribuição (histogramas) para identificar padrões de precificação e anomalias, preparando a base para modelagem preditiva.

Tech: Python, Pandas, NumPy, Matplotlib, Seaborn.

Clique aqui para acessar o Projeto de Análise Exploratória de Dados (EDA): Previsão de Preços de Carros

MAIS INFORMAÇÕES EM

Meu Linkedin

Page updated

Google Sites

Report abuse