{"id":18625178,"url":"https://github.com/imnotannamaria/ia_statistics_for_devs","last_synced_at":"2026-04-11T08:02:18.439Z","repository":{"id":203210676,"uuid":"709081406","full_name":"imnotannamaria/ia_statistics_for_devs","owner":"imnotannamaria","description":"Repository focused on learning statics to deal with AI with pandas.","archived":false,"fork":false,"pushed_at":"2023-10-25T15:05:45.000Z","size":226,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-10-09T06:34:29.368Z","etag":null,"topics":["ia","pandas","python","statistics"],"latest_commit_sha":null,"homepage":"","language":"Jupyter Notebook","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/imnotannamaria.png","metadata":{"files":{"readme":"README.MD","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2023-10-24T01:13:55.000Z","updated_at":"2023-10-25T13:28:49.000Z","dependencies_parsed_at":"2024-11-07T04:35:42.892Z","dependency_job_id":"c31454bd-d595-48e1-b21a-bf82bb6be43f","html_url":"https://github.com/imnotannamaria/ia_statistics_for_devs","commit_stats":null,"previous_names":["imnotannamaria/ia_statistics_for_devs"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/imnotannamaria/ia_statistics_for_devs","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/imnotannamaria%2Fia_statistics_for_devs","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/imnotannamaria%2Fia_statistics_for_devs/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/imnotannamaria%2Fia_statistics_for_devs/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/imnotannamaria%2Fia_statistics_for_devs/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/imnotannamaria","download_url":"https://codeload.github.com/imnotannamaria/ia_statistics_for_devs/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/imnotannamaria%2Fia_statistics_for_devs/sbom","scorecard":null,"host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":286080680,"owners_count":31673068,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2026-04-10T17:19:37.612Z","status":"online","status_checked_at":"2026-04-11T02:00:05.776Z","response_time":54,"last_error":null,"robots_txt_status":"success","robots_txt_updated_at":"2025-07-24T06:49:26.215Z","robots_txt_url":"https://github.com/robots.txt","online":true,"can_crawl_api":true,"host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["ia","pandas","python","statistics"],"created_at":"2024-11-07T04:33:28.162Z","updated_at":"2026-04-11T08:02:18.404Z","avatar_url":"https://github.com/imnotannamaria.png","language":"Jupyter Notebook","funding_links":[],"categories":[],"sub_categories":[],"readme":"# Estatística para Devs\n\n## O que é Estatística\n\nEstatística, uma ciência que lida com a **coleta, organização, análise e interpretação de dados**. \n\n## Sub-áreas da estatística\n\n1. **Probabilidade:** **Estuda a chance de ocorrência de eventos** e ajuda a prever resultados em situações incertas.\n2. **Estatística Descritiva:** **Resume e descreve conjuntos de dados** usando medidas como média, mediana e desvio padrão, facilitando a compreensão das características básicas dos dados.\n3. **Inferência Estatística:** Permite **tirar conclusões** sobre uma população com base em uma amostra, usando métodos como testes de hipóteses e intervalos de confiança.\n\n## População e Amostra\n\n**População:** Refere-se ao conjunto completo de todas as **entidades individuais que compartilham pelo menos uma característica comum** e são de interesse para o estudo estatístico em questão.\n\n⚠️ **EX:** Considere todos os estudantes de uma escola como a população. Se você estiver interessado em estudar o desempenho acadêmico de todos os alunos matriculados na escola, a população seria o **conjunto completo de todos os alunos da escola**.\n\n**Amostra:** É **uma parte representativa selecionada da população total** que é estudada para fazer inferências ou generalizações sobre a população maior. A amostra é escolhida de forma a representar fielmente as características essenciais da população, tornando possível realizar análises estatísticas significativas sem a necessidade de examinar toda a população.\n\n⚠️ **EX:** Agora, se você selecionar aleatoriamente 100 alunos dessa escola e estudar seus resultados acadêmicos**, essa seleção de 100 alunos representará a amostra**. Com base nessa amostra, você pode fazer inferências sobre o desempenho acadêmico geral de todos os alunos da escola, sem a necessidade de estudar cada aluno individualmente.\n\n### Étapas\n\n1. **População → Amostra:** A população é o grupo total de interesse em um estudo estatístico, enquanto a amostra é uma parte representativa da população que é escolhida para análise.\n2. **Análise Descritiva:** Envolve a organização e o resumo dos dados da amostra ou da população, incluindo a identificação de padrões, tendências e características importantes por meio de medidas como média, mediana, moda e desvio padrão.\n3. **Informações contidas nos dados:** Refere-se a insights e entendimentos extraídos diretamente dos dados durante a análise descritiva, como a distribuição dos dados, tendências visuais e padrões básicos que podem ser observados inicialmente.\n4. **Inferência Estatística:** Utiliza a amostra para fazer inferências ou generalizações sobre a população maior. Isso é feito por meio de testes de hipóteses, intervalos de confiança e outros métodos estatísticos para tirar conclusões baseadas nas características da amostra.\n5. **Conclusões sobre as características da população:** Com base nas inferências estatísticas, podemos chegar a conclusões sobre características mais amplas da população, como médias populacionais, proporções ou correlações que são relevantes para o estudo.\n6. **Aplicação:** As conclusões obtidas são aplicadas para tomar decisões informadas em vários campos, como ciências sociais, negócios, saúde e muitos outros, contribuindo para o desenvolvimento de políticas, práticas ou estratégias mais eficazes e informadas.\n\n## **Tipos de Variáveis**\n\n1. **Variáveis Quantitativas:** São variáveis **numéricas que representam quantidades mensuráveis**. Elas podem ser de dois tipos:\n    \n    a. **Intervalo Contínuo (Contínuas):** São variáveis que podem assumir qualquer valor dentro de um intervalo específico. Por exemplo, a **temperatura**, altura, peso ou tempo são exemplos de variáveis contínuas, já que podem ter valores infinitos dentro de um determinado intervalo.\n    \n    b. **Valores Inteiros (Discretas):** Representam contagens ou números inteiros, e não podem ser subdivididos em valores menores. Exemplos incluem o número de filhos, o **número de carros** em um estacionamento ou o número de pontos marcados em um jogo.\n    \n2. **Variáveis Qualitativas:** São variáveis que representam atributos ou qualidades que **não podem ser expressos numericamente**. Elas são divididas em dois tipos:\n    \n    a. **Sem Ordem (Nominais):** São características que não possuem uma ordem natural entre si. Exemplos incluem cores, gênero, **raça** ou tipos de animais.\n    \n    b. **Com Ordem (Ordinais):** São características que podem ser organizadas ou classificadas com base em alguma ordem específica. Exemplos incluem níveis de educação (primário, secundário, terciário), classificações de **produtos (baixo, médio, alto)** ou escalas de concordância (discordo totalmente, discordo, neutro, concordo, concordo totalmente).\n    \n## **Teorema do Limite Central**\n\nO Teorema do Limite Central é um conceito fundamental na estatística que afirma que, sob certas condições, **a distribuição das médias amostrais de uma população tende a se aproximar de uma distribuição normal, independentemente da forma da distribuição original da população.** Isso é verdade, desde que o tamanho da amostra seja suficientemente grande.\n\nPara ilustrar o Teorema do Limite Central, considere o exemplo de uma população de alturas de todas as pessoas em uma cidade. Se você tirar várias amostras de diferentes tamanhos de indivíduos dessa população e calcular a média de altura em cada amostra, o Teorema do Limite Central afirma que, **à medida que o tamanho das amostras aumenta, a distribuição das médias amostrais se aproximará de uma distribuição normal**, independentemente da forma da distribuição original das alturas na população.\n\nPor exemplo, se a altura das pessoas na população original não segue uma distribuição normal, o Teorema do Limite Central ainda prevê que, com amostras grandes o suficiente, a média das alturas amostradas seguirá uma distribuição normal. Isso permite que os estatísticos façam suposições sobre a distribuição das médias amostrais e usem ferramentas estatísticas que dependem da normalidade, mesmo quando a população original não é normal.\n\nEsse teorema é crucial para muitos aspectos da estatística, como a criação de intervalos de confiança e a realização de testes de hipóteses, tornando possível fazer inferências sobre a população com base em amostras, mesmo quando a distribuição original é desconhecida ou não é normal.\n      \n## Medidas de Posição\n\n- **Média:** É a medida de posição mais comum, obtida pela **soma de todos os valores em um conjunto de dados dividida pelo número de observações**. É sensível a valores extremos, **podendo ser distorcida por valores muito altos ou muito baixos**.\n    \n    Exemplo: Considere o conjunto de dados {2, 4, 4, 4, 5, 5, 7, 9}. A média seria (2 + 4 + 4 + 4 + 5 + 5 + 7 + 9) / 8 = 40 / 8 = 5.\n    \n- **Mediana:** É o valor que **separa a metade superior de uma amostra da metade inferior, quando organizada em ordem crescente ou decrescente. É menos sensível a valores extremos em comparação com a média**.\n    \n    Exemplo: Considere o conjunto de dados {2, 4, 4, 4, 5, 5, 7, 9}**. A mediana seria 4**, pois está no meio do conjunto quando organizado em ordem crescente.\n    \n- **Moda:** É o **valor que aparece com maior frequência** em um conjunto de dados. Pode haver mais de uma moda (bimodal, trimodal, etc.) ou nenhum valor pode se repetir (sem moda).\n    \n    Exemplo: Considere o conjunto de dados {2, 4, 4, 4, 5, 5, 7, 9}. **A moda seria 4,** pois aparece com mais frequência do que os outros números no conjunto.\n\n## Medidas de Dispersão\n\n1. **Variância:** A variância é uma medida da dispersão dos dados em relação à média. **Ela mede o quão distantes os valores estão da média**. Uma variância alta indica que os valores estão amplamente espalhados em torno da média.\n    \n    Exemplo: Considere o conjunto de dados {2, 4, 4, 4, 5, 5, 7, 9}. A variância seria calculada como a **média dos quadrados das diferenças entre cada valor e a média**, resultando em um valor numérico que representa a dispersão dos dados.\n    \n2. **Desvio Padrão:** O desvio padrão é a medida mais comum da dispersão dos dados em relação à média. **É a raiz quadrada da variância** e é expresso na mesma unidade que os dados originais.\n    \n    Exemplo: Usando o mesmo conjunto de dados {2, 4, 4, 4, 5, 5, 7, 9}, **a variância seria calculada primeiro e, em seguida, o desvio padrão seria a raiz quadrada desse valor**.\n    \n3. **Coeficiente de Variação:** O coeficiente de variação (CV) é uma medida relativa da dispersão dos dados em relação à média, expressa como uma porcentagem. Ele permite comparar a dispersão entre diferentes conjuntos de dados que possam ter médias muito diferentes.\n\nExemplo: Se você tiver dois conjuntos de dados com médias e desvios padrão diferentes, o CV permitirá determinar qual conjunto de dados tem uma variação relativa mais alta ou baixa em relação à média.\n\n## Medidas de forma\n\n### **Assimetria**\n\nRefere-se à **falta de simetria em uma distribuição**. Uma distribuição simétrica terá valores idênticos à esquerda e à direita da média, enquanto uma distribuição assimétrica **terá uma cauda mais longa em um dos lados da média**.\n\n**EX**: Considere um conjunto de dados que representa os lucros trimestrais de uma empresa. Se a maioria dos lucros estiverem concentrados nos quartos finais do ano, isso resultará em uma assimetria positiva. Se a maioria dos lucros estiver nos quartos iniciais, teremos uma assimetria negativa.\n\n### Tipos\n\n- Simétrica\n- Assimétrica à Direita (Positiva)\n- Assimétrica à Esquerda (Negativa)\n\n### **Curtose**\n\nA curtose mede o **pico ou a \"apontamento\" de uma distribuição**, ou seja, quão afilada ou achatada é em comparação com uma distribuição normal. Uma curtose alta indica uma distribuição mais concentrada em torno da média, com caudas mais pesadas, enquanto uma curtose baixa indica uma distribuição mais achatada.\n\n**EX**: Considere um conjunto de dados que representa a distribuição de alturas de árvores em uma floresta. Se a distribuição for mais concentrada em torno de um valor central com caudas mais pesadas, ela terá uma curtose alta. Se a distribuição for mais plana e espalhada, terá uma curtose baixa.\n\n### Tipos\n\n- **Mesocúrticas**: A própria **curva normal** padrão\n- **Platicúrtica**: Possui grau de **achatamento maior** que da curva normal padrão, o que nos indica que os dados estão mais espalhados (logo, o desvio padrão também é maior)\n- **Leptocúrtica**: Seu grau de **achatamento é menor** que o da curva normal padrão (curva mais pontiaguda), indica que os dados estão concentrados (desvio padrão menor)\n\n## Correlação\n\n### **Associação Positiva**\n\nAssociação positiva ocorre quando duas variáveis **têm uma relação na qual, à medida que uma variável aumenta, a outra também aumenta**. Em outras palavras, quando uma variável cresce, a outra tende a crescer na mesma direção.\n\n**Exemplo:** Considere um estudo que analisa a relação entre o tempo de estudo de um estudante e suas notas em um exame. Se à medida que o tempo de estudo aumenta, as notas do exame também aumentam, isso representa uma associação positiva. Quanto mais tempo o aluno estuda, melhores são suas notas.\n\n### **Associação Negativa**\n\nAssociação negativa ocorre quando duas variáveis têm uma relação na qual, **à medida que uma variável aumenta, a outra diminui.** Em outras palavras, quando uma variável cresce, a outra tende a diminuir na mesma direção.\n\n**Exemplo:** Suponha que você esteja investigando a relação entre a quantidade de exercício físico que as pessoas fazem e seu peso corporal. Se, à medida que a quantidade de exercício aumenta, o peso corporal diminui, isso indica uma associação negativa. Quanto mais alguém se exercita, menor é o seu peso.\n\n### **Sem Associação**\n\nA ausência de associação ocorre quando **não há uma relação clara ou sistemática entre duas variáveis.** Nesse caso, as mudanças em uma variável não afetam consistentemente a outra variável.\n\n**Exemplo:** Se você examina a relação entre a quantidade de gelo consumida por pessoas e o número de pássaros em um determinado local, pode não haver uma associação significativa. A quantidade de gelo consumida não terá um impacto direto no número de pássaros na região, portanto, não haverá associação clara entre essas duas variáveis.\n\n### Coeficiente de Pearson\n\nO coeficiente de Pearson é uma medida de correlação usada para avaliar a **relação linear entre duas variáveis contínuas**. Ele mede a força e a direção da relação entre as duas variáveis. Seu valor varia de -1 a 1, onde 1 indica uma correlação positiva perfeita, 0 indica ausência de correlação e **-1 indica uma correlação negativa perfeita**.\n\n**Exemplo de Coeficiente de Pearson:** Considere um estudo que analisa a relação entre as horas de estudo e o desempenho dos alunos em um exame. Se o coeficiente de Pearson for calculado como 0,8, isso indica uma correlação positiva forte, sugerindo que mais horas de estudo estão positivamente relacionadas a um melhor desempenho no exame.\n\n📢 OBS: Adequado para variáveis numéricas que possam ter uma relação linear\n\n### Coeficiente de Spearman\n\nO coeficiente de Spearman é uma medida de correlação usada para **avaliar a relação entre duas variáveis, independentemente de serem contínuas ou ordinais**. Ele avalia a monotonicidade, ou seja, a consistência na direção das mudanças entre as duas variáveis.\n\n**Exemplo:** Considere um estudo que analisa a relação entre a classificação dos alunos em dois exames diferentes. Se o coeficiente de Spearman for calculado como 0,7, isso indica uma correlação positiva forte entre as classificações dos alunos nos dois exames, o que sugere que os alunos que se saem bem em um exame também tendem a se sair bem no outro.\n\n📢 OBS: Adequado quando dos dados não tem uma relação linear clara ou quando as variáveis não são numericamente escalonáveis.\n\n## Representação gráfica\n\n### Histograma\n\n- É usado para variáveis numéricas contínuas, mostrando a distribuição doa dados em intervalos.\n\n### Barras\n\n- Aplicável a variáveis categóricas ou discretas, exibindo a contagem ou frequência de cada categoria.\n\n### Dispersão\n\n- Usado para mostrar a relação entre duas variáveis numéricas, ajudando a identificar padrões ou tendências.\n\n### Box Plot\n\n- Adequado para variáveis numéricas ou categóricas ordinais, revelando distribuição, mediana e valores atípicos. \n\n### Linhas\n\n- Utilizado para variáveis numéricas ao longo do tempo ou em uma sequência, destacando tendências temporais.","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fimnotannamaria%2Fia_statistics_for_devs","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fimnotannamaria%2Fia_statistics_for_devs","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fimnotannamaria%2Fia_statistics_for_devs/lists"}