{"id":19196665,"url":"https://github.com/bjpcjp/scikit-learn","last_synced_at":"2026-04-18T02:10:00.409Z","repository":{"id":151410581,"uuid":"353023783","full_name":"bjpcjp/scikit-learn","owner":"bjpcjp","description":"Updates in progress. Jupyter workbooks will be added as time allows.","archived":false,"fork":false,"pushed_at":"2024-01-18T18:29:43.000Z","size":27662,"stargazers_count":0,"open_issues_count":0,"forks_count":0,"subscribers_count":3,"default_branch":"master","last_synced_at":"2025-01-04T09:20:05.162Z","etag":null,"topics":["python","python3","scikit-learn"],"latest_commit_sha":null,"homepage":"","language":"Jupyter Notebook","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/bjpcjp.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null}},"created_at":"2021-03-30T14:08:17.000Z","updated_at":"2024-04-17T16:02:52.000Z","dependencies_parsed_at":null,"dependency_job_id":"f6f8d205-6b51-464f-80da-4542f6115d7f","html_url":"https://github.com/bjpcjp/scikit-learn","commit_stats":null,"previous_names":["bjpcjp/scikit-learn"],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/bjpcjp%2Fscikit-learn","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/bjpcjp%2Fscikit-learn/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/bjpcjp%2Fscikit-learn/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/bjpcjp%2Fscikit-learn/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/bjpcjp","download_url":"https://codeload.github.com/bjpcjp/scikit-learn/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":240271527,"owners_count":19774859,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["python","python3","scikit-learn"],"created_at":"2024-11-09T12:14:14.447Z","updated_at":"2026-04-18T02:10:00.367Z","avatar_url":"https://github.com/bjpcjp.png","language":"Jupyter Notebook","funding_links":[],"categories":[],"sub_categories":[],"readme":"### scikit-learn contents\n\n| Section | Title | Contents |\n| ------- | ----- | -------- |\n| 00      | **Getting Started**                   | Estimators, Transformers, Preprocessors, Pipelines, Model Evaluation, Parameter Searches, Next Steps |\n| 01      | **Linear Models**                     | OLS, Ridge, Lasso, Elastic-Net, Least Angle Regression (LARS), LARS Lasso, OMP, Naive Bayes, Generalized Linear Models (GLM), Tweedie Models, Stochastic Gradient Descent (SGD), Perceptrons, Passive-Aggressive Algos, Polynomial Regression |\n| 01a     | **Logistic Regression**               | Basics, Examples |\n| 01b     | **Splines**                           | Polynomial Regression \u0026 Basis Functions, Periodic splines |\n| 01c     | **Quantile Regression**               | Examples, QR vs linear regression |\n| 01d     | **Outliers**                          | Robustness, RANSAC, Huber, Thiel-Sen |\n| 02      | **Discriminant Analysis**             | LDA, QDA, Math Foundations, Shrinkage, Estimators |\n| 03      | **Kernel Ridge Regression**           | KRR vs SVR |\n| 04      | **Support Vector Machines (SVMs)**    | Classifiers, Regressors, Scoring, Weights, Complexity, Kernels |\n| 05      | **Stochastic Gradient Descent (SGD)** | Classifiers, Solvers, Regressors, Sparse Data; Complexity; Stopping/Convergence; Tips |\n| 06      | **K Nearest Neighbors (KNN)**         | Algos (Ball Tree, KD Tree, Brute Force), Radius-based KNN, Nearest Centroid Classifiers, Caching, Neighborhood Components Analysis (NCA) |\n| 07      | **Gaussian Processes (GPs)**          | Regressors, Classifiers, Kernels |\n| 08      | **Cross Decomposition**               | Partial Least Squares (PLS), Canonical PLS, SVD PLS, PLS Regression, Canonical Correlation Analysis (CCA) |\n| 09      | **Naive Bayes (NB)**                  | Gaussian NB, Multinomial NB, Complement NB, Bernoulli NB, Categorical NB, Out-of-core fitting |\n| 10      | **Decision Trees (DTs)**              | Classifiers,  Graphviz,  Regressions,  Multiple Outputs,  Extra Trees,  Complexity, Algorithms,  Gini, Entropy, Misclassification,  Minimal cost-complexity Pruning |\n| 11a     | **Ensembles/Bagging**                 | Methods,  Random Forests,  Extra Trees,  Parameters,  Parallel Execution,  Feature Importance,  Random Tree Embedding |\n| 11b     | **Ensembles/Boosting**                | Gradient Boosting (GBs),  GB Classifiers,  GB Regressions,  Tree Sizes,  Loss Functions,  Shrinkage,  Subsampling,  Feature Importance,  Histogram Gradient Boosting (HGB),  HGB - Monotonic Constraints |\n| 11ba    | **Ensembles/Boosting/Adaboost**       | examples |\n| 11c     | **Ensembles/Voting**                  | Hard Voting,  Soft Voting,  Voting Regressor |\n| 11d     | **Ensembles/General Stacking**        | Summary |\n| 12      | **Multiclass/Multioutput Problems**   | Label Binarization,  One vs Rest (OvR), One vs One (OvO) Classification,  Output Codes,  Multilabel, Multioutput Classification,  Classifier Chains,  Multioutput Regressions,  Regression Chains |\n| 13 | **Feature Selection (FS)**                 | Removing Low-Variance Features,  Univariate FS,  | Recursive FS,  Model-based FS,  Impurity-based FS,  Sequential FS,  Pipeline Usage |\n| 14 | **Semi-Supervised**                        | Self-Training Classifier,  Label Propagation,  Label Spreading |\n| 15 | **Isotonic Regression**                    | Example |\n| 16 | **Calibration Curves**                     | Intro/Example,  Cross-Validation,  Metrics,  Regressors |\n| 17 | **Perceptrons**                            | Intro,  Classification,  Regression,  Regularization,  Training,  Complexity,  Tips |\n| 21 | **Gaussian Mixtures (GMs)**                | Expectation Maximization,  Variational Bayes GM |\n| 22 | **Manifolds**                              | Isomap,  Locally Linear Embedding (LLE),  Modified LLE, Hessian LLE,  Local Tangent Space Alignment (LTSA),  Multidimensional Scaling (MDS),  Random Trees Embedding,  Spectral Embedding,  t-SNE,  Neighborhood Components Analysis (NCA) |\n| 23 | **Clustering**                             | K-Means,  Voronoi Diagrams,  Affinity Propagation,  Mean Shift,  Spectral Clustering,  Agglomerative Clustering,  Dendrograms,  Connectivity Constraints,  Distance Metrics,  DBSCAN,  Optics,  Birch |\n| 23a | **Clustering Metrics**                    | Rand Index,  Mutual Info Score,  Homogeneity,  Completeness,  V-Measure,  Fowlkes-Mallows,  Silhouette Coefficient,  Calinski-Harabasz,  Davies-Bouldin,  Contingency Matrix,  Pair Confusion Matrix |\n| 24 | **Biclustering**                           | Spectral Co-Clustering,  Spectral Bi-Clustering,  Metrics |\n| 25 | **Component Analysis / Matrix Factorization** | PCA,  Incremental PCA,  PCA w/ Random SVD,  PCA w/ Sparse Data,  Kernel PCA,  Dimension Reduction Comparison,  Truncated SVD / LSA,  Dictionary Learning,  Factor Analysis,  Independent Component Analysis,  Non-Negative Matrix Factorization (NNMF),  Latent Dirichlet Allocation (LDA) |\n| 26 | **Covariance**                             | Empirical CV,  Shrunk CV,  Max Likelihood Estimation (MLE),  Ledoit-Wolf Shrinkage,  Oracle Approximating Shrinkage,  Sparse Inverse CV, aka Precision Matrix,  Mahalanobis Distance |\n| 27 | **Novelties \u0026 Outliers**                   | One-Class SVMs,  Elliptic Envelope,  Isolation Forest,  Local Outlier Factor |\n| 28 | **Density Estimation (DE)**                | Histograms,  Kernel DE |\n| 29 | **Restricted Boltzmann Machines (RBMs)**   | Intro,  Training |\n| 31 | **Cross Validation (CV)**                  | Intro,  Metrics,  Parameter Estimation,  Pipelines,  Prediction Plots,  Nesting,  K-Fold,  Stratified K-Fold,  Leave One Out,  Leave P Out,  Class Label CV,  Grouped Data CV,  Predefined Splits,  Time Series Splits,  Permutation Testing,  Visualizations |\n| 32 | **Parameter Tuning**                       | Grid Search,  Randomized Optimization,  Successive Halving,  Composite Estimators \u0026 Parameter Spaces,  Alternative to Brute Force,  Info Criteria (AIC, BIC) |\n| 33 | **Metrics \u0026 Scoring (Intro)**              | scoring,  make_scorer | \n| 33a | **Classification Metrics**                | Accuracy,  Top-K Accuracy,  Balanced Accuracy,  Cohen's Kappa,  Confusion Matrix,  Classification Report,  Hamming Loss,  Precision,  Recall,  F-Measure,  Precision-Recall Curve,  Average Precision,  Jaccard Similarity,  Hinge Loss,  Log Loss,  Matthews Correlation Coefficient,  Receiver Operating Characteristic (ROC) Curves,  ROC-AUC,  Detection Error Tradeoff (DET),  Zero One Loss,  Brier Score |\n| 33b | **Multilabel Ranking Metrics**            | Coverage Error,  Label Ranking Avg Precision (LRAP),  Label Ranking Loss,  Discounted Cumulative Gain (DCG), Normalized DCG |\n| 33c | **Regression Metrics**                    | Explained Variance,  Max Error,  Mean Absolute Error (MAE),  Mean Squared Error (MSE),  Mean Squared Log Error (MSLE),  Mean Absolute Pct Error (MAPE),  R^2 score,  aka Coefficient of Determination ,  Tweedie Deviances |\n| 33d | **Dummy Metrics**                         | Dummy Classifiers,  Dummy Regressors | \n| 34 | **Viz/Validation**                         | Validation Curve,  Learning Curve | \n| 41 | **Viz/Inspection**                         | 2D PDPs, 3D PDPs,  Individual Conditional Expectation (ICE) Plot |\n| 42 | **Viz/Permutations**                       | Permutation Feature Importance (PFI),  Impurity vs Permutation Metrics | \n| 50a | **Viz/ROC Curves**                        | ROC Curve |\n| 50b | **Viz/custom PDP Plots**                  | Example |\n| 50c | **Vis/Classification metrics**            | Confusion Matrix,  ROC Curve,  Precision-Recall Curve | \n| 61 | **Composite Transformers**                 | Pipelines,  Caching,  Regression Target xforms,  Feature Unions,  Column Transformers |\n| 62a | **Text Feature Extraction**               | Bag of Words (BoW),  Sparsity,  Count Vectorizer,  Stop Words,  Tf-Idf,  Binary Markers,  Text file decoding,  Hashing Trick,  Out-of-core Scaling,  Custom Vectorizers |\n| 62b | **Image Patch Extraction**                | Extract from Patches,  Reconstruct from Patches,  Connectivity Graphs |\n| 63 | **Data Preprocessing**                     | Scaling,  Quantile Transforms,  Power Maps (Box-Cox, Yeo-Johnson),  Category Coding,  One-Hot Coding,  Quantization aka Binning,  Feature Binarization |\n| 64 | **Missing Value Imputation**               | Univariate,  Multivariate,  Multiple-vs-Single,  Nearest-Neighbors,  Marking Imputed Values | \n| 66 | **Random Projections**                     | Johnson-Lindenstrauss lemma,  Gaussian RP,  Sparse RP Empirical Validation |\n| 67 | **Kernel Approximations**                  | Nystroem,  RBF Sampler,  Additive Chi-Squared Sampler,  Skewed Chi-Squared Sampler,  Polynomial Sampling - Tensor Sketch |\n| 68 | **Pairwise Ops**                           | Distances vs Kernels,  Cosine Similarity,  Kernels |\n| 69 | **Transforming Prediction Targets**        | Label Binarization,  Multilabel Binarization,  Label Encoding |\n| 71 | **Toy Datasets**                           | Boston,  Iris,  Diabetes,  Digits,  Linnerud,  Wine,  Breast Cancer,  Olivetti faces,  20 newsgroups,  Labeled faces,  Forest covertypes,  Reuters corpus,  KDD,  Cal housing |\n| 73 | **Artificial Data**                        | random-nclass-data,  Gaussian blobs,  Gaussian quantiles,  Circles,  Moons,  Multilabel class data,  Hastie data,  BiClusters,  Checkerboards,  Regression,  Friedman1/2/3,  S-Curve,  Swiss Roll,  Low-Rank Matrix,  Sparse Coded Signal,  Sparse Symmetric Positive Definite (SPD) Matrix | \n| 74 | **Other Data**                             | Sample images,  SVMlight/LibSVM formats,  OpenML,  pandas.io,  scipy.io,  numpy.routines.io,  scikit-image,  imageio,  scipy.io.wavfile |\n| 81 | **Scaling**                                | Out-of-core ops (**BUG = TODO**) | \n| 82 | **Latency**                                | Bulk-vs-atomic ops,  Latency vs Validation,  Latency vs #Features,  Latency vs Datatype,  Latency vs Feature Extraction,  Linear Algebra Libs (BLAS, LAPACK, ATLAS, OpenBLAS, MKL, vecLib) |\n| 83 | **Parallelism**                            | JobLib,  OpenMP,  NumPy,  Oversubscription,  config switches |\n| 90 | **Persistence**                            | Pickle,  Joblib |\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fbjpcjp%2Fscikit-learn","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fbjpcjp%2Fscikit-learn","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fbjpcjp%2Fscikit-learn/lists"}