Top 10 Features from Decision Tree:
                 feature  importance
              Attendance    0.334078
           Hours_Studied    0.222294
         Previous_Scores    0.101916
       Tutoring_Sessions    0.059365
     Access_to_Resources    0.045726
    Parental_Involvement    0.043599
       Physical_Activity    0.025517
           Family_Income    0.025028
             Sleep_Hours    0.022586
Parental_Education_Level    0.019073

----------------------------------------
DECISION PATH ANALYSIS
----------------------------------------

Student #0 (Actual: Fail, Predicted: Fail):
  Top influencing features:
    Attendance: 0.5750 (importance: 0.3341)
    Hours_Studied: 0.4419 (importance: 0.2223)
    Previous_Scores: 0.5400 (importance: 0.1019)
    Tutoring_Sessions: 0.0000 (importance: 0.0594)
    Access_to_Resources: 0.0000 (importance: 0.0457)

Student #10 (Actual: Fail, Predicted: Fail):
  Top influencing features:
    Attendance: 0.3750 (importance: 0.3341)
    Hours_Studied: 0.5581 (importance: 0.2223)
    Previous_Scores: 0.6400 (importance: 0.1019)
    Tutoring_Sessions: 0.3750 (importance: 0.0594)
    Access_to_Resources: 0.0000 (importance: 0.0457)

Student #20 (Actual: Pass, Predicted: Pass):
  Top influencing features:
    Attendance: 0.6750 (importance: 0.3341)
    Hours_Studied: 0.5814 (importance: 0.2223)
    Previous_Scores: 0.4000 (importance: 0.1019)
    Tutoring_Sessions: 0.3750 (importance: 0.0594)
    Access_to_Resources: 2.0000 (importance: 0.0457)

============================================================
CLASSIFICATION RESULTS SUMMARY
============================================================
             Algorithm  Accuracy  Precision   Recall  F1-Score
        Neural Network  0.937216   0.917241 0.818462  0.865041
Support Vector Machine  0.934191   0.950758 0.772308  0.852292
     Gradient Boosting  0.932678   0.906897 0.809231  0.855285
           Naïve Bayes  0.925870   0.928302 0.756923  0.833898
         Random Forest  0.914523   0.930894 0.704615  0.802102
         Decision Tree  0.854009   0.722973 0.658462  0.689211
   K-Nearest Neighbors  0.763238   0.531250 0.313846  0.394584

============================================================
NAÏVE BAYES ANALYSIS AND VISUALIZATION
============================================================

----------------------------------------
FEATURE DISTRIBUTION ANALYSIS
----------------------------------------

Top 10 Features by Class Discrimination:
                 feature  mean_fail  mean_pass  mean_diff  discrimination_score
              Attendance     0.4195     0.7516     0.3321                1.4235
           Hours_Studied     0.4113     0.5337     0.1224                0.9669
     Access_to_Resources     1.0462     1.2954     0.2492                0.3659
         Previous_Scores     0.4741     0.5774     0.1032                0.3647
    Parental_Involvement     1.0409     1.2500     0.2091                0.3062
       Tutoring_Sessions     0.1751     0.2188     0.0436                0.2777
          Peer_Influence     1.1448     1.3085     0.1637                0.2208
      Distance_from_Home     0.5405     0.4000     0.1405                0.2161
Parental_Education_Level     0.6612     0.8123     0.1511                0.1922
        Motivation_Level     0.8790     0.9908     0.1117                0.1607

============================================================
2. CLUSTERING ANALYSIS
============================================================
Determining optimal number of clusters...

Silhouette Scores:
  K=2: Silhouette Score = 0.0646
  K=3: Silhouette Score = 0.0556
  K=4: Silhouette Score = 0.0523
  K=5: Silhouette Score = 0.0574

Cluster distribution:
Cluster
0    2381
1    3531
2     695
Name: count, dtype: int64

============================================================
CLUSTER CHARACTERISTICS
============================================================
         Exam_Score  Hours_Studied  Attendance  Previous_Scores  \
Cluster                                                           
0             66.96           0.45        0.50             0.50   
1             67.61           0.44        0.51             0.50   
2             66.27           0.44        0.48             0.51   

         Parental_Involvement  
Cluster                        
0                        1.08  
1                        1.09  
2                        1.10

============================================================
3. ASSOCIATION RULE MINING (APRIORI ALGORITHM)
============================================================
Using 9 binary columns for association analysis

Running Apriori algorithm...

Found 936 association rules

Top 10 Association Rules (sorted by Lift):
                                                                            antecedents                                                     consequents   support  confidence      lift
934                                                          (School_Type_Public, Pass)  (High_Study, High_Score, High_Attendance, Internet_Access_Yes)  0.110640    0.651515  2.775345
881                                                                              (Pass)  (High_Study, High_Score, High_Attendance, Internet_Access_Yes)  0.159074    0.646769  2.755129
863                      (High_Study, High_Score, High_Attendance, Internet_Access_Yes)                                                          (Pass)  0.159074    0.677627  2.755129
724           (High_Score, High_Attendance, High_Study, Extracurricular_Activities_Yes)                                                          (Pass)  0.101710    0.676737  2.751509
905  (High_Score, High_Study, Internet_Access_Yes, School_Type_Public, High_Attendance)                                                          (Pass)  0.110640    0.675601  2.746889
903                                                          (School_Type_Public, Pass)                       (High_Score, High_Attendance, High_Study)  0.116997    0.688948  2.712683
927                                     (School_Type_Public, Internet_Access_Yes, Pass)                       (High_Score, High_Attendance, High_Study)  0.110640    0.687030  2.705130
578                                           (High_Score, High_Attendance, High_Study)                                                          (Pass)  0.168760    0.664482  2.701680
586                                                                              (Pass)                       (High_Score, High_Attendance, High_Study)  0.168760    0.686154  2.701680
877                                                         (Internet_Access_Yes, Pass)                       (High_Score, High_Attendance, High_Study)  0.159074    0.683800  2.692410

/Users/jackpattarini/Library/Python/3.12/lib/python/site-packages/mlxtend/frequent_patterns/fpcommon.py:175: DeprecationWarning: DataFrames with non-bool types result in worse computationalperformance and their support might be discontinued in the future.Please use a DataFrame with bool type
  warnings.warn(

============================================================
4. DIMENSIONALITY REDUCTION WITH PCA
============================================================
Principal Components Analysis:
Total features: 19

Explained variance by component:
  PC1: 0.0574 (5.7%), Cumulative: 5.7%
  PC2: 0.0567 (5.7%), Cumulative: 11.4%
  PC3: 0.0558 (5.6%), Cumulative: 17.0%
  PC4: 0.0554 (5.5%), Cumulative: 22.5%
  PC5: 0.0551 (5.5%), Cumulative: 28.0%
  PC6: 0.0546 (5.5%), Cumulative: 33.5%
  PC7: 0.0537 (5.4%), Cumulative: 38.9%
  PC8: 0.0534 (5.3%), Cumulative: 44.2%
  PC9: 0.0532 (5.3%), Cumulative: 49.5%
  PC10: 0.0520 (5.2%), Cumulative: 54.7%
  PC11: 0.0518 (5.2%), Cumulative: 59.9%
  PC12: 0.0514 (5.1%), Cumulative: 65.1%
  PC13: 0.0513 (5.1%), Cumulative: 70.2%
  PC14: 0.0510 (5.1%), Cumulative: 75.3%
  PC15: 0.0505 (5.0%), Cumulative: 80.3%
  PC16: 0.0502 (5.0%), Cumulative: 85.4%
  PC17: 0.0496 (5.0%), Cumulative: 90.3%
  PC18: 0.0486 (4.9%), Cumulative: 95.2%
  PC19: 0.0483 (4.8%), Cumulative: 100.0%

Components needed for 95% variance: 18

============================================================
5. ANOMALY DETECTION
============================================================

Running Isolation Forest...
  Anomalies detected: 661 (10.0%)

Running Local Outlier Factor...
  Anomalies detected: 661 (10.0%)

Running Elliptic Envelope...
  Anomalies detected: 661 (10.0%)

Anomaly Detection Comparison:
              Method  Anomalies_Detected  Percentage
    Isolation Forest                 661   10.004541
Local Outlier Factor                 661   10.004541
   Elliptic Envelope                 661   10.004541

============================================================
6. ENSEMBLE METHODS
============================================================

Training Random Forest (Bagging)...
  Accuracy: 0.9145
  CV Accuracy: 0.9199 (+/- 0.0116)

Training AdaBoost (Boosting)...
  Accuracy: 0.9213
  CV Accuracy: 0.9228 (+/- 0.0084)

Training Gradient Boosting...
  Accuracy: 0.9327
  CV Accuracy: 0.9345 (+/- 0.0213)

Ensemble Methods Comparison:
              Algorithm  Accuracy  Precision   Recall  F1-Score  CV_Mean   CV_Std
Random Forest (Bagging)  0.914523   0.930894 0.704615  0.802102 0.919934 0.005816
    AdaBoost (Boosting)  0.921331   0.859935 0.812308  0.835443 0.922808 0.004219
      Gradient Boosting  0.932678   0.906897 0.809231  0.855285 0.934464 0.010662

============================================================
RANDOM FOREST FEATURE IMPORTANCE
============================================================
                 feature  importance
              Attendance    0.331548
           Hours_Studied    0.212918
         Previous_Scores    0.088600
       Tutoring_Sessions    0.043570
     Access_to_Resources    0.038045
             Sleep_Hours    0.034478
    Parental_Involvement    0.031346
       Physical_Activity    0.030850
           Family_Income    0.024878
Parental_Education_Level    0.024545

Generate Report¶

Rationale¶

Selection Criteria¶

Model Summaries¶

1. Decision Tree / Random Forest¶

2. K-Nearest Neighbor¶

3. Neural Networks¶

4. Naïve Bayes¶

5. Support Vector Machines¶

6. Random Forest, Boosting (Ensemble Methods)¶

7. Association Rule Mining (Apriori)¶

Additional Algorithms¶

Excluded Algorithms¶