#Section 2

import os
print("Current working directory:", os.getcwd())
print("Files here:", os.listdir())

import pandas as pd

df = pd.read_csv(r"C:\Users\13015\Desktop\Credit Card Project\fraud_dataset.csv")

# Dataset shape
df.shape

# Preview first few rows
df.head()

# Preview random sample (useful for fraud datasets)
df.sample(5, random_state=42)

df.info()

df.describe()

df.isnull().sum()

df.duplicated().sum()

df['is_fraud'].value_counts()

df['is_fraud'].value_counts(normalize=True)

Current working directory: c:\Users\13015\Desktop\Credit Card Project
Files here: ['Credit Card Project.ipynb', 'fraud_dataset.csv']
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60000 entries, 0 to 59999
Data columns (total 32 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   transaction_id             60000 non-null  int64  
 1   account_id                 60000 non-null  int64  
 2   card_id                    60000 non-null  object 
 3   txn_hour                   60000 non-null  int64  
 4   txn_day_of_week            60000 non-null  int64  
 5   transaction_amount         60000 non-null  float64
 6   channel                    60000 non-null  object 
 7   entry_mode                 60000 non-null  object 
 8   txn_count_1min             60000 non-null  int64  
 9   txn_count_5min             60000 non-null  int64  
 10  avg_txn_amount_30d         60000 non-null  float64
 11  max_txn_amount_90d         60000 non-null  float64
 12  merchant_id                60000 non-null  object 
 13  merchant_category_code     60000 non-null  int64  
 14  merchant_fraud_rate_30d    60000 non-null  float64
 15  is_new_merchant            60000 non-null  int64  
 16  merchant_country           60000 non-null  object 
 17  cardholder_country         60000 non-null  object 
 18  cross_border_flag          60000 non-null  int64  
 19  distance_from_last_txn_km  60000 non-null  float64
 20  time_since_last_txn_sec    60000 non-null  int64  
 21  device_id                  60000 non-null  object 
 22  is_new_device              60000 non-null  int64  
 23  device_country_mismatch    60000 non-null  int64  
 24  cvv_result                 60000 non-null  object 
 25  cvv_fail_count_24h         60000 non-null  int64  
 26  card_age_days              60000 non-null  int64  
 27  account_age_days           60000 non-null  int64  
 28  historical_fraud_flag      60000 non-null  int64  
 29  anomaly_label              60000 non-null  int64  
 30  anomaly_score              60000 non-null  float64
 31  is_fraud                   60000 non-null  int64  
dtypes: float64(6), int64(18), object(8)
memory usage: 14.6+ MB

is_fraud
0    0.955333
1    0.044667
Name: proportion, dtype: float64

#Section 3

import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 4))
sns.histplot(df['transaction_amount'], bins=50, kde=True)
plt.title('Distribution of Transaction Amount')
plt.xlabel('Transaction Amount')
plt.ylabel('Count')
plt.show()

fig, axes = plt.subplots(1, 2, figsize=(12, 4))

sns.histplot(df['txn_count_1min'], bins=30, ax=axes[0])
axes[0].set_title('Transactions in Last 1 Minute')

sns.histplot(df['txn_count_5min'], bins=30, ax=axes[1])
axes[1].set_title('Transactions in Last 5 Minutes')

plt.tight_layout()
plt.show()

plt.figure(figsize=(8, 4))
sns.countplot(x='txn_hour', data=df)
plt.title('Transactions by Hour of Day')
plt.xlabel('Hour')
plt.ylabel('Transaction Count')
plt.show()

plt.figure(figsize=(8, 4))
sns.boxplot(x='is_fraud', y='transaction_amount', data=df)
plt.title('Transaction Amount by Fraud Label')
plt.xlabel('Is Fraud')
plt.ylabel('Transaction Amount')
plt.show()

plt.figure(figsize=(8, 4))
sns.boxplot(x='is_fraud', y='txn_count_5min', data=df)
plt.title('5-Minute Transaction Count by Fraud Label')
plt.xlabel('Is Fraud')
plt.ylabel('Txn Count (5 min)')
plt.show()

plt.figure(figsize=(6, 4))
sns.countplot(x='cross_border_flag', hue='is_fraud', data=df)
plt.title('Cross-Border Flag vs Fraud')
plt.xlabel('Cross Border Flag')
plt.ylabel('Count')
plt.show()

fig, axes = plt.subplots(1, 2, figsize=(12, 4))

sns.countplot(x='is_new_device', hue='is_fraud', data=df, ax=axes[0])
axes[0].set_title('New Device vs Fraud')

sns.countplot(x='is_new_merchant', hue='is_fraud', data=df, ax=axes[1])
axes[1].set_title('New Merchant vs Fraud')

plt.tight_layout()
plt.show()

#Section 4

from sklearn.model_selection import train_test_split

# Separate features and target
X = df.drop(columns=['is_fraud'])
y = df['is_fraud']

# Keep numeric features only for anomaly detection
X_num = X.select_dtypes(include=['int64', 'float64'])

# Train / temp split
X_train, X_temp, y_train, y_temp = train_test_split(
    X_num, y, test_size=0.4, stratify=y, random_state=42
)

# Validation / test split
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=42
)

X_train.shape, X_val.shape, X_test.shape

from scipy.stats import zscore
import numpy as np

# Compute Z-scores
z_scores = np.abs(zscore(X_train))

# Flag anomalies (threshold = 3)
z_anomalies = (z_scores > 3).any(axis=1)

# Add to dataframe
z_anomaly_rate = z_anomalies.mean()
z_anomaly_rate

Q1 = X_train.quantile(0.25)
Q3 = X_train.quantile(0.75)
IQR = Q3 - Q1

iqr_anomalies = ((X_train < (Q1 - 1.5 * IQR)) | 
                 (X_train > (Q3 + 1.5 * IQR))).any(axis=1)

iqr_anomaly_rate = iqr_anomalies.mean()
iqr_anomaly_rate

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

from sklearn.ensemble import IsolationForest

iso_forest = IsolationForest(
    n_estimators=200,
    contamination=0.05,
    random_state=42,
    n_jobs=-1
)

iso_forest.fit(X_train_scaled)

# Anomaly scores (lower = more anomalous)
val_scores = iso_forest.decision_function(X_val_scaled)

# Convert to anomaly labels
val_anomalies = iso_forest.predict(X_val_scaled)
val_anomalies = (val_anomalies == -1).astype(int)

from sklearn.metrics import average_precision_score

aucpr = average_precision_score(y_val, -val_scores)
aucpr

# Attach scores to validation data
val_results = X_val.copy()
val_results['anomaly_score'] = val_scores
val_results['is_fraud'] = y_val.values

# Top 10 most anomalous transactions
top_anomalies = val_results.sort_values('anomaly_score').head(10)
top_anomalies

#Section 5

# Features and target
X = df.drop(columns=['is_fraud'])
y = df['is_fraud']

# Use numeric features only
X_num = X.select_dtypes(include=['int64', 'float64'])

# Train / validation / test split (same structure as before)
from sklearn.model_selection import train_test_split

X_train, X_temp, y_train, y_temp = train_test_split(
    X_num, y, test_size=0.4, stratify=y, random_state=42
)

X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=42
)

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, average_precision_score

dt_default = DecisionTreeClassifier(random_state=42)
dt_default.fit(X_train, y_train)

# Validation predictions
dt_val_preds = dt_default.predict(X_val)
dt_val_probs = dt_default.predict_proba(X_val)[:, 1]

# Metrics
print(classification_report(y_val, dt_val_preds))
dt_aucpr = average_precision_score(y_val, dt_val_probs)
dt_aucpr

from sklearn.ensemble import RandomForestClassifier

rf_default = RandomForestClassifier(
    n_estimators=200,
    random_state=42,
    n_jobs=-1
)

rf_default.fit(X_train, y_train)

rf_val_preds = rf_default.predict(X_val)
rf_val_probs = rf_default.predict_proba(X_val)[:, 1]

print(classification_report(y_val, rf_val_preds))
rf_aucpr = average_precision_score(y_val, rf_val_probs)
rf_aucpr

dt_weighted = DecisionTreeClassifier(
    class_weight='balanced',
    random_state=42
)

dt_weighted.fit(X_train, y_train)

dtw_val_probs = dt_weighted.predict_proba(X_val)[:, 1]
dtw_aucpr = average_precision_score(y_val, dtw_val_probs)
dtw_aucpr

rf_weighted = RandomForestClassifier(
    n_estimators=300,
    class_weight='balanced',
    random_state=42,
    n_jobs=-1
)

rf_weighted.fit(X_train, y_train)

rfw_val_probs = rf_weighted.predict_proba(X_val)[:, 1]
rfw_aucpr = average_precision_score(y_val, rfw_val_probs)
rfw_aucpr

rf_tuned = RandomForestClassifier(
    n_estimators=400,
    max_depth=12,
    min_samples_split=50,
    class_weight='balanced',
    random_state=42,
    n_jobs=-1
)

rf_tuned.fit(X_train, y_train)

rft_val_probs = rf_tuned.predict_proba(X_val)[:, 1]
rft_aucpr = average_precision_score(y_val, rft_val_probs)
rft_aucpr

import pandas as pd

model_results = pd.DataFrame({
    'Model': [
        'Decision Tree (Default)',
        'Random Forest (Default)',
        'Decision Tree (Weighted)',
        'Random Forest (Weighted)',
        'Random Forest (Tuned)'
    ],
    'Validation_AUCPR': [
        dt_aucpr,
        rf_aucpr,
        dtw_aucpr,
        rfw_aucpr,
        rft_aucpr
    ]
})

model_results.sort_values(by='Validation_AUCPR', ascending=False)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     11464
           1       0.96      0.94      0.95       536

    accuracy                           1.00     12000
   macro avg       0.98      0.97      0.97     12000
weighted avg       1.00      1.00      1.00     12000

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     11464
           1       0.97      0.96      0.97       536

    accuracy                           1.00     12000
   macro avg       0.98      0.98      0.98     12000
weighted avg       1.00      1.00      1.00     12000

#Section 6

from sklearn.metrics import average_precision_score

def evaluate_aucpr(model, X_tr, y_tr, X_v, y_v):
    train_probs = model.predict_proba(X_tr)[:, 1]
    val_probs = model.predict_proba(X_v)[:, 1]
    
    return (
        average_precision_score(y_tr, train_probs),
        average_precision_score(y_v, val_probs)
    )

comparison = pd.DataFrame({
    'Model': [
        'RF Default',
        'RF Weighted',
        'RF Tuned'
    ],
    'Train_AUCPR': [
        evaluate_aucpr(rf_default, X_train, y_train, X_val, y_val)[0],
        evaluate_aucpr(rf_weighted, X_train, y_train, X_val, y_val)[0],
        evaluate_aucpr(rf_tuned, X_train, y_train, X_val, y_val)[0]
    ],
    'Validation_AUCPR': [
        evaluate_aucpr(rf_default, X_train, y_train, X_val, y_val)[1],
        evaluate_aucpr(rf_weighted, X_train, y_train, X_val, y_val)[1],
        evaluate_aucpr(rf_tuned, X_train, y_train, X_val, y_val)[1]
    ]
})

comparison

# Final model evaluation on test set
test_probs = rf_tuned.predict_proba(X_test)[:, 1]
test_preds = rf_tuned.predict(X_test)

from sklearn.metrics import classification_report

print(classification_report(y_test, test_preds))

test_aucpr = average_precision_score(y_test, test_probs)
test_aucpr

import matplotlib.pyplot as plt
import seaborn as sns

feature_importance = pd.DataFrame({
    'Feature': X_train.columns,
    'Importance': rf_tuned.feature_importances_
}).sort_values(by='Importance', ascending=False)

feature_importance.head(10)

plt.figure(figsize=(10, 6))
sns.barplot(
    data=feature_importance.head(10),
    x='Importance',
    y='Feature'
)
plt.title('Top 10 Feature Importances - Final Fraud Model')
plt.show()

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     11464
           1       0.95      0.99      0.97       536

    accuracy                           1.00     12000
   macro avg       0.98      0.99      0.98     12000
weighted avg       1.00      1.00      1.00     12000

#Section 7

feature_importance.head(10)

import numpy as np
import pandas as pd

# Use predicted probabilities from the selected final model (rf_tuned)
test_probs = rf_tuned.predict_proba(X_test)[:, 1]

def risk_bucket(p, low=0.20, high=0.60):
    if p < low:
        return "Approve"
    elif p < high:
        return "Step-up Verification"
    else:
        return "Block/Manual Review"

policy = pd.DataFrame({
    "fraud_probability": test_probs,
    "recommended_action": [risk_bucket(p) for p in test_probs],
    "actual_is_fraud": y_test.values
})

policy["recommended_action"].value_counts()

policy.groupby("recommended_action")["actual_is_fraud"].mean().sort_values(ascending=False)

recommended_action
Block/Manual Review     0.954792
Step-up Verification    0.166667
Approve                 0.000437
Name: actual_is_fraud, dtype: float64

	transaction_id	account_id	txn_hour	txn_day_of_week	transaction_amount	txn_count_1min	txn_count_5min	avg_txn_amount_30d	max_txn_amount_90d	merchant_category_code	...	time_since_last_txn_sec	is_new_device	device_country_mismatch	cvv_fail_count_24h	card_age_days	account_age_days	historical_fraud_flag	anomaly_label	anomaly_score	is_fraud
9534	9535	100081	10	0	1651.12000	4	6	216.40	1047.00	5311	...	30	1	1	5	294	683	0	1	-0.214881	1
30861	30862	100278	12	0	1303.71000	3	5	131.60	965.79	5732	...	51	1	1	5	3306	3588	0	1	-0.211623	1
7575	7576	100066	13	6	1691.31000	4	6	183.95	1328.91	5999	...	88	1	1	3	1123	2193	0	1	-0.209716	1
42332	42333	100381	14	0	2676.50000	4	4	276.19	1548.82	5311	...	52	1	1	2	2149	2615	0	1	-0.209154	1
25300	25301	100230	1	0	110.32000	2	3	12.21	64.59	5311	...	112	1	1	5	1813	3438	0	1	-0.207872	1
43415	43416	100391	21	6	2012.74000	3	4	281.60	1588.37	5999	...	85	1	1	2	427	850	0	1	-0.207725	1
39122	39123	100351	9	0	1185.97000	4	4	296.06	1672.98	5812	...	71	1	1	4	939	3194	1	1	-0.206762	1
9203	9204	100079	23	6	193.70000	3	5	40.77	194.01	5411	...	105	1	1	4	2719	3077	0	1	-0.205180	1
38645	38646	100346	8	0	1434.53000	3	5	282.62	1397.09	5311	...	123	1	1	3	96	191	0	1	-0.205047	1
59645	59646	100257	22	6	900.97817	4	4	124.98	947.01	5812	...	179	1	1	4	356	991	0	1	-0.202970	1

Executive Summary¶

1. Requirements Gathering¶

1.1 Business Problem Definition¶

1.2 Business and Analytical Objectives¶

1.3 Expected Business Outcomes¶

1.4 Success Criteria and Evaluation Metrics¶

1.5 High-Level Solution Approach¶

Section 2: Data Overview¶

Dataset Description¶

Dataset Shape¶

Feature Data Types¶

Missing Value Assessment¶

Duplicate Record Check¶

Fraud Class Distribution¶

Section 3: Exploratory Data Analysis (EDA)¶

Key Observations¶

Implications for Modeling¶

Section 4: Anomaly Detection¶

Baseline Anomaly Detection Methods¶

Isolation Forest Performance¶

Analysis of Top Anomalies¶

Section 5: Fraud Detection – Model Building¶

Evaluation Metrics¶

Model Performance Insights¶

Section 6: Model Performance Comparison and Final Model Selection¶

Final Model Selection¶

Test Set Performance¶

Feature Importance Analysis¶

Section 7: Business Insights and Recommendations¶

7.1 Key Findings¶

7.2 Recommended Fraud Detection Workflow (Hybrid Approach)¶

7.3 Risk-Based Action Policy¶

7.4 Monitoring and Governance Considerations¶

7.5 Opportunities for Future Enhancement¶

Conclusion¶

	Model	Validation_AUCPR
1	Random Forest (Default)	0.989725
4	Random Forest (Tuned)	0.988792
3	Random Forest (Weighted)	0.987392
2	Decision Tree (Weighted)	0.921265
0	Decision Tree (Default)	0.903637