Spaces:

ruanchaves
/

napolab

Sleeping

App Files Files Community

napolab / app.py

ruanchaves

Update app.py

ddc5368 verified 5 months ago

raw

history blame contribute delete

70.5 kB

	import gradio as gr
	import pandas as pd
	import numpy as np
	import plotly.express as px
	import plotly.graph_objects as go
	from plotly.subplots import make_subplots
	import json
	import os
	import re
	from typing import Dict, List, Optional, Tuple

	# Import data loader
	from data_loader import data_loader, get_napolab_datasets, get_sample_benchmark_results, get_model_metadata

	# Load data from YAML file
	NAPOLAB_DATASETS = get_napolab_datasets()
	SAMPLE_BENCHMARK_RESULTS = get_sample_benchmark_results()
	MODEL_METADATA = get_model_metadata()

	def load_portuguese_leaderboard_data() -> pd.DataFrame:
	"""Load data from the Portuguese leaderboard CSV file."""
	try:
	csv_path = "portuguese_leaderboard.csv"
	if os.path.exists(csv_path):
	df = pd.read_csv(csv_path)
	# Select only the relevant columns
	relevant_columns = ['model_name', 'model_num_parameters', 'assin2_rte', 'assin2_sts', 'faquad_nli', 'hatebr_offensive']
	df = df[relevant_columns].copy()

	# Rename columns to match the existing format
	df = df.rename(columns={
	'assin2_rte': 'ASSIN2 RTE',
	'assin2_sts': 'ASSIN2 STS',
	'faquad_nli': 'FaQUaD-NLI',
	'hatebr_offensive': 'HateBR'
	})

	# Add source information
	df['source'] = 'portuguese_leaderboard'

	print(f"Loaded {len(df)} models from Portuguese leaderboard")
	return df
	else:
	print(f"Portuguese leaderboard CSV not found: {csv_path}")
	return pd.DataFrame()
	except Exception as e:
	print(f"Error loading Portuguese leaderboard data: {e}")
	return pd.DataFrame()

	def load_external_models_data() -> pd.DataFrame:
	"""Load data from the external models CSV file."""
	try:
	csv_path = "external_models.csv"
	if os.path.exists(csv_path):
	df = pd.read_csv(csv_path)
	# Select only the relevant columns
	relevant_columns = ['model', 'link', 'assin2_rte', 'assin2_sts', 'faquad_nli', 'hatebr_offensive']
	df = df[relevant_columns].copy()

	# Rename columns to match the existing format
	df = df.rename(columns={
	'model': 'model_name',
	'assin2_rte': 'ASSIN2 RTE',
	'assin2_sts': 'ASSIN2 STS',
	'faquad_nli': 'FaQUaD-NLI',
	'hatebr_offensive': 'HateBR'
	})

	# Add source information
	df['source'] = 'external_models'

	# Add model_num_parameters column with 0 for external models
	df['model_num_parameters'] = 0

	print(f"Loaded {len(df)} external models")
	return df
	else:
	print(f"External models CSV not found: {csv_path}")
	return pd.DataFrame()
	except Exception as e:
	print(f"Error loading external models data: {e}")
	return pd.DataFrame()

	# Load Portuguese leaderboard data
	PORTUGUESE_LEADERBOARD_DATA = load_portuguese_leaderboard_data()

	# Load external models data
	EXTERNAL_MODELS_DATA = load_external_models_data()

	def create_simplified_benchmark_table(selected_datasets: List[str] = None, show_napolab_thesis: bool = True, show_teenytinyllama: bool = True, show_portuguese_leaderboard: bool = True, show_external_models: bool = True, hide_incomplete_models: bool = False, min_average_performance: float = 0.0, search_query: str = "", max_num_parameters: int = 0) -> pd.DataFrame:
	"""Create a simplified benchmark table with one column per dataset."""
	# Get all dataset names
	dataset_names = sorted(NAPOLAB_DATASETS.keys())
	dataset_display_names = [NAPOLAB_DATASETS[name].get('name', name) for name in dataset_names]

	# Use selected datasets if provided, otherwise use all datasets
	if selected_datasets is None:
	selected_datasets = dataset_names

	# Collect data for each model
	model_data = {}

	# Process existing benchmark results
	for dataset_name, models in SAMPLE_BENCHMARK_RESULTS.items():
	for model_name, metrics in models.items():
	if model_name not in model_data:
	model_data[model_name] = {
	'dataset_scores': {},
	'url': None,
	'source': 'existing'
	}

	# Calculate average performance for this dataset
	avg_performance = np.mean(list(metrics.values()))
	model_data[model_name]['dataset_scores'][dataset_name] = avg_performance

	# Process Portuguese leaderboard data
	if show_portuguese_leaderboard and not PORTUGUESE_LEADERBOARD_DATA.empty:
	for _, row in PORTUGUESE_LEADERBOARD_DATA.iterrows():
	model_name = row['model_name']

	if model_name not in model_data:
	model_data[model_name] = {
	'dataset_scores': {},
	'url': None,
	'source': 'portuguese_leaderboard',
	'num_parameters': row.get('model_num_parameters', 0)
	}

	# Map Portuguese leaderboard columns to dataset names
	column_mapping = {
	'ASSIN2 RTE': 'assin2_rte',
	'ASSIN2 STS': 'assin2_sts',
	'FaQUaD-NLI': 'faquad-nli',
	'HateBR': 'hatebr'
	}

	for display_name, dataset_name in column_mapping.items():
	if dataset_name in NAPOLAB_DATASETS:
	score = row[display_name]
	if pd.notna(score) and score > 0:
	model_data[model_name]['dataset_scores'][dataset_name] = score

	# Process external models data
	if show_external_models and not EXTERNAL_MODELS_DATA.empty:
	for _, row in EXTERNAL_MODELS_DATA.iterrows():
	model_name = row['model_name']

	if model_name not in model_data:
	model_data[model_name] = {
	'dataset_scores': {},
	'url': row.get('link', ''),
	'source': 'external_models',
	'num_parameters': row.get('model_num_parameters', 0)
	}

	# Map external models columns to dataset names
	column_mapping = {
	'ASSIN2 RTE': 'assin2_rte',
	'ASSIN2 STS': 'assin2_sts',
	'FaQUaD-NLI': 'faquad-nli',
	'HateBR': 'hatebr'
	}

	for display_name, dataset_name in column_mapping.items():
	if dataset_name in NAPOLAB_DATASETS:
	score = row[display_name]
	if pd.notna(score) and score > 0:
	model_data[model_name]['dataset_scores'][dataset_name] = score

	# Get model URLs and source information for existing models
	additional_models = data_loader.get_additional_models()
	for model_name in model_data.keys():
	if model_data[model_name]['source'] == 'existing':
	# Get URL
	for arch_models in additional_models.values():
	if model_name in arch_models:
	model_data[model_name]['url'] = arch_models[model_name].get('huggingface_url', '')
	break

	# Get source information
	model_metadata = MODEL_METADATA.get(model_name, {})
	source = model_metadata.get('source', 'unknown')
	model_data[model_name]['source'] = source

	# Add num_parameters for existing models (set to 0 as they don't have this info)
	model_data[model_name]['num_parameters'] = 0

	# Create table data
	table_data = []

	for model_name, data in model_data.items():
	# Apply source filtering
	source = data['source']

	# Apply show filters - only show models from sources that are checked
	if source == 'napolab_thesis' and not show_napolab_thesis:
	continue
	if source == 'teenytinyllama_paper' and not show_teenytinyllama:
	continue
	if source == 'portuguese_leaderboard' and not show_portuguese_leaderboard:
	continue
	if source == 'external_models' and not show_external_models:
	continue
	# Hide models with unknown source (should not happen with proper data)
	if source == 'unknown':
	continue

	# Apply parameter filtering (only for Portuguese leaderboard models)
	if max_num_parameters > 0 and source == 'portuguese_leaderboard':
	num_parameters = data.get('num_parameters', 0)
	if num_parameters > max_num_parameters:
	continue

	# Create clickable link for model name
	if data['url']:
	model_display = f"[{model_name}]({data['url']})"
	elif source == 'portuguese_leaderboard' and '/' in model_name:
	# Create Hugging Face link for Portuguese leaderboard models with slashes
	huggingface_url = f"https://huggingface.co/{model_name}"
	model_display = f"[{model_name}]({huggingface_url})"
	else:
	model_display = model_name

	# Create row with dataset scores
	row_data = {'Model': model_display}

	# Calculate average only over selected datasets
	selected_scores = []
	for dataset_name in selected_datasets:
	score = data['dataset_scores'].get(dataset_name, 0)
	if score > 0: # Only include non-zero scores in average
	selected_scores.append(score)

	overall_avg = np.mean(selected_scores) if selected_scores else 0
	row_data['Average'] = round(overall_avg, 4)

	# Add scores for each dataset (only selected ones)
	for dataset_name in dataset_names:
	score = data['dataset_scores'].get(dataset_name, 0)
	display_name = dataset_display_names[dataset_names.index(dataset_name)]
	# Only add columns for selected datasets
	if dataset_name in selected_datasets:
	row_data[display_name] = round(score, 4)

	table_data.append(row_data)

	df = pd.DataFrame(table_data)

	# Filter to show only models that have scores for at least one selected dataset
	if selected_datasets and not df.empty:
	# Get display names for selected datasets
	selected_display_names = [NAPOLAB_DATASETS[name].get('name', name) for name in selected_datasets]

	# Filter models based on selection criteria
	models_to_keep = []
	for _, row in df.iterrows():
	has_score = False
	has_all_scores = True

	# Only check the datasets that are actually selected for display
	for dataset_name in selected_datasets:
	display_name = NAPOLAB_DATASETS[dataset_name].get('name', dataset_name)
	if display_name in df.columns:
	score = row[display_name]
	if score > 0:
	has_score = True
	else:
	has_all_scores = False

	# Keep model if it has at least one score
	if has_score:
	# If hide_incomplete_models is True, only keep models with all scores in selected datasets
	if not hide_incomplete_models or has_all_scores:
	models_to_keep.append(row['Model'])

	# Filter dataframe to only include selected models
	if models_to_keep:
	df = df[df['Model'].isin(models_to_keep)]
	else:
	# If no models to keep, create empty DataFrame with proper structure
	# Create columns list first
	columns = ['Model']
	for dataset_name in dataset_names:
	display_name = dataset_display_names[dataset_names.index(dataset_name)]
	if dataset_name in selected_datasets:
	columns.append(display_name)
	columns.append('Average')

	# Create empty DataFrame with correct columns
	df = pd.DataFrame(columns=columns)

	# Filter by minimum average performance
	if min_average_performance > 0 and not df.empty:
	df = df[df['Average'] >= min_average_performance]

	# Filter by search query
	if search_query and not df.empty:
	# Extract model names from markdown links for searching
	df_filtered = df.copy()
	df_filtered['model_name_clean'] = df_filtered['Model'].str.replace(r'\[([^\]]+)\]\([^)]+\)', r'\1', regex=True)
	try:
	# Use regex pattern matching
	df_filtered = df_filtered[df_filtered['model_name_clean'].str.contains(search_query, case=False, na=False, regex=True)]
	except re.error:
	# Fallback to simple string matching if regex is invalid
	df_filtered = df_filtered[df_filtered['model_name_clean'].str.contains(search_query, case=False, na=False)]
	df = df_filtered.drop('model_name_clean', axis=1)

	# Sort by Average (descending)
	if not df.empty:
	df = df.sort_values('Average', ascending=False)

	# Add rank column with medal emojis for top 3 and color-coded emojis for others
	if not df.empty:
	df = df.reset_index(drop=True)
	df.index = df.index + 1 # Start ranking from 1

	# Create rank column with medal emojis and color-coded emojis
	rank_column = []
	total_models = len(df)

	for rank in df.index:
	if rank == 1:
	rank_column.append("🥇 1")
	elif rank == 2:
	rank_column.append("🥈 2")
	elif rank == 3:
	rank_column.append("🥉 3")
	else:
	# Color-code based on position relative to total
	position_ratio = rank / total_models
	if position_ratio <= 0.33: # Top third
	rank_column.append("🟢 " + str(rank))
	elif position_ratio <= 0.67: # Middle third
	rank_column.append("🟡 " + str(rank))
	else: # Bottom third
	rank_column.append("🔴 " + str(rank))

	df.insert(0, 'Rank', rank_column)

	return df


	# Global variable to track the current CSV file
	current_csv_file = None

	def export_csv(df: pd.DataFrame):
	"""Export the benchmark table to CSV."""
	global current_csv_file

	print(f"Export function called with dataframe shape: {df.shape}")

	if df.empty:
	print("Dataframe is empty, returning None")
	return None

	# Clean up previous file if it exists
	if current_csv_file:
	try:
	import os
	if os.path.exists(current_csv_file):
	os.remove(current_csv_file)
	print(f"Deleted previous CSV file: {current_csv_file}")
	except Exception as e:
	print(f"Error deleting previous file {current_csv_file}: {e}")

	# Clean the dataframe for CSV export
	df_clean = df.copy()

	# Remove markdown formatting from model names for cleaner CSV
	df_clean['Model'] = df_clean['Model'].str.replace(r'\[([^\]]+)\]\([^)]+\)', r'\1', regex=True)

	# Create filename with timestamp
	from datetime import datetime
	import tempfile
	import os

	timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
	filename = f"napolab_benchmark_results_{timestamp}.csv"

	# Create file in current directory (simpler approach)
	file_path = filename

	print(f"Creating CSV file at: {file_path}")

	# Save to CSV file
	df_clean.to_csv(file_path, index=False)

	print(f"CSV file created successfully. File exists: {os.path.exists(file_path)}")

	# Update current file tracking
	current_csv_file = file_path

	return file_path

	def cleanup_current_csv():
	"""Clean up the current CSV file after download."""
	global current_csv_file
	import os

	if current_csv_file and os.path.exists(current_csv_file):
	try:
	os.remove(current_csv_file)
	print(f"Deleted CSV file after download: {current_csv_file}")
	current_csv_file = None
	except Exception as e:
	print(f"Error deleting file {current_csv_file}: {e}")


	def create_model_performance_radar(selected_datasets: List[str] = None, show_napolab_thesis: bool = True, show_teenytinyllama: bool = True, show_portuguese_leaderboard: bool = True, show_external_models: bool = True, hide_incomplete_models: bool = False, min_average_performance: float = 0.0, search_query: str = "", max_num_parameters: int = 0) -> go.Figure:
	"""Create a radar chart showing model performance across all datasets."""
	# Use selected datasets if provided, otherwise use all datasets
	if selected_datasets is None:
	selected_datasets = list(NAPOLAB_DATASETS.keys())

	# Get dataset names for the radar axes (only selected ones)
	dataset_names = selected_datasets
	dataset_display_names = [NAPOLAB_DATASETS[name].get('name', name) for name in dataset_names]

	# Collect data for each model
	model_data = {}

	# Process existing benchmark results
	for dataset_name, models in SAMPLE_BENCHMARK_RESULTS.items():
	if dataset_name in selected_datasets:
	for model_name, metrics in models.items():
	if model_name not in model_data:
	model_data[model_name] = {
	'performances': {},
	'architecture': MODEL_METADATA.get(model_name, {}).get('architecture', 'Unknown'),
	'source': 'existing'
	}

	# Calculate average performance for this dataset
	avg_performance = np.mean(list(metrics.values()))
	model_data[model_name]['performances'][dataset_name] = avg_performance

	# Process Portuguese leaderboard data
	if show_portuguese_leaderboard and not PORTUGUESE_LEADERBOARD_DATA.empty:
	for _, row in PORTUGUESE_LEADERBOARD_DATA.iterrows():
	model_name = row['model_name']

	if model_name not in model_data:
	model_data[model_name] = {
	'performances': {},
	'architecture': 'Unknown',
	'source': 'portuguese_leaderboard',
	'num_parameters': row.get('model_num_parameters', 0)
	}

	# Map Portuguese leaderboard columns to dataset names
	column_mapping = {
	'ASSIN2 RTE': 'assin2_rte',
	'ASSIN2 STS': 'assin2_sts',
	'FaQUaD-NLI': 'faquad-nli',
	'HateBR': 'hatebr'
	}

	for display_name, dataset_name in column_mapping.items():
	if dataset_name in selected_datasets:
	score = row[display_name]
	if pd.notna(score) and score > 0:
	model_data[model_name]['performances'][dataset_name] = score

	# Process external models data
	if show_external_models and not EXTERNAL_MODELS_DATA.empty:
	for _, row in EXTERNAL_MODELS_DATA.iterrows():
	model_name = row['model_name']

	if model_name not in model_data:
	model_data[model_name] = {
	'performances': {},
	'architecture': 'Unknown',
	'source': 'external_models',
	'num_parameters': row.get('model_num_parameters', 0)
	}

	# Map external models columns to dataset names
	column_mapping = {
	'ASSIN2 RTE': 'assin2_rte',
	'ASSIN2 STS': 'assin2_sts',
	'FaQUaD-NLI': 'faquad-nli',
	'HateBR': 'hatebr'
	}

	for display_name, dataset_name in column_mapping.items():
	if dataset_name in selected_datasets:
	score = row[display_name]
	if pd.notna(score) and score > 0:
	model_data[model_name]['performances'][dataset_name] = score

	# Get model URLs and source information for existing models
	additional_models = data_loader.get_additional_models()
	for model_name in model_data.keys():
	if model_data[model_name]['source'] == 'existing':
	# Get URL
	for arch_models in additional_models.values():
	if model_name in arch_models:
	model_data[model_name]['url'] = arch_models[model_name].get('huggingface_url', '')
	break

	# Get source information
	model_metadata = MODEL_METADATA.get(model_name, {})
	source = model_metadata.get('source', 'unknown')
	model_data[model_name]['source'] = source

	# Add num_parameters for existing models (set to 0 as they don't have this info)
	model_data[model_name]['num_parameters'] = 0

	# Apply source filtering
	filtered_model_data = {}
	for model_name, data in model_data.items():
	source = data.get('source', 'existing')

	# Apply show filters - only show models from sources that are checked
	if source == 'napolab_thesis' and not show_napolab_thesis:
	continue
	if source == 'teenytinyllama_paper' and not show_teenytinyllama:
	continue
	if source == 'portuguese_leaderboard' and not show_portuguese_leaderboard:
	continue
	if source == 'external_models' and not show_external_models:
	continue
	# Hide models with unknown source (should not happen with proper data)
	if source == 'unknown':
	continue

	# Apply parameter filtering (only for Portuguese leaderboard models)
	if max_num_parameters > 0 and source == 'portuguese_leaderboard':
	num_parameters = data.get('num_parameters', 0)
	if num_parameters > max_num_parameters:
	continue

	filtered_model_data[model_name] = data

	# Apply incomplete model filtering
	if hide_incomplete_models and selected_datasets:
	final_filtered_data = {}
	for model_name, data in filtered_model_data.items():
	has_all_scores = True
	for dataset_name in selected_datasets:
	if data['performances'].get(dataset_name, 0) == 0:
	has_all_scores = False
	break
	if has_all_scores:
	final_filtered_data[model_name] = data
	filtered_model_data = final_filtered_data

	# Apply minimum average performance filtering
	if min_average_performance > 0 and selected_datasets:
	final_filtered_data = {}
	for model_name, data in filtered_model_data.items():
	# Calculate average performance for selected datasets
	scores = []
	for dataset_name in selected_datasets:
	score = data['performances'].get(dataset_name, 0)
	if score > 0: # Only include non-zero scores
	scores.append(score)

	if scores:
	avg_performance = np.mean(scores)
	if avg_performance >= min_average_performance:
	final_filtered_data[model_name] = data
	filtered_model_data = final_filtered_data

	# Apply search query filtering
	if search_query:
	final_filtered_data = {}
	try:
	# Use regex pattern matching
	import re
	pattern = re.compile(search_query, re.IGNORECASE)
	for model_name, data in filtered_model_data.items():
	if pattern.search(model_name):
	final_filtered_data[model_name] = data
	except re.error:
	# Fallback to simple string matching if regex is invalid
	for model_name, data in filtered_model_data.items():
	if search_query.lower() in model_name.lower():
	final_filtered_data[model_name] = data
	filtered_model_data = final_filtered_data

	# Sort models by average performance (descending)
	model_performances = []
	for model_name, data in filtered_model_data.items():
	# Calculate average performance for selected datasets
	scores = []
	for dataset_name in selected_datasets:
	score = data['performances'].get(dataset_name, 0)
	if score > 0: # Only include non-zero scores
	scores.append(score)

	avg_performance = np.mean(scores) if scores else 0
	model_performances.append((model_name, data, avg_performance))

	# Sort by average performance (descending)
	model_performances.sort(key=lambda x: x[2], reverse=True)

	# Calculate dynamic range based on actual data
	all_performance_values = []
	for model_name, data, avg_performance in model_performances:
	for dataset_name in dataset_names:
	score = data['performances'].get(dataset_name, 0)
	if score > 0: # Only include non-zero scores
	all_performance_values.append(score)

	# Set dynamic range with some padding
	if all_performance_values:
	min_score = min(all_performance_values)
	max_score = max(all_performance_values)
	# Add 5% padding below minimum and ensure minimum is not below 0.5
	range_min = max(0.5, min_score - (max_score - min_score) * 0.05)
	range_max = 1.0
	else:
	# Fallback to default range if no data
	range_min = 0.6
	range_max = 1.0

	# Create radar chart
	fig = go.Figure()

	# Generate a more distinguishable color palette
	num_models = len(model_performances)

	# Create a list of line styles for better differentiation
	line_styles = ['solid', 'dash', 'dot', 'dashdot', 'longdash', 'longdashdot']

	# Use highly contrasting colors for better differentiation
	base_colors = [
	'#1f77b4', # Blue
	'#ff7f0e', # Orange
	'#2ca02c', # Green
	'#d62728', # Red
	'#9467bd', # Purple
	'#8c564b', # Brown
	'#e377c2', # Pink
	'#7f7f7f', # Gray
	'#bcbd22', # Olive
	'#17becf', # Cyan
	'#ff9896', # Light Red
	'#98df8a', # Light Green
	'#ffbb78', # Light Orange
	'#aec7e8', # Light Blue
	'#c5b0d5', # Light Purple
	]

	# Ensure we have enough colors
	while len(base_colors) < num_models:
	base_colors.extend(base_colors)

	colors = base_colors[:num_models]

	for i, (model_name, data, avg_performance) in enumerate(model_performances):
	# Get performance values for all datasets (fill with 0 if missing)
	performance_values = []
	for dataset_name in dataset_names:
	performance_values.append(data['performances'].get(dataset_name, 0))

	# Close the polygon by adding the first value at the end
	if performance_values:
	performance_values.append(performance_values[0])

	# Assign color and line style based on model index for better differentiation
	color = colors[i % len(colors)]
	line_style = line_styles[i % len(line_styles)]

	# Show first two models by default, hide the rest
	visible = True if i < 2 else 'legendonly'

	# Create theta values that close the polygon
	theta_values = dataset_display_names + [dataset_display_names[0]] if dataset_display_names else []

	fig.add_trace(go.Scatterpolar(
	r=performance_values,
	theta=theta_values,
	fill=None,
	name=model_name,
	line_color=color,
	line_dash=line_style,
	line_width=3,
	opacity=0.8,
	visible=visible,
	hovertemplate=(
	"<b>%{fullData.name}</b><br>" +
	"Dataset: %{theta}<br>" +
	"Performance: %{r:.3f}<br>" +
	"Architecture: " + data['architecture'] + "<br>" +
	"<extra></extra>"
	)
	))

	# Update layout
	fig.update_layout(
	title="Model Performance Radar Chart",
	polar=dict(
	radialaxis=dict(
	visible=True,
	range=[range_min, range_max],
	gridcolor='rgba(0, 0, 0, 0.2)',
	linecolor='rgba(0, 0, 0, 0.5)',
	tickcolor='rgba(0, 0, 0, 0.7)',
	tickfont=dict(color='rgba(0, 0, 0, 0.8)')
	),
	angularaxis=dict(
	tickmode='array',
	tickvals=list(range(len(dataset_display_names))),
	ticktext=dataset_display_names,
	gridcolor='rgba(0, 0, 0, 0.2)',
	linecolor='rgba(0, 0, 0, 0.5)',
	tickcolor='rgba(0, 0, 0, 0.7)',
	tickfont=dict(color='rgba(0, 0, 0, 0.8)')
	),
	bgcolor='rgba(255, 255, 255, 0)'
	),
	height=700,
	showlegend=True,
	plot_bgcolor='rgba(255, 255, 255, 0)',
	paper_bgcolor='rgba(255, 255, 255, 0)',
	legend=dict(
	yanchor="top",
	y=-0.15,
	xanchor="center",
	x=0.5,
	bgcolor='rgba(255, 255, 255, 0.95)',
	bordercolor='rgba(0, 0, 0, 0.2)',
	borderwidth=1,
	orientation="h",
	font=dict(color='rgba(0, 0, 0, 0.8)')
	),
	margin=dict(l=50, r=50, t=100, b=100),
	font=dict(color='rgba(0, 0, 0, 0.8)')
	)

	return fig

	# Gradio Interface
	with gr.Blocks(title="Napolab Leaderboard", theme=gr.themes.Soft()) as app:
	gr.Markdown("""
	# 🌎 Napolab Leaderboard

	Stay up to date with the latest advancements in Portuguese language models and their performance across carefully curated Portuguese language tasks.

	[⭐ Star us on GitHub](https://github.com/ruanchaves/napolab)
	""")

	with gr.Tabs():

	# Benchmark Results Tab
	with gr.Tab("🏆 Benchmark Results"):
	gr.Markdown("### Model Performance Benchmarks")

	with gr.Accordion("Select Datasets to Include: (Click to expand)", open=False):
	with gr.Row():
	# Create checkboxes for each dataset
	dataset_checkboxes = []
	for dataset_name in sorted(NAPOLAB_DATASETS.keys()):
	display_name = NAPOLAB_DATASETS[dataset_name].get('name', dataset_name)
	# Default to selected only for ASSIN 2 STS, FaQUaD-NLI, and HateBR
	default_value = display_name in ['ASSIN 2 STS', 'FaQUaD-NLI', 'HateBR']
	checkbox = gr.Checkbox(
	label=display_name,
	value=default_value
	)
	dataset_checkboxes.append((dataset_name, checkbox))

	with gr.Accordion("Filter by Score: (Click to expand)", open=False):
	with gr.Row():
	hide_incomplete_models = gr.Checkbox(
	label="Hide models with zero scores in selected datasets",
	value=True
	)

	min_average_performance = gr.Slider(
	minimum=0,
	maximum=100,
	value=80,
	step=1,
	label="Minimum Average Performance (%)"
	)

	with gr.Accordion("Filter by Data Source: (Click to expand)", open=False):
	with gr.Row():
	show_napolab_thesis = gr.Checkbox(
	label="Napolab Thesis models",
	value=True
	)
	show_teenytinyllama = gr.Checkbox(
	label="TeenyTinyLlama models",
	value=True
	)
	show_portuguese_leaderboard = gr.Checkbox(
	label="Open Portuguese LLM Leaderboard models (open-source)",
	value=True
	)

	show_external_models = gr.Checkbox(
	label="Open Portuguese LLM Leaderboard models (proprietary)",
	value=True
	)

	# Calculate max parameters for slider
	max_params = 0
	if not PORTUGUESE_LEADERBOARD_DATA.empty:
	max_params = int(PORTUGUESE_LEADERBOARD_DATA['model_num_parameters'].max())

	with gr.Accordion("Filter by Model Size: (Click to expand)", open=False):
	with gr.Row():
	max_num_parameters = gr.Slider(
	minimum=0,
	maximum=max_params,
	value=0,
	step=1,
	label="Maximum Number of Parameters",
	info="This slider is applicable only to Open PT LLM Leaderboard models. For other models, it will have no effect."
	)

	# Search bar for filtering models
	search_query = gr.Textbox(
	label="Search models by name (supports regex)",
	placeholder="Enter model name or regex pattern to filter...",
	value="",
	info="Supports regular expressions. Examples: 'bert.large', 'gemini\|gpt', 'mdeberta.', '^bert'"
	)

	benchmark_table = gr.DataFrame(
	label="Model Performance Benchmarks",
	wrap=[True, False, False, False, False, False, False, False, False, False],
	interactive=False,
	datatype=["str", "markdown", "number", "number", "number", "number", "number", "number", "number", "number"],
	column_widths=["80px", "200px", "100px", "120px", "120px", "120px", "120px", "120px", "120px", "120px"]
	)

	gr.Markdown("🥇🥈🥉 = Top 3 \| 🟢 = Top 33% \| 🟡 = Middle 33% \| 🔴 = Bottom 33%")

	# Export to CSV button and file component
	export_button = gr.Button("📥 Export to CSV", variant="secondary")
	csv_file = gr.File(label="Download CSV", interactive=False, visible=True)

	# Model Analysis Tab
	with gr.Tab("📈 Model Analysis"):
	gr.Markdown("### Model Performance Radar Chart")

	# Dataset Selection Controls
	with gr.Accordion("Select Datasets to Display: (Click to expand)", open=False):
	with gr.Row():
	# Create checkboxes for each dataset
	analysis_dataset_checkboxes = []
	for dataset_name in sorted(NAPOLAB_DATASETS.keys()):
	display_name = NAPOLAB_DATASETS[dataset_name].get('name', dataset_name)
	# Default to selected only for ASSIN 2 STS, FaQUaD-NLI, and HateBR
	default_value = display_name in ['ASSIN 2 STS', 'FaQUaD-NLI', 'HateBR']
	checkbox = gr.Checkbox(
	label=display_name,
	value=default_value
	)
	analysis_dataset_checkboxes.append((dataset_name, checkbox))

	# Filter Controls
	with gr.Accordion("Filter by Score: (Click to expand)", open=False):
	with gr.Row():
	hide_incomplete_models_analysis = gr.Checkbox(
	label="Hide models with zero scores in selected datasets",
	value=True
	)

	min_average_performance_analysis = gr.Slider(
	minimum=0,
	maximum=100,
	value=80,
	step=1,
	label="Minimum Average Performance (%)"
	)

	with gr.Accordion("Filter by Data Source: (Click to expand)", open=False):
	with gr.Row():
	show_napolab_thesis_analysis = gr.Checkbox(
	label="Napolab Thesis models",
	value=True
	)

	show_teenytinyllama_analysis = gr.Checkbox(
	label="TeenyTinyLlama models",
	value=True
	)

	show_portuguese_leaderboard_analysis = gr.Checkbox(
	label="Open Portuguese LLM Leaderboard models (open-source)",
	value=True
	)

	show_external_models_analysis = gr.Checkbox(
	label="Open Portuguese LLM Leaderboard models (proprietary)",
	value=True
	)

	# Parameter slider for Model Analysis tab
	with gr.Accordion("Filter by Model Size: (Click to expand)", open=False):
	with gr.Row():
	max_num_parameters_analysis = gr.Slider(
	minimum=0,
	maximum=max_params,
	value=0,
	step=1,
	label="Maximum Number of Parameters",
	info="This slider is applicable only to Open PT LLM Leaderboard models. For other models, it will have no effect."
	)

	# Search bar for filtering models in radar chart
	search_query_analysis = gr.Textbox(
	label="Search models by name (supports regex)",
	placeholder="Enter model name or regex pattern to filter...",
	value="",
	info="Supports regular expressions. Examples: 'bert.large', 'gemini\|gpt', 'mdeberta.', '^bert'"
	)

	model_analysis_chart = gr.Plot(label="Model Performance Radar Chart")

	# Add scatter plot below radar chart
	model_scatter_plot = gr.Plot(label="Model Performance vs Number of Parameters")

	gr.Markdown("""
	How to interact with the chart:
	- Click on legend items to show/hide specific models.
	- Double-click on a legend item to isolate that model (hide all others).
	- Double-click again to show all models.

	Models in the legend are sorted in descending order based on their average performance across your chosen datasets.
	""")



	# About Tab
	with gr.Tab("ℹ️ About"):
	gr.Markdown("""
	## About Napolab

	Natural Portuguese Language Benchmark (Napolab) is a comprehensive collection of Portuguese datasets designed for evaluating Large Language Models.

	- [GitHub repository](https://github.com/ruanchaves/napolab)
	- [Hugging Face Dataset](https://huggingface.co/datasets/ruanchaves/napolab)
	- Article: ["The Hidden Truth About LLM Performance: Why Your Benchmark Results Might Be Misleading"](https://ruanchaves.medium.com/the-hidden-truth-about-llm-performance-why-your-benchmark-results-might-be-misleading-afd24f40a46c)

	### Data Sources:
	The benchmark results and model evaluations presented in this leaderboard are compiled from multiple sources:

	1. "Lessons learned from the evaluation of Portuguese language models" by Ruan Chaves Rodrigues (2023). Available at: [University of Malta OAR@UM Repository](https://www.um.edu.mt/library/oar/handle/123456789/120557)

	2. Open PT LLM Leaderboard by Eduardo Garcia (2025). Available at: [Hugging Face Spaces](https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard).

	3. "TeenyTinyLlama: Open-source tiny language models trained in Brazilian Portuguese" by Corrêa et al. (2024). Available at: [arXiv](https://arxiv.org/abs/2401.16640).

	### Thesis Citation:
	```bibtex
	@mastersthesis{chaves2023lessons,
	title={Lessons learned from the evaluation of Portuguese language models},
	author={Chaves Rodrigues, Ruan},
	year={2023},
	school={University of Malta},
	url={https://www.um.edu.mt/library/oar/handle/123456789/120557}
	}
	```

	### Napolab Citation:
	```bibtex
	@software{Chaves_Rodrigues_napolab_2023,
	author = {Chaves Rodrigues, Ruan and Tanti, Marc and Agerri, Rodrigo},
	doi = {10.5281/zenodo.7781848},
	month = {3},
	title = {{Natural Portuguese Language Benchmark (Napolab)}},
	url = {https://github.com/ruanchaves/napolab},
	version = {1.0.0},
	year = {2023}
	}
	```

	""")

	def create_model_performance_scatter(selected_datasets: List[str] = None, show_napolab_thesis: bool = True, show_teenytinyllama: bool = True, show_portuguese_leaderboard: bool = True, show_external_models: bool = True, hide_incomplete_models: bool = False, min_average_performance: float = 0.0, search_query: str = "", max_num_parameters: int = 0) -> go.Figure:
	"""Create a scatter plot showing model performance vs number of parameters."""
	# Use selected datasets if provided, otherwise use all datasets
	if selected_datasets is None:
	selected_datasets = list(NAPOLAB_DATASETS.keys())

	# Collect data for each model
	model_data = {}

	# Process existing benchmark results
	for dataset_name, models in SAMPLE_BENCHMARK_RESULTS.items():
	if dataset_name in selected_datasets:
	for model_name, metrics in models.items():
	if model_name not in model_data:
	# Get actual source from MODEL_METADATA
	model_metadata = MODEL_METADATA.get(model_name, {})
	actual_source = model_metadata.get('source', 'unknown')

	model_data[model_name] = {
	'performances': {},
	'architecture': model_metadata.get('architecture', 'Unknown'),
	'source': actual_source,
	'num_parameters': 0
	}

	# Calculate average performance for this dataset
	avg_performance = np.mean(list(metrics.values()))
	model_data[model_name]['performances'][dataset_name] = avg_performance

	# Process Portuguese leaderboard data
	if show_portuguese_leaderboard and not PORTUGUESE_LEADERBOARD_DATA.empty:
	for _, row in PORTUGUESE_LEADERBOARD_DATA.iterrows():
	model_name = row['model_name']

	if model_name not in model_data:
	model_data[model_name] = {
	'performances': {},
	'architecture': 'Unknown',
	'source': 'portuguese_leaderboard',
	'num_parameters': row.get('model_num_parameters', 0)
	}

	# Map Portuguese leaderboard columns to dataset names
	column_mapping = {
	'ASSIN2 RTE': 'assin2_rte',
	'ASSIN2 STS': 'assin2_sts',
	'FaQUaD-NLI': 'faquad-nli',
	'HateBR': 'hatebr'
	}

	for display_name, dataset_name in column_mapping.items():
	if dataset_name in selected_datasets:
	score = row[display_name]
	if pd.notna(score) and score > 0:
	model_data[model_name]['performances'][dataset_name] = score

	# Process external models data
	if show_external_models and not EXTERNAL_MODELS_DATA.empty:
	for _, row in EXTERNAL_MODELS_DATA.iterrows():
	model_name = row['model_name']

	if model_name not in model_data:
	model_data[model_name] = {
	'performances': {},
	'architecture': 'Unknown',
	'source': 'external_models',
	'num_parameters': row.get('model_num_parameters', 0)
	}

	# Map external models columns to dataset names
	column_mapping = {
	'ASSIN2 RTE': 'assin2_rte',
	'ASSIN2 STS': 'assin2_sts',
	'FaQUaD-NLI': 'faquad-nli',
	'HateBR': 'hatebr'
	}

	for display_name, dataset_name in column_mapping.items():
	if dataset_name in selected_datasets:
	score = row[display_name]
	if pd.notna(score) and score > 0:
	model_data[model_name]['performances'][dataset_name] = score

	# Apply source filtering
	filtered_model_data = {}
	for model_name, data in model_data.items():
	source = data.get('source', 'existing')

	# Apply show filters - only show models from sources that are checked
	if source == 'napolab_thesis' and not show_napolab_thesis:
	continue
	if source == 'teenytinyllama_paper' and not show_teenytinyllama:
	continue
	if source == 'portuguese_leaderboard' and not show_portuguese_leaderboard:
	continue
	if source == 'external_models' and not show_external_models:
	continue
	# Hide models with unknown source (should not happen with proper data)
	if source == 'unknown':
	continue

	# Apply parameter filtering (only for Portuguese leaderboard models)
	if max_num_parameters > 0 and source == 'portuguese_leaderboard':
	num_parameters = data.get('num_parameters', 0)
	if num_parameters > max_num_parameters:
	continue

	filtered_model_data[model_name] = data

	# Apply incomplete model filtering
	if hide_incomplete_models and selected_datasets:
	final_filtered_data = {}
	for model_name, data in filtered_model_data.items():
	has_all_scores = True
	for dataset_name in selected_datasets:
	if data['performances'].get(dataset_name, 0) == 0:
	has_all_scores = False
	break
	if has_all_scores:
	final_filtered_data[model_name] = data
	filtered_model_data = final_filtered_data

	# Apply minimum average performance filtering
	if min_average_performance > 0 and selected_datasets:
	final_filtered_data = {}
	for model_name, data in filtered_model_data.items():
	# Calculate average performance for selected datasets
	scores = []
	for dataset_name in selected_datasets:
	score = data['performances'].get(dataset_name, 0)
	if score > 0: # Only include non-zero scores
	scores.append(score)

	if scores:
	avg_performance = np.mean(scores)
	if avg_performance >= min_average_performance:
	final_filtered_data[model_name] = data
	filtered_model_data = final_filtered_data

	# Apply search query filtering
	if search_query:
	final_filtered_data = {}
	try:
	# Use regex pattern matching
	import re
	pattern = re.compile(search_query, re.IGNORECASE)
	for model_name, data in filtered_model_data.items():
	if pattern.search(model_name):
	final_filtered_data[model_name] = data
	except re.error:
	# Fallback to simple string matching if regex is invalid
	for model_name, data in filtered_model_data.items():
	if search_query.lower() in model_name.lower():
	final_filtered_data[model_name] = data
	filtered_model_data = final_filtered_data

	# Prepare data for scatter plot
	scatter_data = []
	for model_name, data in filtered_model_data.items():
	# Calculate average performance for selected datasets
	scores = []
	for dataset_name in selected_datasets:
	score = data['performances'].get(dataset_name, 0)
	if score > 0: # Only include non-zero scores
	scores.append(score)

	if scores:
	avg_performance = np.mean(scores)
	num_parameters = data.get('num_parameters', 0)
	source = data.get('source', 'unknown')

	scatter_data.append({
	'model_name': model_name,
	'avg_performance': avg_performance,
	'num_parameters': num_parameters,
	'source': source
	})

	if not scatter_data:
	# Create empty figure if no data
	fig = go.Figure()
	fig.add_annotation(
	text="No data available for the selected filters",
	xref="paper", yref="paper",
	x=0.5, y=0.5, showarrow=False,
	font=dict(size=16)
	)
	fig.update_layout(
	title="Model Performance vs Number of Parameters",
	xaxis_title="Number of Parameters",
	yaxis_title="Average Performance Score",
	height=500
	)
	return fig

	# Create scatter plot
	df_scatter = pd.DataFrame(scatter_data)

	# Create color mapping for sources
	color_map = {
	'portuguese_leaderboard': '#1f77b4',
	'external_models': '#ff7f0e',
	'napolab_thesis': '#2ca02c',
	'teenytinyllama_paper': '#d62728',
	'unknown': '#9467bd'
	}

	# Create display name mapping for sources
	display_name_map = {
	'portuguese_leaderboard': 'Open PT LLM Leaderboard',
	'external_models': 'Proprietary Models',
	'napolab_thesis': 'Napolab Thesis',
	'teenytinyllama_paper': 'TeenyTinyLlama Paper',
	'unknown': 'Unknown Source'
	}

	fig = go.Figure()

	for source in df_scatter['source'].unique():
	source_data = df_scatter[df_scatter['source'] == source]
	color = color_map.get(source, '#7f7f7f')
	display_name = display_name_map.get(source, source.replace('_', ' ').title())

	fig.add_trace(go.Scatter(
	x=source_data['num_parameters'],
	y=source_data['avg_performance'],
	mode='markers',
	name=display_name,
	marker=dict(
	color=color,
	size=8,
	opacity=0.7
	),
	text=source_data['model_name'],
	hovertemplate=(
	"<b>%{text}</b><br>" +
	"Average Performance: %{y:.3f}<br>" +
	"Number of Parameters: %{x:,}<br>" +
	"Source: " + display_name + "<br>" +
	"<extra></extra>"
	)
	))

	fig.update_layout(
	title="Model Performance vs Number of Parameters",
	xaxis_title="Number of Parameters",
	yaxis_title="Average Performance Score",
	height=500,
	showlegend=True,
	plot_bgcolor='rgba(255, 255, 255, 0)',
	paper_bgcolor='rgba(255, 255, 255, 0)',
	legend=dict(
	yanchor="top",
	y=-0.15,
	xanchor="center",
	x=0.5,
	bgcolor='rgba(255, 255, 255, 0.95)',
	bordercolor='rgba(0, 0, 0, 0.2)',
	borderwidth=1,
	orientation="h"
	),
	margin=dict(l=50, r=50, t=100, b=100)
	)

	return fig

	# Event handlers
	def update_radar_chart(*args):
	# Extract arguments for radar chart
	dataset_values = args[:len(analysis_dataset_checkboxes)]
	hide_incomplete_models = args[len(analysis_dataset_checkboxes)]
	min_average_performance = args[len(analysis_dataset_checkboxes) + 1] / 100.0 # Convert percentage to decimal
	show_napolab_thesis = args[len(analysis_dataset_checkboxes) + 2]
	show_teenytinyllama = args[len(analysis_dataset_checkboxes) + 3]
	show_portuguese_leaderboard = args[len(analysis_dataset_checkboxes) + 4]
	show_external_models = args[len(analysis_dataset_checkboxes) + 5]
	search_query = args[len(analysis_dataset_checkboxes) + 6]
	max_num_parameters = args[len(analysis_dataset_checkboxes) + 7]

	# Convert dataset selections to list of selected dataset names
	selected_datasets = []
	for i, (dataset_name, _) in enumerate(analysis_dataset_checkboxes):
	if dataset_values[i]:
	selected_datasets.append(dataset_name)

	return create_model_performance_radar(selected_datasets, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, hide_incomplete_models, min_average_performance, search_query, max_num_parameters)

	def update_benchmark_table(*args):
	# Extract arguments
	dataset_values = args[:len(dataset_checkboxes)]
	hide_incomplete_models = args[len(dataset_checkboxes)]
	min_average_performance = args[len(dataset_checkboxes) + 1] / 100.0 # Convert percentage to decimal
	show_napolab_thesis = args[len(dataset_checkboxes) + 2]
	show_teenytinyllama = args[len(dataset_checkboxes) + 3]
	show_portuguese_leaderboard = args[len(dataset_checkboxes) + 4]
	show_external_models = args[len(dataset_checkboxes) + 5]
	search_query = args[len(dataset_checkboxes) + 6]
	max_num_parameters = args[len(dataset_checkboxes) + 7]

	# Convert dataset selections to list of selected dataset names
	selected_datasets = []
	for i, (dataset_name, _) in enumerate(dataset_checkboxes):
	if dataset_values[i]:
	selected_datasets.append(dataset_name)

	df = create_simplified_benchmark_table(selected_datasets, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, hide_incomplete_models, min_average_performance, search_query, max_num_parameters)

	return df

	def update_scatter_plot(*args):
	# Extract arguments for scatter plot
	dataset_values = args[:len(analysis_dataset_checkboxes)]
	hide_incomplete_models = args[len(analysis_dataset_checkboxes)]
	min_average_performance = args[len(analysis_dataset_checkboxes) + 1] / 100.0 # Convert percentage to decimal
	show_napolab_thesis = args[len(analysis_dataset_checkboxes) + 2]
	show_teenytinyllama = args[len(analysis_dataset_checkboxes) + 3]
	show_portuguese_leaderboard = args[len(analysis_dataset_checkboxes) + 4]
	show_external_models = args[len(analysis_dataset_checkboxes) + 5]
	search_query = args[len(analysis_dataset_checkboxes) + 6]
	max_num_parameters = args[len(analysis_dataset_checkboxes) + 7]

	# Convert dataset selections to list of selected dataset names
	selected_datasets = []
	for i, (dataset_name, _) in enumerate(analysis_dataset_checkboxes):
	if dataset_values[i]:
	selected_datasets.append(dataset_name)

	return create_model_performance_scatter(selected_datasets, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, hide_incomplete_models, min_average_performance, search_query, max_num_parameters)

	# Connect dataset checkboxes to update table
	for dataset_name, checkbox in dataset_checkboxes:
	checkbox.change(
	update_benchmark_table,
	inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
	outputs=benchmark_table
	)

	hide_incomplete_models.change(
	update_benchmark_table,
	inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
	outputs=benchmark_table
	)

	min_average_performance.change(
	update_benchmark_table,
	inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
	outputs=benchmark_table
	)

	show_napolab_thesis.change(
	update_benchmark_table,
	inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
	outputs=benchmark_table
	)

	show_teenytinyllama.change(
	update_benchmark_table,
	inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
	outputs=benchmark_table
	)

	show_portuguese_leaderboard.change(
	update_benchmark_table,
	inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
	outputs=benchmark_table
	)

	show_external_models.change(
	update_benchmark_table,
	inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
	outputs=benchmark_table
	)

	# Connect search query to update table
	search_query.change(
	update_benchmark_table,
	inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
	outputs=benchmark_table
	)

	# Connect max_num_parameters to update table
	max_num_parameters.change(
	update_benchmark_table,
	inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
	outputs=benchmark_table
	)

	# Connect export button
	export_button.click(
	export_csv,
	inputs=benchmark_table,
	outputs=csv_file
	)

	# Connect file download to cleanup
	csv_file.change(
	cleanup_current_csv,
	inputs=None,
	outputs=None
	)

	# Connect analysis chart events
	# Connect dataset checkboxes to update radar chart
	for dataset_name, checkbox in analysis_dataset_checkboxes:
	checkbox.change(
	update_radar_chart,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_analysis_chart
	)

	hide_incomplete_models_analysis.change(
	update_radar_chart,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_analysis_chart
	)

	min_average_performance_analysis.change(
	update_radar_chart,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_analysis_chart
	)

	show_napolab_thesis_analysis.change(
	update_radar_chart,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_analysis_chart
	)

	show_teenytinyllama_analysis.change(
	update_radar_chart,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_analysis_chart
	)

	show_portuguese_leaderboard_analysis.change(
	update_radar_chart,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_analysis_chart
	)

	show_external_models_analysis.change(
	update_radar_chart,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_analysis_chart
	)

	# Connect search query to update radar chart
	search_query_analysis.change(
	update_radar_chart,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_analysis_chart
	)

	# Connect max_num_parameters_analysis to update radar chart
	max_num_parameters_analysis.change(
	update_radar_chart,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_analysis_chart
	)

	# Connect all analysis controls to update scatter plot
	for dataset_name, checkbox in analysis_dataset_checkboxes:
	checkbox.change(
	update_scatter_plot,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_scatter_plot
	)

	hide_incomplete_models_analysis.change(
	update_scatter_plot,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_scatter_plot
	)

	min_average_performance_analysis.change(
	update_scatter_plot,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_scatter_plot
	)

	show_napolab_thesis_analysis.change(
	update_scatter_plot,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_scatter_plot
	)

	show_teenytinyllama_analysis.change(
	update_scatter_plot,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_scatter_plot
	)

	show_portuguese_leaderboard_analysis.change(
	update_scatter_plot,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_scatter_plot
	)

	show_external_models_analysis.change(
	update_scatter_plot,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_scatter_plot
	)

	search_query_analysis.change(
	update_scatter_plot,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_scatter_plot
	)

	max_num_parameters_analysis.change(
	update_scatter_plot,
	inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
	outputs=model_scatter_plot
	)

	# Connect events
	# Load model analysis chart on app start
	app.load(lambda: update_radar_chart(*([display_name in ['ASSIN 2 STS', 'FaQUaD-NLI', 'HateBR'] for _, display_name in [(name, NAPOLAB_DATASETS[name].get('name', name)) for name in sorted(NAPOLAB_DATASETS.keys())]] + [True, 80, True, True, True, True, "", 0])), outputs=model_analysis_chart)

	# Load scatter plot on app start
	app.load(lambda: update_scatter_plot(*([display_name in ['ASSIN 2 STS', 'FaQUaD-NLI', 'HateBR'] for _, display_name in [(name, NAPOLAB_DATASETS[name].get('name', name)) for name in sorted(NAPOLAB_DATASETS.keys())]] + [True, 80, True, True, True, True, "", 0])), outputs=model_scatter_plot)

	# Load benchmark table on app start
	app.load(lambda: update_benchmark_table(*([display_name in ['ASSIN 2 STS', 'FaQUaD-NLI', 'HateBR'] for _, display_name in [(name, NAPOLAB_DATASETS[name].get('name', name)) for name in sorted(NAPOLAB_DATASETS.keys())]] + [True, 80, True, True, True, True, "", 0])), outputs=benchmark_table)

	if __name__ == "__main__":
	app.launch(server_name="0.0.0.0", server_port=7860)