Spaces:

ruanchaves
/

napolab

Sleeping

App Files Files Community

ruanchaves commited on Jul 27

Commit

2c482cc

verified ·

1 Parent(s): 225b6ff

Upload 14 files

Browse files

Files changed (4) hide show

app.py +458 -41
external_models.csv +31 -31
extract_portuguese_leaderboard.py +2 -0
portuguese_leaderboard.csv +0 -0

app.py CHANGED Viewed

@@ -24,14 +24,14 @@ def load_portuguese_leaderboard_data() -> pd.DataFrame:
         if os.path.exists(csv_path):
             df = pd.read_csv(csv_path)
             # Select only the relevant columns
-            relevant_columns = ['model_name', 'assin2_rte', 'assin2_sts', 'faquad_nli', 'hatebr_offensive']
             df = df[relevant_columns].copy()
             # Rename columns to match the existing format
             df = df.rename(columns={
                 'assin2_rte': 'ASSIN2 RTE',
                 'assin2_sts': 'ASSIN2 STS',
-                'faquad_nli': 'FaQuAD-NLI',
                 'hatebr_offensive': 'HateBR'
             })
@@ -62,13 +62,16 @@ def load_external_models_data() -> pd.DataFrame:
                 'model': 'model_name',
                 'assin2_rte': 'ASSIN2 RTE',
                 'assin2_sts': 'ASSIN2 STS',
-                'faquad_nli': 'FaQuAD-NLI',
                 'hatebr_offensive': 'HateBR'
             })
             # Add source information
             df['source'] = 'external_models'
             print(f"Loaded {len(df)} external models")
             return df
         else:
@@ -84,7 +87,7 @@ PORTUGUESE_LEADERBOARD_DATA = load_portuguese_leaderboard_data()
 # Load external models data
 EXTERNAL_MODELS_DATA = load_external_models_data()
-def create_simplified_benchmark_table(selected_datasets: List[str] = None, show_napolab_thesis: bool = True, show_teenytinyllama: bool = True, show_portuguese_leaderboard: bool = True, show_external_models: bool = True, hide_incomplete_models: bool = False, min_average_performance: float = 0.0, search_query: str = "") -> pd.DataFrame:
     """Create a simplified benchmark table with one column per dataset."""
     # Get all dataset names
     dataset_names = sorted(NAPOLAB_DATASETS.keys())
@@ -120,14 +123,15 @@ def create_simplified_benchmark_table(selected_datasets: List[str] = None, show_
                 model_data[model_name] = {
                     'dataset_scores': {},
                     'url': None,
-                    'source': 'portuguese_leaderboard'
                 }
             # Map Portuguese leaderboard columns to dataset names
             column_mapping = {
                 'ASSIN2 RTE': 'assin2_rte',
                 'ASSIN2 STS': 'assin2_sts',
-                'FaQuAD-NLI': 'faquad-nli',
                 'HateBR': 'hatebr'
             }
@@ -146,14 +150,15 @@ def create_simplified_benchmark_table(selected_datasets: List[str] = None, show_
                 model_data[model_name] = {
                     'dataset_scores': {},
                     'url': row.get('link', ''),
-                    'source': 'external_models'
                 }
             # Map external models columns to dataset names
             column_mapping = {
                 'ASSIN2 RTE': 'assin2_rte',
                 'ASSIN2 STS': 'assin2_sts',
-                'FaQuAD-NLI': 'faquad-nli',
                 'HateBR': 'hatebr'
             }
@@ -177,6 +182,9 @@ def create_simplified_benchmark_table(selected_datasets: List[str] = None, show_
             model_metadata = MODEL_METADATA.get(model_name, {})
             source = model_metadata.get('source', 'unknown')
             model_data[model_name]['source'] = source
     # Create table data
     table_data = []
@@ -198,6 +206,12 @@ def create_simplified_benchmark_table(selected_datasets: List[str] = None, show_
         if source == 'unknown':
             continue
         # Create clickable link for model name
         if data['url']:
             model_display = f"[{model_name}]({data['url']})"
@@ -394,7 +408,7 @@ def cleanup_current_csv():
             print(f"Error deleting file {current_csv_file}: {e}")
-def create_model_performance_radar(selected_datasets: List[str] = None, show_napolab_thesis: bool = True, show_teenytinyllama: bool = True, show_portuguese_leaderboard: bool = True, show_external_models: bool = True, hide_incomplete_models: bool = False, min_average_performance: float = 0.0, search_query: str = "") -> go.Figure:
     """Create a radar chart showing model performance across all datasets."""
     # Use selected datasets if provided, otherwise use all datasets
     if selected_datasets is None:
@@ -431,14 +445,15 @@ def create_model_performance_radar(selected_datasets: List[str] = None, show_nap
                 model_data[model_name] = {
                     'performances': {},
                     'architecture': 'Unknown',
-                    'source': 'portuguese_leaderboard'
                 }
             # Map Portuguese leaderboard columns to dataset names
             column_mapping = {
                 'ASSIN2 RTE': 'assin2_rte',
                 'ASSIN2 STS': 'assin2_sts',
-                'FaQuAD-NLI': 'faquad-nli',
                 'HateBR': 'hatebr'
             }
@@ -457,14 +472,15 @@ def create_model_performance_radar(selected_datasets: List[str] = None, show_nap
                 model_data[model_name] = {
                     'performances': {},
                     'architecture': 'Unknown',
-                    'source': 'external_models'
                 }
             # Map external models columns to dataset names
             column_mapping = {
                 'ASSIN2 RTE': 'assin2_rte',
                 'ASSIN2 STS': 'assin2_sts',
-                'FaQuAD-NLI': 'faquad-nli',
                 'HateBR': 'hatebr'
             }
@@ -488,6 +504,9 @@ def create_model_performance_radar(selected_datasets: List[str] = None, show_nap
             model_metadata = MODEL_METADATA.get(model_name, {})
             source = model_metadata.get('source', 'unknown')
             model_data[model_name]['source'] = source
     # Apply source filtering
     filtered_model_data = {}
@@ -507,6 +526,12 @@ def create_model_performance_radar(selected_datasets: List[str] = None, show_nap
         if source == 'unknown':
             continue
         filtered_model_data[model_name] = data
     # Apply incomplete model filtering
@@ -731,8 +756,8 @@ with gr.Blocks(title="Napolab Leaderboard", theme=gr.themes.Soft()) as app:
                     dataset_checkboxes = []
                     for dataset_name in sorted(NAPOLAB_DATASETS.keys()):
                         display_name = NAPOLAB_DATASETS[dataset_name].get('name', dataset_name)
-                        # Default to selected only for ASSIN 2 STS, FaQuAD-NLI, and HateBR
-                        default_value = dataset_name in ['assin2_sts', 'faquad-nli', 'hatebr']
                         checkbox = gr.Checkbox(
                             label=display_name,
                             value=default_value
@@ -774,6 +799,22 @@ with gr.Blocks(title="Napolab Leaderboard", theme=gr.themes.Soft()) as app:
                         value=True
                     )
             # Search bar for filtering models
             search_query = gr.Textbox(
                 label="Search models by name (supports regex)",
@@ -807,8 +848,8 @@ with gr.Blocks(title="Napolab Leaderboard", theme=gr.themes.Soft()) as app:
                     analysis_dataset_checkboxes = []
                     for dataset_name in sorted(NAPOLAB_DATASETS.keys()):
                         display_name = NAPOLAB_DATASETS[dataset_name].get('name', dataset_name)
-                        # Default to selected only for ASSIN 2 STS, FaQuAD-NLI, and HateBR
-                        default_value = dataset_name in ['assin2_sts', 'faquad-nli', 'hatebr']
                         checkbox = gr.Checkbox(
                             label=display_name,
                             value=default_value
@@ -853,6 +894,18 @@ with gr.Blocks(title="Napolab Leaderboard", theme=gr.themes.Soft()) as app:
                         value=True
                     )
             # Search bar for filtering models in radar chart
             search_query_analysis = gr.Textbox(
                 label="Search models by name (supports regex)",
@@ -863,6 +916,9 @@ with gr.Blocks(title="Napolab Leaderboard", theme=gr.themes.Soft()) as app:
             model_analysis_chart = gr.Plot(label="Model Performance Radar Chart")
             gr.Markdown("""
             **How to interact with the chart:**
             - **Click on legend items** to show/hide specific models.
@@ -918,6 +974,272 @@ with gr.Blocks(title="Napolab Leaderboard", theme=gr.themes.Soft()) as app:
             """)
     # Event handlers
     def update_radar_chart(*args):
         # Extract arguments for radar chart
@@ -929,6 +1251,7 @@ with gr.Blocks(title="Napolab Leaderboard", theme=gr.themes.Soft()) as app:
         show_portuguese_leaderboard = args[len(analysis_dataset_checkboxes) + 4]
         show_external_models = args[len(analysis_dataset_checkboxes) + 5]
         search_query = args[len(analysis_dataset_checkboxes) + 6]
         # Convert dataset selections to list of selected dataset names
         selected_datasets = []
@@ -936,7 +1259,7 @@ with gr.Blocks(title="Napolab Leaderboard", theme=gr.themes.Soft()) as app:
             if dataset_values[i]:
                 selected_datasets.append(dataset_name)
-        return create_model_performance_radar(selected_datasets, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, hide_incomplete_models, min_average_performance, search_query)
     def update_benchmark_table(*args):
         # Extract arguments
@@ -948,6 +1271,7 @@ with gr.Blocks(title="Napolab Leaderboard", theme=gr.themes.Soft()) as app:
         show_portuguese_leaderboard = args[len(dataset_checkboxes) + 4]
         show_external_models = args[len(dataset_checkboxes) + 5]
         search_query = args[len(dataset_checkboxes) + 6]
         # Convert dataset selections to list of selected dataset names
         selected_datasets = []
@@ -955,65 +1279,85 @@ with gr.Blocks(title="Napolab Leaderboard", theme=gr.themes.Soft()) as app:
             if dataset_values[i]:
                 selected_datasets.append(dataset_name)
-        df = create_simplified_benchmark_table(selected_datasets, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, hide_incomplete_models, min_average_performance, search_query)
         return df
-    # Connect events
-    # Load model analysis chart on app start
-    app.load(lambda: update_radar_chart(*([name in ['assin2_sts', 'faquad-nli', 'hatebr'] for name in sorted(NAPOLAB_DATASETS.keys())] + [True, 80, True, True, True, True, ""])), outputs=model_analysis_chart)
-    # Load benchmark table on app start
-    app.load(lambda: update_benchmark_table(*([name in ['assin2_sts', 'faquad-nli', 'hatebr'] for name in sorted(NAPOLAB_DATASETS.keys())] + [True, 80, True, True, True, True, ""])), outputs=benchmark_table)
     # Connect dataset checkboxes to update table
     for dataset_name, checkbox in dataset_checkboxes:
         checkbox.change(
             update_benchmark_table,
-            inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query],
             outputs=benchmark_table
         )
     hide_incomplete_models.change(
         update_benchmark_table,
-        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query],
         outputs=benchmark_table
     )
     min_average_performance.change(
         update_benchmark_table,
-        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query],
         outputs=benchmark_table
     )
     show_napolab_thesis.change(
         update_benchmark_table,
-        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query],
         outputs=benchmark_table
     )
     show_teenytinyllama.change(
         update_benchmark_table,
-        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query],
         outputs=benchmark_table
     )
     show_portuguese_leaderboard.change(
         update_benchmark_table,
-        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query],
         outputs=benchmark_table
     )
     show_external_models.change(
         update_benchmark_table,
-        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query],
         outputs=benchmark_table
     )
     # Connect search query to update table
     search_query.change(
         update_benchmark_table,
-        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query],
         outputs=benchmark_table
     )
@@ -1036,52 +1380,125 @@ with gr.Blocks(title="Napolab Leaderboard", theme=gr.themes.Soft()) as app:
     for dataset_name, checkbox in analysis_dataset_checkboxes:
         checkbox.change(
             update_radar_chart,
-            inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis],
             outputs=model_analysis_chart
         )
     hide_incomplete_models_analysis.change(
         update_radar_chart,
-        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis],
         outputs=model_analysis_chart
     )
     min_average_performance_analysis.change(
         update_radar_chart,
-        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis],
         outputs=model_analysis_chart
     )
     show_napolab_thesis_analysis.change(
         update_radar_chart,
-        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis],
         outputs=model_analysis_chart
     )
     show_teenytinyllama_analysis.change(
         update_radar_chart,
-        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis],
         outputs=model_analysis_chart
     )
     show_portuguese_leaderboard_analysis.change(
         update_radar_chart,
-        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis],
         outputs=model_analysis_chart
     )
     show_external_models_analysis.change(
         update_radar_chart,
-        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis],
         outputs=model_analysis_chart
     )
     # Connect search query to update radar chart
     search_query_analysis.change(
         update_radar_chart,
-        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis],
         outputs=model_analysis_chart
     )
 if __name__ == "__main__":
     app.launch(server_name="0.0.0.0", server_port=7860)

         if os.path.exists(csv_path):
             df = pd.read_csv(csv_path)
             # Select only the relevant columns
+            relevant_columns = ['model_name', 'model_num_parameters', 'assin2_rte', 'assin2_sts', 'faquad_nli', 'hatebr_offensive']
             df = df[relevant_columns].copy()
             # Rename columns to match the existing format
             df = df.rename(columns={
                 'assin2_rte': 'ASSIN2 RTE',
                 'assin2_sts': 'ASSIN2 STS',
+                'faquad_nli': 'FaQUaD-NLI',
                 'hatebr_offensive': 'HateBR'
             })
                 'model': 'model_name',
                 'assin2_rte': 'ASSIN2 RTE',
                 'assin2_sts': 'ASSIN2 STS',
+                'faquad_nli': 'FaQUaD-NLI',
                 'hatebr_offensive': 'HateBR'
             })
             # Add source information
             df['source'] = 'external_models'
+            # Add model_num_parameters column with 0 for external models
+            df['model_num_parameters'] = 0
             print(f"Loaded {len(df)} external models")
             return df
         else:
 # Load external models data
 EXTERNAL_MODELS_DATA = load_external_models_data()
+def create_simplified_benchmark_table(selected_datasets: List[str] = None, show_napolab_thesis: bool = True, show_teenytinyllama: bool = True, show_portuguese_leaderboard: bool = True, show_external_models: bool = True, hide_incomplete_models: bool = False, min_average_performance: float = 0.0, search_query: str = "", max_num_parameters: int = 0) -> pd.DataFrame:
     """Create a simplified benchmark table with one column per dataset."""
     # Get all dataset names
     dataset_names = sorted(NAPOLAB_DATASETS.keys())
                 model_data[model_name] = {
                     'dataset_scores': {},
                     'url': None,
+                    'source': 'portuguese_leaderboard',
+                    'num_parameters': row.get('model_num_parameters', 0)
                 }
             # Map Portuguese leaderboard columns to dataset names
             column_mapping = {
                 'ASSIN2 RTE': 'assin2_rte',
                 'ASSIN2 STS': 'assin2_sts',
+                'FaQUaD-NLI': 'faquad-nli',
                 'HateBR': 'hatebr'
             }
                 model_data[model_name] = {
                     'dataset_scores': {},
                     'url': row.get('link', ''),
+                    'source': 'external_models',
+                    'num_parameters': row.get('model_num_parameters', 0)
                 }
             # Map external models columns to dataset names
             column_mapping = {
                 'ASSIN2 RTE': 'assin2_rte',
                 'ASSIN2 STS': 'assin2_sts',
+                'FaQUaD-NLI': 'faquad-nli',
                 'HateBR': 'hatebr'
             }
             model_metadata = MODEL_METADATA.get(model_name, {})
             source = model_metadata.get('source', 'unknown')
             model_data[model_name]['source'] = source
+            # Add num_parameters for existing models (set to 0 as they don't have this info)
+            model_data[model_name]['num_parameters'] = 0
     # Create table data
     table_data = []
         if source == 'unknown':
             continue
+        # Apply parameter filtering (only for Portuguese leaderboard models)
+        if max_num_parameters > 0 and source == 'portuguese_leaderboard':
+            num_parameters = data.get('num_parameters', 0)
+            if num_parameters > max_num_parameters:
+                continue
         # Create clickable link for model name
         if data['url']:
             model_display = f"[{model_name}]({data['url']})"
             print(f"Error deleting file {current_csv_file}: {e}")
+def create_model_performance_radar(selected_datasets: List[str] = None, show_napolab_thesis: bool = True, show_teenytinyllama: bool = True, show_portuguese_leaderboard: bool = True, show_external_models: bool = True, hide_incomplete_models: bool = False, min_average_performance: float = 0.0, search_query: str = "", max_num_parameters: int = 0) -> go.Figure:
     """Create a radar chart showing model performance across all datasets."""
     # Use selected datasets if provided, otherwise use all datasets
     if selected_datasets is None:
                 model_data[model_name] = {
                     'performances': {},
                     'architecture': 'Unknown',
+                    'source': 'portuguese_leaderboard',
+                    'num_parameters': row.get('model_num_parameters', 0)
                 }
             # Map Portuguese leaderboard columns to dataset names
             column_mapping = {
                 'ASSIN2 RTE': 'assin2_rte',
                 'ASSIN2 STS': 'assin2_sts',
+                'FaQUaD-NLI': 'faquad-nli',
                 'HateBR': 'hatebr'
             }
                 model_data[model_name] = {
                     'performances': {},
                     'architecture': 'Unknown',
+                    'source': 'external_models',
+                    'num_parameters': row.get('model_num_parameters', 0)
                 }
             # Map external models columns to dataset names
             column_mapping = {
                 'ASSIN2 RTE': 'assin2_rte',
                 'ASSIN2 STS': 'assin2_sts',
+                'FaQUaD-NLI': 'faquad-nli',
                 'HateBR': 'hatebr'
             }
             model_metadata = MODEL_METADATA.get(model_name, {})
             source = model_metadata.get('source', 'unknown')
             model_data[model_name]['source'] = source
+            # Add num_parameters for existing models (set to 0 as they don't have this info)
+            model_data[model_name]['num_parameters'] = 0
     # Apply source filtering
     filtered_model_data = {}
         if source == 'unknown':
             continue
+        # Apply parameter filtering (only for Portuguese leaderboard models)
+        if max_num_parameters > 0 and source == 'portuguese_leaderboard':
+            num_parameters = data.get('num_parameters', 0)
+            if num_parameters > max_num_parameters:
+                continue
         filtered_model_data[model_name] = data
     # Apply incomplete model filtering
                     dataset_checkboxes = []
                     for dataset_name in sorted(NAPOLAB_DATASETS.keys()):
                         display_name = NAPOLAB_DATASETS[dataset_name].get('name', dataset_name)
+                        # Default to selected only for ASSIN 2 STS, FaQUaD-NLI, and HateBR
+                        default_value = display_name in ['ASSIN 2 STS', 'FaQUaD-NLI', 'HateBR']
                         checkbox = gr.Checkbox(
                             label=display_name,
                             value=default_value
                         value=True
                     )
+            # Calculate max parameters for slider
+            max_params = 0
+            if not PORTUGUESE_LEADERBOARD_DATA.empty:
+                max_params = int(PORTUGUESE_LEADERBOARD_DATA['model_num_parameters'].max())
+            with gr.Accordion("Filter by Model Size: (Click to expand)", open=False):
+                with gr.Row():
+                    max_num_parameters = gr.Slider(
+                        minimum=0,
+                        maximum=max_params,
+                        value=0,
+                        step=1,
+                        label="Maximum Number of Parameters",
+                        info="This slider is applicable only to Open PT LLM Leaderboard models. For other models, it will have no effect."
+                    )
             # Search bar for filtering models
             search_query = gr.Textbox(
                 label="Search models by name (supports regex)",
                     analysis_dataset_checkboxes = []
                     for dataset_name in sorted(NAPOLAB_DATASETS.keys()):
                         display_name = NAPOLAB_DATASETS[dataset_name].get('name', dataset_name)
+                        # Default to selected only for ASSIN 2 STS, FaQUaD-NLI, and HateBR
+                        default_value = display_name in ['ASSIN 2 STS', 'FaQUaD-NLI', 'HateBR']
                         checkbox = gr.Checkbox(
                             label=display_name,
                             value=default_value
                         value=True
                     )
+            # Parameter slider for Model Analysis tab
+            with gr.Accordion("Filter by Model Size: (Click to expand)", open=False):
+                with gr.Row():
+                    max_num_parameters_analysis = gr.Slider(
+                        minimum=0,
+                        maximum=max_params,
+                        value=0,
+                        step=1,
+                        label="Maximum Number of Parameters",
+                        info="This slider is applicable only to Open PT LLM Leaderboard models. For other models, it will have no effect."
+                    )
             # Search bar for filtering models in radar chart
             search_query_analysis = gr.Textbox(
                 label="Search models by name (supports regex)",
             model_analysis_chart = gr.Plot(label="Model Performance Radar Chart")
+            # Add scatter plot below radar chart
+            model_scatter_plot = gr.Plot(label="Model Performance vs Number of Parameters")
             gr.Markdown("""
             **How to interact with the chart:**
             - **Click on legend items** to show/hide specific models.
             """)
+    def create_model_performance_scatter(selected_datasets: List[str] = None, show_napolab_thesis: bool = True, show_teenytinyllama: bool = True, show_portuguese_leaderboard: bool = True, show_external_models: bool = True, hide_incomplete_models: bool = False, min_average_performance: float = 0.0, search_query: str = "", max_num_parameters: int = 0) -> go.Figure:
+        """Create a scatter plot showing model performance vs number of parameters."""
+        # Use selected datasets if provided, otherwise use all datasets
+        if selected_datasets is None:
+            selected_datasets = list(NAPOLAB_DATASETS.keys())
+        # Collect data for each model
+        model_data = {}
+        # Process existing benchmark results
+        for dataset_name, models in SAMPLE_BENCHMARK_RESULTS.items():
+            if dataset_name in selected_datasets:
+                for model_name, metrics in models.items():
+                    if model_name not in model_data:
+                        # Get actual source from MODEL_METADATA
+                        model_metadata = MODEL_METADATA.get(model_name, {})
+                        actual_source = model_metadata.get('source', 'unknown')
+                        model_data[model_name] = {
+                            'performances': {},
+                            'architecture': model_metadata.get('architecture', 'Unknown'),
+                            'source': actual_source,
+                            'num_parameters': 0
+                        }
+                    # Calculate average performance for this dataset
+                    avg_performance = np.mean(list(metrics.values()))
+                    model_data[model_name]['performances'][dataset_name] = avg_performance
+        # Process Portuguese leaderboard data
+        if show_portuguese_leaderboard and not PORTUGUESE_LEADERBOARD_DATA.empty:
+            for _, row in PORTUGUESE_LEADERBOARD_DATA.iterrows():
+                model_name = row['model_name']
+                if model_name not in model_data:
+                    model_data[model_name] = {
+                        'performances': {},
+                        'architecture': 'Unknown',
+                        'source': 'portuguese_leaderboard',
+                        'num_parameters': row.get('model_num_parameters', 0)
+                    }
+                # Map Portuguese leaderboard columns to dataset names
+                column_mapping = {
+                    'ASSIN2 RTE': 'assin2_rte',
+                    'ASSIN2 STS': 'assin2_sts',
+                    'FaQUaD-NLI': 'faquad-nli',
+                    'HateBR': 'hatebr'
+                }
+                for display_name, dataset_name in column_mapping.items():
+                    if dataset_name in selected_datasets:
+                        score = row[display_name]
+                        if pd.notna(score) and score > 0:
+                            model_data[model_name]['performances'][dataset_name] = score
+        # Process external models data
+        if show_external_models and not EXTERNAL_MODELS_DATA.empty:
+            for _, row in EXTERNAL_MODELS_DATA.iterrows():
+                model_name = row['model_name']
+                if model_name not in model_data:
+                    model_data[model_name] = {
+                        'performances': {},
+                        'architecture': 'Unknown',
+                        'source': 'external_models',
+                        'num_parameters': row.get('model_num_parameters', 0)
+                    }
+                # Map external models columns to dataset names
+                column_mapping = {
+                    'ASSIN2 RTE': 'assin2_rte',
+                    'ASSIN2 STS': 'assin2_sts',
+                    'FaQUaD-NLI': 'faquad-nli',
+                    'HateBR': 'hatebr'
+                }
+                for display_name, dataset_name in column_mapping.items():
+                    if dataset_name in selected_datasets:
+                        score = row[display_name]
+                        if pd.notna(score) and score > 0:
+                            model_data[model_name]['performances'][dataset_name] = score
+        # Apply source filtering
+        filtered_model_data = {}
+        for model_name, data in model_data.items():
+            source = data.get('source', 'existing')
+            # Apply show filters - only show models from sources that are checked
+            if source == 'napolab_thesis' and not show_napolab_thesis:
+                continue
+            if source == 'teenytinyllama_paper' and not show_teenytinyllama:
+                continue
+            if source == 'portuguese_leaderboard' and not show_portuguese_leaderboard:
+                continue
+            if source == 'external_models' and not show_external_models:
+                continue
+            # Hide models with unknown source (should not happen with proper data)
+            if source == 'unknown':
+                continue
+            # Apply parameter filtering (only for Portuguese leaderboard models)
+            if max_num_parameters > 0 and source == 'portuguese_leaderboard':
+                num_parameters = data.get('num_parameters', 0)
+                if num_parameters > max_num_parameters:
+                    continue
+            filtered_model_data[model_name] = data
+        # Apply incomplete model filtering
+        if hide_incomplete_models and selected_datasets:
+            final_filtered_data = {}
+            for model_name, data in filtered_model_data.items():
+                has_all_scores = True
+                for dataset_name in selected_datasets:
+                    if data['performances'].get(dataset_name, 0) == 0:
+                        has_all_scores = False
+                        break
+                if has_all_scores:
+                    final_filtered_data[model_name] = data
+            filtered_model_data = final_filtered_data
+        # Apply minimum average performance filtering
+        if min_average_performance > 0 and selected_datasets:
+            final_filtered_data = {}
+            for model_name, data in filtered_model_data.items():
+                # Calculate average performance for selected datasets
+                scores = []
+                for dataset_name in selected_datasets:
+                    score = data['performances'].get(dataset_name, 0)
+                    if score > 0:  # Only include non-zero scores
+                        scores.append(score)
+                if scores:
+                    avg_performance = np.mean(scores)
+                    if avg_performance >= min_average_performance:
+                        final_filtered_data[model_name] = data
+            filtered_model_data = final_filtered_data
+        # Apply search query filtering
+        if search_query:
+            final_filtered_data = {}
+            try:
+                # Use regex pattern matching
+                import re
+                pattern = re.compile(search_query, re.IGNORECASE)
+                for model_name, data in filtered_model_data.items():
+                    if pattern.search(model_name):
+                        final_filtered_data[model_name] = data
+            except re.error:
+                # Fallback to simple string matching if regex is invalid
+                for model_name, data in filtered_model_data.items():
+                    if search_query.lower() in model_name.lower():
+                        final_filtered_data[model_name] = data
+            filtered_model_data = final_filtered_data
+        # Prepare data for scatter plot
+        scatter_data = []
+        for model_name, data in filtered_model_data.items():
+            # Calculate average performance for selected datasets
+            scores = []
+            for dataset_name in selected_datasets:
+                score = data['performances'].get(dataset_name, 0)
+                if score > 0:  # Only include non-zero scores
+                    scores.append(score)
+            if scores:
+                avg_performance = np.mean(scores)
+                num_parameters = data.get('num_parameters', 0)
+                source = data.get('source', 'unknown')
+                scatter_data.append({
+                    'model_name': model_name,
+                    'avg_performance': avg_performance,
+                    'num_parameters': num_parameters,
+                    'source': source
+                })
+        if not scatter_data:
+            # Create empty figure if no data
+            fig = go.Figure()
+            fig.add_annotation(
+                text="No data available for the selected filters",
+                xref="paper", yref="paper",
+                x=0.5, y=0.5, showarrow=False,
+                font=dict(size=16)
+            )
+            fig.update_layout(
+                title="Model Performance vs Number of Parameters",
+                xaxis_title="Number of Parameters",
+                yaxis_title="Average Performance Score",
+                height=500
+            )
+            return fig
+        # Create scatter plot
+        df_scatter = pd.DataFrame(scatter_data)
+        # Create color mapping for sources
+        color_map = {
+            'portuguese_leaderboard': '#1f77b4',
+            'external_models': '#ff7f0e',
+            'napolab_thesis': '#2ca02c',
+            'teenytinyllama_paper': '#d62728',
+            'unknown': '#9467bd'
+        }
+        # Create display name mapping for sources
+        display_name_map = {
+            'portuguese_leaderboard': 'Open PT LLM Leaderboard',
+            'external_models': 'Proprietary Models',
+            'napolab_thesis': 'Napolab Thesis',
+            'teenytinyllama_paper': 'TeenyTinyLlama Paper',
+            'unknown': 'Unknown Source'
+        }
+        fig = go.Figure()
+        for source in df_scatter['source'].unique():
+            source_data = df_scatter[df_scatter['source'] == source]
+            color = color_map.get(source, '#7f7f7f')
+            display_name = display_name_map.get(source, source.replace('_', ' ').title())
+            fig.add_trace(go.Scatter(
+                x=source_data['num_parameters'],
+                y=source_data['avg_performance'],
+                mode='markers',
+                name=display_name,
+                marker=dict(
+                    color=color,
+                    size=8,
+                    opacity=0.7
+                ),
+                text=source_data['model_name'],
+                hovertemplate=(
+                    "<b>%{text}</b><br>" +
+                    "Average Performance: %{y:.3f}<br>" +
+                    "Number of Parameters: %{x:,}<br>" +
+                    "Source: " + display_name + "<br>" +
+                    "<extra></extra>"
+                )
+            ))
+        fig.update_layout(
+            title="Model Performance vs Number of Parameters",
+            xaxis_title="Number of Parameters",
+            yaxis_title="Average Performance Score",
+            height=500,
+            showlegend=True,
+            plot_bgcolor='rgba(255, 255, 255, 0)',
+            paper_bgcolor='rgba(255, 255, 255, 0)',
+            legend=dict(
+                yanchor="top",
+                y=-0.15,
+                xanchor="center",
+                x=0.5,
+                bgcolor='rgba(255, 255, 255, 0.95)',
+                bordercolor='rgba(0, 0, 0, 0.2)',
+                borderwidth=1,
+                orientation="h"
+            ),
+            margin=dict(l=50, r=50, t=100, b=100)
+        )
+        return fig
     # Event handlers
     def update_radar_chart(*args):
         # Extract arguments for radar chart
         show_portuguese_leaderboard = args[len(analysis_dataset_checkboxes) + 4]
         show_external_models = args[len(analysis_dataset_checkboxes) + 5]
         search_query = args[len(analysis_dataset_checkboxes) + 6]
+        max_num_parameters = args[len(analysis_dataset_checkboxes) + 7]
         # Convert dataset selections to list of selected dataset names
         selected_datasets = []
             if dataset_values[i]:
                 selected_datasets.append(dataset_name)
+        return create_model_performance_radar(selected_datasets, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, hide_incomplete_models, min_average_performance, search_query, max_num_parameters)
     def update_benchmark_table(*args):
         # Extract arguments
         show_portuguese_leaderboard = args[len(dataset_checkboxes) + 4]
         show_external_models = args[len(dataset_checkboxes) + 5]
         search_query = args[len(dataset_checkboxes) + 6]
+        max_num_parameters = args[len(dataset_checkboxes) + 7]
         # Convert dataset selections to list of selected dataset names
         selected_datasets = []
             if dataset_values[i]:
                 selected_datasets.append(dataset_name)
+        df = create_simplified_benchmark_table(selected_datasets, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, hide_incomplete_models, min_average_performance, search_query, max_num_parameters)
         return df
+    def update_scatter_plot(*args):
+        # Extract arguments for scatter plot
+        dataset_values = args[:len(analysis_dataset_checkboxes)]
+        hide_incomplete_models = args[len(analysis_dataset_checkboxes)]
+        min_average_performance = args[len(analysis_dataset_checkboxes) + 1] / 100.0  # Convert percentage to decimal
+        show_napolab_thesis = args[len(analysis_dataset_checkboxes) + 2]
+        show_teenytinyllama = args[len(analysis_dataset_checkboxes) + 3]
+        show_portuguese_leaderboard = args[len(analysis_dataset_checkboxes) + 4]
+        show_external_models = args[len(analysis_dataset_checkboxes) + 5]
+        search_query = args[len(analysis_dataset_checkboxes) + 6]
+        max_num_parameters = args[len(analysis_dataset_checkboxes) + 7]
+        # Convert dataset selections to list of selected dataset names
+        selected_datasets = []
+        for i, (dataset_name, _) in enumerate(analysis_dataset_checkboxes):
+            if dataset_values[i]:
+                selected_datasets.append(dataset_name)
+        return create_model_performance_scatter(selected_datasets, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, hide_incomplete_models, min_average_performance, search_query, max_num_parameters)
     # Connect dataset checkboxes to update table
     for dataset_name, checkbox in dataset_checkboxes:
         checkbox.change(
             update_benchmark_table,
+            inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
             outputs=benchmark_table
         )
     hide_incomplete_models.change(
         update_benchmark_table,
+        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
         outputs=benchmark_table
     )
     min_average_performance.change(
         update_benchmark_table,
+        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
         outputs=benchmark_table
     )
     show_napolab_thesis.change(
         update_benchmark_table,
+        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
         outputs=benchmark_table
     )
     show_teenytinyllama.change(
         update_benchmark_table,
+        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
         outputs=benchmark_table
     )
     show_portuguese_leaderboard.change(
         update_benchmark_table,
+        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
         outputs=benchmark_table
     )
     show_external_models.change(
         update_benchmark_table,
+        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
         outputs=benchmark_table
     )
     # Connect search query to update table
     search_query.change(
         update_benchmark_table,
+        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
+        outputs=benchmark_table
+    )
+    # Connect max_num_parameters to update table
+    max_num_parameters.change(
+        update_benchmark_table,
+        inputs=[cb for _, cb in dataset_checkboxes] + [hide_incomplete_models, min_average_performance, show_napolab_thesis, show_teenytinyllama, show_portuguese_leaderboard, show_external_models, search_query, max_num_parameters],
         outputs=benchmark_table
     )
     for dataset_name, checkbox in analysis_dataset_checkboxes:
         checkbox.change(
             update_radar_chart,
+            inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
             outputs=model_analysis_chart
         )
     hide_incomplete_models_analysis.change(
         update_radar_chart,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
         outputs=model_analysis_chart
     )
     min_average_performance_analysis.change(
         update_radar_chart,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
         outputs=model_analysis_chart
     )
     show_napolab_thesis_analysis.change(
         update_radar_chart,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
         outputs=model_analysis_chart
     )
     show_teenytinyllama_analysis.change(
         update_radar_chart,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
         outputs=model_analysis_chart
     )
     show_portuguese_leaderboard_analysis.change(
         update_radar_chart,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
         outputs=model_analysis_chart
     )
     show_external_models_analysis.change(
         update_radar_chart,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
         outputs=model_analysis_chart
     )
     # Connect search query to update radar chart
     search_query_analysis.change(
         update_radar_chart,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
         outputs=model_analysis_chart
     )
+    # Connect max_num_parameters_analysis to update radar chart
+    max_num_parameters_analysis.change(
+        update_radar_chart,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
+        outputs=model_analysis_chart
+    )
+    # Connect all analysis controls to update scatter plot
+    for dataset_name, checkbox in analysis_dataset_checkboxes:
+        checkbox.change(
+            update_scatter_plot,
+            inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
+            outputs=model_scatter_plot
+        )
+    hide_incomplete_models_analysis.change(
+        update_scatter_plot,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
+        outputs=model_scatter_plot
+    )
+    min_average_performance_analysis.change(
+        update_scatter_plot,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
+        outputs=model_scatter_plot
+    )
+    show_napolab_thesis_analysis.change(
+        update_scatter_plot,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
+        outputs=model_scatter_plot
+    )
+    show_teenytinyllama_analysis.change(
+        update_scatter_plot,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
+        outputs=model_scatter_plot
+    )
+    show_portuguese_leaderboard_analysis.change(
+        update_scatter_plot,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
+        outputs=model_scatter_plot
+    )
+    show_external_models_analysis.change(
+        update_scatter_plot,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
+        outputs=model_scatter_plot
+    )
+    search_query_analysis.change(
+        update_scatter_plot,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
+        outputs=model_scatter_plot
+    )
+    max_num_parameters_analysis.change(
+        update_scatter_plot,
+        inputs=[cb for _, cb in analysis_dataset_checkboxes] + [hide_incomplete_models_analysis, min_average_performance_analysis, show_napolab_thesis_analysis, show_teenytinyllama_analysis, show_portuguese_leaderboard_analysis, show_external_models_analysis, search_query_analysis, max_num_parameters_analysis],
+        outputs=model_scatter_plot
+    )
+    # Connect events
+    # Load model analysis chart on app start
+    app.load(lambda: update_radar_chart(*([display_name in ['ASSIN 2 STS', 'FaQUaD-NLI', 'HateBR'] for _, display_name in [(name, NAPOLAB_DATASETS[name].get('name', name)) for name in sorted(NAPOLAB_DATASETS.keys())]] + [True, 80, True, True, True, True, "", 0])), outputs=model_analysis_chart)
+    # Load scatter plot on app start
+    app.load(lambda: update_scatter_plot(*([display_name in ['ASSIN 2 STS', 'FaQUaD-NLI', 'HateBR'] for _, display_name in [(name, NAPOLAB_DATASETS[name].get('name', name)) for name in sorted(NAPOLAB_DATASETS.keys())]] + [True, 80, True, True, True, True, "", 0])), outputs=model_scatter_plot)
+    # Load benchmark table on app start
+    app.load(lambda: update_benchmark_table(*([display_name in ['ASSIN 2 STS', 'FaQUaD-NLI', 'HateBR'] for _, display_name in [(name, NAPOLAB_DATASETS[name].get('name', name)) for name in sorted(NAPOLAB_DATASETS.keys())]] + [True, 80, True, True, True, True, "", 0])), outputs=benchmark_table)
 if __name__ == "__main__":
     app.launch(server_name="0.0.0.0", server_port=7860)

external_models.csv CHANGED Viewed

@@ -1,31 +1,31 @@
-model,link,assin2_sts,assin2_rte,faquad_nli,hatebr_offensive
-sabia-2-small,https://www.maritaca.ai/,0.7053302344881672,0.9121728362223306,0.7575848453041435,0.753800795680591
-sabia-2-medium,https://www.maritaca.ai/,0.7804108376537757,0.923459363368553,0.7657657657657658,0.8349989882997386
-gpt-3.5-turbo-0125,https://www.openai.com/,0.7378460201077941,0.8823038414050672,0.746353108609074,0.8056205941193919
-claude-3-haiku-20240307,https://www.claude.ai/,0.7892124744168747,0.9184462138121732,0.6340996599941455,0.8023698759439051
-gemini-1.0-pro,https://ai.google.dev/,0.7058831239763663,0.8945993304651698,0.7070913567220611,0.8086330094493972
-gemini-1.5-pro-preview-0409,https://cloud.google.com/vertex-ai,0.8159702278408203,0.9328989988467518,0.7290756302521009,0.8697698647467024
-deepseek-v2-chat,https://www.deepseek.com/,0.8533174657651231,0.9440170304568147,0.7995469048381548,0.8842986491071644
-gemini-1.5-flash-preview-0514,https://cloud.google.com/vertex-ai,0.841655158151231,0.9362097477374545,0.8092185592185592,0.9099110141445836
-gemini-1.5-flash-001,https://cloud.google.com/vertex-ai,0.838806085610371,0.9366169973822607,0.7963910785668922,0.9092078461170015
-gpt-4o-mini-2024-07-18,https://www.openai.com/,0.7259038954527597,0.942809846745341,0.819807735300693,0.8682357029532165
-nemotron-4-340b-instruct,https://huggingface.co/nvidia/Nemotron-4-340B-Instruct,0.7857731021403329,0.9489354458928496,0.8194444444444444,0.8641580001234928
-llama_405b_instruct,https://huggingface.co/meta-llama/Llama-3.1-405B-Instruct,0.7888441732870783,0.9476445477916471,0.825063276593557,0.9073940659389119
-sabia-3,https://www.maritaca.ai/,0.8253863689009022,0.9477034821619312,0.8243848812618203,0.8278737774590023
-llama3_3_70b,https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct,0.7275578599896508,0.9407071010860484,0.8787563033858187,0.9024358249091997
-llama3_2_90b,https://huggingface.co/meta-llama/Llama-3.2-90B-Vision-Instruct,0.7368518566379951,0.9216548775103446,0.8632015306122449,0.8965270877302478
-gemini-1.5-flash-002,https://cloud.google.com/vertex-ai,0.8380176734291938,0.941176117215237,0.8360786822325283,0.9046145161133335
-gemini-1.5-flash-8b-001,https://aistudio.google.com,0.7638946799836569,0.9329452628161146,0.7937022965448601,0.850497640901663
-gemini-2.0-flash-001,https://cloud.google.com/vertex-ai,0.8440142633742483,0.9305165510724053,0.7533651260745065,0.8890432813545366
-gemini-2.0-flash-lite-001,https://cloud.google.com/vertex-ai,0.8492479991621328,0.9216548775103446,0.7652777777777777,0.8522499647780968
-gemini-2.5-pro-exp-03-25,https://aistudio.google.com,0.837785744915033,0.9415510158830285,0.8738735797309651,0.9248478168290788
-deepSeek-v3-0324,https://huggingface.co/deepseek-ai/DeepSeek-V3-0324,0.8145997097875548,0.9421860387625551,0.796751127001399,0.9060129756724185
-qwen2-5-vl-72b-instruct,https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct,0.7595538567467497,0.9472975104201871,0.8447190882122586,0.8810695094657859
-qwen2-5-72b-instruct,https://huggingface.co/Qwen/Qwen2.5-72B-Instruct,0.8230708844558656,0.9509720145268106,0.8194444444444444,0.8810033427242816
-qwen2-5-vl-32b-instruct,https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct,0.7780549055529008,0.9472975104201871,0.8447190882122586,0.8810695094657859
-qwen-turbo-2024-11-01,https://www.alibabacloud.com/en/product/modelstudio,0.7640477700456898,0.9260451969385788,0.8128063725490196,0.8567933277676292
-gpt-4o-2024-08-06,https://www.openai.com/,0.8078677969518289,0.9407235712144604,0.8654396266184885,0.9320137873994456
-claude-3-7-sonnet-20250219,https://www.anthropic.com/,0.8087979933117393,0.9472965253044003,0.8097848807348216,0.9125114739050616
-llama-4-scout-16e,https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E-Instruct,0.7741640227983941,0.9312877465954967,0.8567037452287072,0.8813700069483281
-llama-4-maverick-128e,https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E-Instruct,0.7333246903202654,0.9329419027588105,0.7823695413019562,0.9047550357833591
-gemma-3-27b-it,https://huggingface.co/google/gemma-3-27b-it,0.8147646517017526,0.9411147367212748,0.8143210816987241,0.8729414870796344

+model,link,assin2_sts,assin2_rte,faquad_nli,hatebr_offensive
+sabia-2-small,https://www.maritaca.ai/,0.7053302344881672,0.9121728362223306,0.7575848453041435,0.753800795680591
+sabia-2-medium,https://www.maritaca.ai/,0.7804108376537757,0.923459363368553,0.7657657657657658,0.8349989882997386
+gpt-3.5-turbo-0125,https://www.openai.com/,0.7378460201077941,0.8823038414050672,0.746353108609074,0.8056205941193919
+claude-3-haiku-20240307,https://www.claude.ai/,0.7892124744168747,0.9184462138121732,0.6340996599941455,0.8023698759439051
+gemini-1.0-pro,https://ai.google.dev/,0.7058831239763663,0.8945993304651698,0.7070913567220611,0.8086330094493972
+gemini-1.5-pro-preview-0409,https://cloud.google.com/vertex-ai,0.8159702278408203,0.9328989988467518,0.7290756302521009,0.8697698647467024
+deepseek-v2-chat,https://www.deepseek.com/,0.8533174657651231,0.9440170304568147,0.7995469048381548,0.8842986491071644
+gemini-1.5-flash-preview-0514,https://cloud.google.com/vertex-ai,0.841655158151231,0.9362097477374545,0.8092185592185592,0.9099110141445836
+gemini-1.5-flash-001,https://cloud.google.com/vertex-ai,0.838806085610371,0.9366169973822607,0.7963910785668922,0.9092078461170015
+gpt-4o-mini-2024-07-18,https://www.openai.com/,0.7259038954527597,0.942809846745341,0.819807735300693,0.8682357029532165
+nemotron-4-340b-instruct,https://huggingface.co/nvidia/Nemotron-4-340B-Instruct,0.7857731021403329,0.9489354458928496,0.8194444444444444,0.8641580001234928
+llama_405b_instruct,https://huggingface.co/meta-llama/Llama-3.1-405B-Instruct,0.7888441732870783,0.9476445477916471,0.825063276593557,0.9073940659389119
+sabia-3,https://www.maritaca.ai/,0.8253863689009022,0.9477034821619312,0.8243848812618203,0.8278737774590023
+llama3_3_70b,https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct,0.7275578599896508,0.9407071010860484,0.8787563033858187,0.9024358249091997
+llama3_2_90b,https://huggingface.co/meta-llama/Llama-3.2-90B-Vision-Instruct,0.7368518566379951,0.9216548775103446,0.8632015306122449,0.8965270877302478
+gemini-1.5-flash-002,https://cloud.google.com/vertex-ai,0.8380176734291938,0.941176117215237,0.8360786822325283,0.9046145161133335
+gemini-1.5-flash-8b-001,https://aistudio.google.com,0.7638946799836569,0.9329452628161146,0.7937022965448601,0.850497640901663
+gemini-2.0-flash-001,https://cloud.google.com/vertex-ai,0.8440142633742483,0.9305165510724053,0.7533651260745065,0.8890432813545366
+gemini-2.0-flash-lite-001,https://cloud.google.com/vertex-ai,0.8492479991621328,0.9216548775103446,0.7652777777777777,0.8522499647780968
+gemini-2.5-pro-exp-03-25,https://aistudio.google.com,0.837785744915033,0.9415510158830285,0.8738735797309651,0.9248478168290788
+deepSeek-v3-0324,https://huggingface.co/deepseek-ai/DeepSeek-V3-0324,0.8145997097875548,0.9421860387625551,0.796751127001399,0.9060129756724185
+qwen2-5-vl-72b-instruct,https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct,0.7595538567467497,0.9472975104201871,0.8447190882122586,0.8810695094657859
+qwen2-5-72b-instruct,https://huggingface.co/Qwen/Qwen2.5-72B-Instruct,0.8230708844558656,0.9509720145268106,0.8194444444444444,0.8810033427242816
+qwen2-5-vl-32b-instruct,https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct,0.7780549055529008,0.9472975104201871,0.8447190882122586,0.8810695094657859
+qwen-turbo-2024-11-01,https://www.alibabacloud.com/en/product/modelstudio,0.7640477700456898,0.9260451969385788,0.8128063725490196,0.8567933277676292
+gpt-4o-2024-08-06,https://www.openai.com/,0.8078677969518289,0.9407235712144604,0.8654396266184885,0.9320137873994456
+claude-3-7-sonnet-20250219,https://www.anthropic.com/,0.8087979933117393,0.9472965253044003,0.8097848807348216,0.9125114739050616
+llama-4-scout-16e,https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E-Instruct,0.7741640227983941,0.9312877465954967,0.8567037452287072,0.8813700069483281
+llama-4-maverick-128e,https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E-Instruct,0.7333246903202654,0.9329419027588105,0.7823695413019562,0.9047550357833591
+gemma-3-27b-it,https://huggingface.co/google/gemma-3-27b-it,0.8147646517017526,0.9411147367212748,0.8143210816987241,0.8729414870796344

extract_portuguese_leaderboard.py CHANGED Viewed

@@ -83,6 +83,7 @@ def extract_data_from_json(json_file_path):
         # Extract model information
         model_name = config_general.get('model_name', '')
         model_private = config_general.get('model_private', False)
         # Extract results
         all_grouped = results.get('all_grouped', {})
@@ -98,6 +99,7 @@ def extract_data_from_json(json_file_path):
             'json_file': str(json_file_path),
             'model_name': model_name,
             'model_private': model_private,
             'assin2_rte': assin2_rte,
             'assin2_sts': assin2_sts,
             'faquad_nli': faquad_nli,

         # Extract model information
         model_name = config_general.get('model_name', '')
         model_private = config_general.get('model_private', False)
+        model_num_parameters = config_general.get('model_num_parameters', 0)
         # Extract results
         all_grouped = results.get('all_grouped', {})
             'json_file': str(json_file_path),
             'model_name': model_name,
             'model_private': model_private,
+            'model_num_parameters': model_num_parameters,
             'assin2_rte': assin2_rte,
             'assin2_sts': assin2_sts,
             'faquad_nli': faquad_nli,

portuguese_leaderboard.csv CHANGED Viewed

The diff for this file is too large to render. See raw diff