maxmo2009

Sync from local: code + epoch-110 checkpoint, clean README

2af0e94 verified 6 days ago

72.9 kB

	import os, sys
	ROOT_DIR = os.path.dirname(os.path.abspath(__file__))

	import torch
	from torch.utils.data import Dataset, DataLoader
	import json
	import SimpleITK as sitk
	import numpy as np
	from skimage.transform import rescale, resize, downscale_local_mean
	# from torchvision.transforms import v2
	# sys.path.append('./')
	sys.path.append(ROOT_DIR)
	from Dataloader.dataloader_utils import *
	import random

	# add your mapping files here
	# mapping_files = {
	# 'TotalSegmentor': '/home/data/Github/data/data_gen_def/DATASETS_processed/TotalSegmentorCT_MRI/nifti_mappings.json',
	# 'MSD': '/home/jachin/data/Github/data/data_gen_def/DATASETS_processed/MSD_processed/nifti_mappings_updated.json',
	# # 'CancerImageArchive': '/home/data/Github/data/data_gen_def/DATASETS_processed/CancerImageArchive_1/nifti_mappings.json',
	# }


	# mapping_files = {
	# 'MSD': '/home/data/Github/OmniMorph/Dataloader/nifty_mappings/MSD_mappings.json',
	# 'TotalSegmentor': '/home/data/Github/OmniMorph/Dataloader/nifty_mappings/TotalSegmentorCT_MRI_mappings.json',
	# 'Kaggle_osic': '/home/data/Github/OmniMorph/Dataloader/nifty_mappings/Kaggle_osic_mappings.json',
	# 'CancerImageArchive': '/home/data/Github/OmniMorph/Dataloader/nifty_mappings/CIA_mappings.json',
	# 'MnMs': '/home/jachin/data/Github/OmniMorph/Dataloader/nifty_mappings/MnMs_mappings.json',
	# # 'Brats2019': '/home/jachin/data/Github/OmniMorph/Dataloader/nifty_mappings/Brats2019_mappings.json',
	# 'Brats2020': '/home/jachin/data/Github/OmniMorph/Dataloader/nifty_mappings/Brats2020_mappings.json',
	# 'Brats2021': '/home/jachin/data/Github/OmniMorph/Dataloader/nifty_mappings/Brats2021_mappings.json',
	# 'OASIS_1': '/home/jachin/data/Github/OmniMorph/Dataloader/nifty_mappings/OASIS_1_mappings.json',
	# 'OASIS_2': '/home/jachin/data/Github/OmniMorph/Dataloader/nifty_mappings/OASIS_2_mappings.json',
	# 'PSMA-FDG-PET-CT-LESION':'/home/jachin/data/Github/OmniMorph/Dataloader/nifty_mappings/PSMA-FDG-PET-CT-LESION_mappings.json',
	# 'PSMA-CT':'/home/jachin/data/Github/OmniMorph/Dataloader/nifty_mappings/PSMA-CT-Longitud_mappings.json',
	# 'AbdomenAtlas':'/home/jachin/data/Github/OmniMorph/Dataloader/nifty_mappings/AbdomenAtlas_mappings.json',
	# 'AbdomenCT1k':'/home/jachin/data/Github/OmniMorph/Dataloader/nifty_mappings/AbdomenCT1k_mappings.json',
	# }
	mapping_files = {
	'MSD': 'nifty_mappings/MSD_mappings.json',
	'TotalSegmentor': 'nifty_mappings/TotalSegmentorCT_MRI_mappings.json',
	'Kaggle_osic': 'nifty_mappings/Kaggle_osic_mappings.json',
	'CancerImageArchive': 'nifty_mappings/CIA_mappings.json',
	'MnMs': 'nifty_mappings/MnMs_mappings.json',
	# 'Brats2019': 'nifty_mappings/Brats2019_mappings.json', # should be commented out after testing
	'Brats2020': 'nifty_mappings/Brats2020_mappings.json',
	'Brats2021': 'nifty_mappings/Brats2021_mappings.json',
	'OASIS_1': 'nifty_mappings/OASIS_1_mappings.json',
	'OASIS_2': 'nifty_mappings/OASIS_2_mappings.json',
	'PSMA-FDG-PET-CT-LESION':'nifty_mappings/PSMA-FDG-PET-CT-LESION_mappings.json',
	'PSMA-CT':'nifty_mappings/PSMA-CT-Longitud_mappings.json',
	'AbdomenAtlas':'nifty_mappings/AbdomenAtlas_mappings.json',
	'AbdomenCT1k':'nifty_mappings/AbdomenCT1k_mappings.json',
	'OAI_ZIB': 'nifty_mappings/OAI_ZIB_KL_mappings.json',
	# 'OAI_ZIB': 'nifty_mappings/OAI_ZIB_WOMAC_mappings.json', # alternative: WOMAC scores instead of KL-grade
	}
	for k,v in mapping_files.items():
	mapping_files[k] = os.path.join(ROOT_DIR, v)

	CLAMP_RANGE = [-400, 400] # default clamp range for the images

	indivi_ROI_list = ['abdomen','arm','brain','hand','head','leg','neck','pelvis','skeleton','thorax']

	def reverse_axis_order(arr):
	"""SimpleITK to NumPy axis order conversion."""
	# For 3D or 4D arrays, this is just a fast view, not a copy.
	return np.ascontiguousarray(arr.transpose(tuple(range(arr.ndim)[::-1])))

	def sample_random_uniform_multi_order(high=1., low=0., order_num=2, type='high'):
	"""Sample a random value from a uniform distribution with multiple orders.

	Args:
	high (float): Upper bound of the uniform distribution.
	low (float): Lower bound of the uniform distribution.
	order_num (int): Number of times to sample.
	type (str): 'high' or 'low', determines the sampling direction.

	Returns:
	sample_value (float): The sampled value after multiple orders.

	Notes:
	- If type is 'high', samples are drawn iteratively from [low, high], each time using the previous sample as the new lower bound.
	- If type is 'low', samples are drawn iteratively from [low, high], each time using the previous sample as the new upper bound.
	- If order_num is 0, returns the low value.
	- If order_num is 1, returns a single random value from the uniform distribution.
	- If order_num is 2, returns a value from a linear distribution.
	- If order_num is 3, returns a value from a quadratic distribution.
	"""
	if type == 'high':
	sample_value = low
	for _ in range(order_num):
	sample_value = np.random.uniform(low=sample_value, high=high)
	elif type == 'low':
	sample_value = high
	for _ in range(order_num):
	sample_value = np.random.uniform(low, high=sample_value)
	return sample_value

	class OminiDataset(object):
	"""Base class for OmniMorph datasets."""
	def __init__(self, out_sz, transform, clamp_range, min_crop_ratio, ROIs, modality,reverse_axis_order ,min_dim,mapping_files):

	# self.mappings = mapping_files
	self.ALLdata = self.combine_data(mappings = mapping_files)
	self.out_sz = out_sz
	self.reverse_axis_order = reverse_axis_order
	self.min_dim = min_dim
	self.clamp_range = clamp_range
	self.min_crop_ratio = min_crop_ratio
	self.transform = transform
	self.ndims = 3

	def get_ALLdata(self):
	return self.ALLdata

	def get_all_ROI(self):
	# Get all the ROI options. and remove the reduntant ones
	ROIs = []
	# ALLdata_filtered = data
	for k in self.ALLdata_filtered.keys():
	ROIs.append(self.ALLdata[k]['ROI'])
	ROIs = set(ROIs)
	return ROIs

	def get_filter_ROIs(self,keep_single_roi=False):
	ALLdata_filtered = self.ALLdata_filtered.copy()
	# if keep_single_roi == True:
	# for k in self.ALLdata_filtered.keys():
	# if '-' in self.ALLdata_filtered[k]['ROI']:
	# del ALLdata_filtered[k]
	# d = {k: v for k, v in ALLdata_filtered.items() if v['ROI'] in self.ROIs}
	for k in ALLdata_filtered.keys():
	if self.ALLdata_filtered[k]['ROI'] not in self.ROIs:
	del ALLdata_filtered[k]
	return ALLdata_filtered

	def combine_data(self, mappings = mapping_files):
	ALLdata = {}
	total_entries = 0
	total_skipped = 0
	for j in mappings.keys():
	with open(mappings[j], 'r') as f:
	mappings_tmp = json.load(f)
	skipped = 0
	for k, v in mappings_tmp.items():
	if not os.path.exists(k) or os.path.getsize(k) == 0:
	skipped += 1
	continue
	ALLdata[k] = v
	accessible = len(mappings_tmp) - skipped
	total_entries += len(mappings_tmp)
	total_skipped += skipped
	if skipped > 0:
	print(f" WARNING: {j}: {accessible}/{len(mappings_tmp)} accessible ({skipped} missing/empty)")
	if total_skipped > 0:
	print(f" DATA LOADING WARNING: {len(ALLdata)}/{total_entries} total files accessible ({total_skipped} missing)")
	if len(ALLdata) < 1000:
	print(f" *** CRITICAL WARNING: Only {len(ALLdata)} files loaded! Expected ~15000+. "
	f"Check that data paths in nifty_mappings/ JSON files are accessible from this node. ***")
	return ALLdata

	def get_3D_volume(self, volume, select_channel = None):
	# Get a 3D volume from the 4D volume, sometime the input image may have 4 dimensions
	if self.reverse_axis_order:
	volume = reverse_axis_order(volume)
	if volume.ndim == 4:
	if select_channel is None:
	select_channel = np.random.randint(0, volume.shape[3] - 1)
	volume = volume[:, :, :, select_channel]
	return volume

	def get_filter_mindim(self):
	# Filter out images with dimensions less than min_dim
	# Top priority is to filter out images with dimensions less than min_dim
	ALLdata = self.ALLdata.copy()
	for k in self.ALLdata.keys():
	if min(self.ALLdata[k]['Size'][:self.ndims]) < self.out_sz/2:
	del ALLdata[k]
	return ALLdata

	def normalize(self, volume, eps=1e-7):
	# Normalize the image (0-1)
	volume = volume.astype(np.float64)
	volume = (volume - np.min(volume)) / (np.ptp(volume) + eps)
	return volume

	def random_crop_3d(self, volume, crop_size=None):
	# Fast random crop with optional padding using NumPy
	d, h, w = volume.shape
	if crop_size is None:
	crop_size = self.out_sz
	crop_d, crop_h, crop_w = crop_size, crop_size, crop_size

	# Only pad if needed (avoid np.pad if not necessary)
	pad_d = max(0, crop_d - d)
	pad_h = max(0, crop_h - h)
	pad_w = max(0, crop_w - w)
	if pad_d or pad_h or pad_w:
	pad_width = (
	(np.random.randint(0, pad_d + 1), pad_d - np.random.randint(0, pad_d + 1)),
	(np.random.randint(0, pad_h + 1), pad_h - np.random.randint(0, pad_h + 1)),
	(np.random.randint(0, pad_w + 1), pad_w - np.random.randint(0, pad_w + 1)),
	)
	volume = np.pad(volume, pad_width, mode='constant', constant_values=0)
	d, h, w = volume.shape

	# Crop indices
	start_d = np.random.randint(0, d - crop_d + 1) if d > crop_d else 0
	start_h = np.random.randint(0, h - crop_h + 1) if h > crop_h else 0
	start_w = np.random.randint(0, w - crop_w + 1) if w > crop_w else 0

	# Use NumPy slicing (very fast)
	return volume[start_d:start_d + crop_d, start_h:start_h + crop_h, start_w:start_w + crop_w]

	class OminiDataset_v1(Dataset):
	def __init__(self, out_sz = 128, transform=None, clamp_range = CLAMP_RANGE, min_crop_ratio = 0.2, reverse_axis_order = False):
	self.mappings = mapping_files
	self.ALLdata = self.combine_data()
	self.out_sz = out_sz
	self.reverse_axis_order = reverse_axis_order
	self.min_crop_ratio = min_crop_ratio
	self.crop_ratio_sample_order = 2
	self.transform = transform
	self.clamp_range = clamp_range
	self.ndims = 3
	# Start you filtering here
	self.ALLdata_filtered = self.get_filter_mindim()


	# self.min_dim = self.find_min_dim()

	def find_min_dim(self):
	# Find the minimum dimension of the images
	min_dim = 100000
	for k in self.ALLdata.keys():
	value = self.ALLdata[k]
	if min(value['Size']) < min_dim:
	min_dim = min(value['Size'])
	return min_dim

	def random_crop_3d(self, volume, crop_size=None):
	# Fast random crop with optional padding using NumPy
	d, h, w = volume.shape
	if crop_size is None:
	crop_size = self.out_sz
	crop_d, crop_h, crop_w = crop_size, crop_size, crop_size

	# Only pad if needed (avoid np.pad if not necessary)
	pad_d = max(0, crop_d - d)
	pad_h = max(0, crop_h - h)
	pad_w = max(0, crop_w - w)
	if pad_d or pad_h or pad_w:
	pad_width = (
	(np.random.randint(0, pad_d + 1), pad_d - np.random.randint(0, pad_d + 1)),
	(np.random.randint(0, pad_h + 1), pad_h - np.random.randint(0, pad_h + 1)),
	(np.random.randint(0, pad_w + 1), pad_w - np.random.randint(0, pad_w + 1)),
	)
	volume = np.pad(volume, pad_width, mode='constant', constant_values=0)
	d, h, w = volume.shape

	# Crop indices
	start_d = np.random.randint(0, d - crop_d + 1) if d > crop_d else 0
	start_h = np.random.randint(0, h - crop_h + 1) if h > crop_h else 0
	start_w = np.random.randint(0, w - crop_w + 1) if w > crop_w else 0

	# Use NumPy slicing (very fast)
	return volume[start_d:start_d + crop_d, start_h:start_h + crop_h, start_w:start_w + crop_w]

	def get_ALLdata(self):
	# Return all data
	return self.ALLdata

	def get_3D_volume(self, volume, select_channel = None):
	if self.reverse_axis_order:
	volume = reverse_axis_order(volume)
	if volume.ndim == 4:
	if select_channel is None:
	select_channel = np.random.randint(0, volume.shape[3] - 1)
	volume = volume[:, :, :, select_channel]
	# print(f"Volume shape: {volume.shape}, selected channel: {select_channel}")
	return volume

	def get_filter_ROI(self, key_word):
	# Filter out images with a key word
	ALLdata = self.ALLdata.copy()
	for k in self.ALLdata.keys():
	if key_word not in k["ROI"]:
	del ALLdata[k]
	return ALLdata

	def get_filter_mindim(self):
	# Filter out images with dimensions less than min_dim
	# Top priority is to filter out images with dimensions less than min_dim
	ALLdata = self.ALLdata.copy()
	for k in self.ALLdata.keys():
	if min(self.ALLdata[k]['Size'][:self.ndims]) < self.out_sz/2:
	del ALLdata[k]
	return ALLdata

	def combine_data(self):
	ALLdata = {}
	total_entries = 0
	total_skipped = 0
	for j in self.mappings.keys():
	with open(self.mappings[j], 'r') as f:
	mappings = json.load(f)
	skipped = 0
	for k, v in mappings.items():
	if not os.path.exists(k) or os.path.getsize(k) == 0:
	skipped += 1
	continue
	ALLdata[k] = v
	accessible = len(mappings) - skipped
	total_entries += len(mappings)
	total_skipped += skipped
	if skipped > 0:
	print(f" WARNING: {j}: {accessible}/{len(mappings)} accessible ({skipped} missing/empty)")
	if total_skipped > 0:
	print(f" DATA LOADING WARNING: {len(ALLdata)}/{total_entries} total files accessible ({total_skipped} missing)")
	if len(ALLdata) < 1000:
	print(f" *** CRITICAL WARNING: Only {len(ALLdata)} files loaded! Expected ~15000+. "
	f"Check that data paths in nifty_mappings/ JSON files are accessible from this node. ***")
	return ALLdata

	def __len__(self):
	return len(self.ALLdata_filtered.keys())

	def normalize(self, volume, eps=1e-7):
	# Normalize the image (0-1)
	volume = volume.astype(np.float64)
	volume = (volume - np.min(volume)) / (np.ptp(volume) + eps)
	return volume

	def __getitem__(self, idx):
	key = list(self.ALLdata_filtered.keys())[idx]
	if 0:
	print(key)
	volume = sitk.ReadImage(key)
	volume = sitk.GetArrayFromImage(volume)
	# if volume.ndim == 4:
	volume = self.get_3D_volume(volume)

	if self.clamp_range is not None:
	modality = self.ALLdata_filtered[key].get("Modality", None)
	if modality == "CT":
	volume = np.clip(volume, self.clamp_range[0], self.clamp_range[1])
	volume = self.normalize(volume)

	if self.min_crop_ratio is not None:
	# print(f'before volume_shape: {volume.shape}')
	# crop_ratio = np.random.uniform(self.min_crop_ratio, 1)
	crop_ratio = sample_random_uniform_multi_order(high=1., low=self.min_crop_ratio, order_num=self.crop_ratio_sample_order, type='high')
	# crop_size = int(min(volume.shape) * crop_ratio)
	crop_size = int(max(volume.shape) * crop_ratio)
	volume = self.random_crop_3d(volume, crop_size)
	volume = resize(volume, [self.out_sz]*self.ndims, anti_aliasing = True, preserve_range = True)


	else:
	volume = self.random_crop_3d(volume, self.out_sz)
	volume = volume[None, :, :, :]

	if self.transform is not None:
	return self.transform(volume)

	return volume

	class OMDataset_indiv(Dataset):
	def __init__(self, out_sz = 128, transform=None, clamp_range = CLAMP_RANGE, min_crop_ratio = 0.3, reverse_axis_order = False):
	# self.mappings = mapping_files
	self.ALLdata = self.combine_data(mappings=mapping_files)
	self.out_sz = out_sz
	self.max_sz = out_sz*8
	self.reverse_axis_order = reverse_axis_order
	self.min_crop_ratio = min_crop_ratio
	self.crop_ratio_sample_order = 2
	self.transform = transform
	self.clamp_range = clamp_range
	self.ndims = 3

	# Start you filtering here
	# print(f"Filtering data with out_sz: {self.out_sz}, min_crop_ratio: {min_crop_ratio}")
	print(f"Diffusion mode: Total data size before filtering: {len(self.ALLdata)}")
	self.ALLdata_filtered = self.get_filter_mindim()
	print(f"Diffusion mode: Filtered data size: {len(self.ALLdata_filtered)}")


	# self.min_dim = self.find_min_dim()

	def find_min_dim(self):
	# Find the minimum dimension of the images
	min_dim = 100000
	for k in self.ALLdata.keys():
	value = self.ALLdata[k]
	if min(value['Size']) < min_dim:
	min_dim = min(value['Size'])
	return min_dim

	def random_crop_3d(self, volume, crop_size=None):
	# Fast random crop with optional padding using NumPy
	d, h, w = volume.shape
	if crop_size is None:
	crop_size = self.out_sz
	crop_d, crop_h, crop_w = crop_size, crop_size, crop_size

	# Only pad if needed (avoid np.pad if not necessary)
	pad_d = max(0, crop_d - d)
	pad_h = max(0, crop_h - h)
	pad_w = max(0, crop_w - w)
	if pad_d or pad_h or pad_w:
	pad_width = (
	(np.random.randint(0, pad_d + 1), pad_d - np.random.randint(0, pad_d + 1)),
	(np.random.randint(0, pad_h + 1), pad_h - np.random.randint(0, pad_h + 1)),
	(np.random.randint(0, pad_w + 1), pad_w - np.random.randint(0, pad_w + 1)),
	)
	volume = np.pad(volume, pad_width, mode='constant', constant_values=0)
	d, h, w = volume.shape

	# Crop indices
	start_d = np.random.randint(0, d - crop_d + 1) if d > crop_d else 0
	start_h = np.random.randint(0, h - crop_h + 1) if h > crop_h else 0
	start_w = np.random.randint(0, w - crop_w + 1) if w > crop_w else 0

	# Use NumPy slicing (very fast)
	return volume[start_d:start_d + crop_d, start_h:start_h + crop_h, start_w:start_w + crop_w]

	def get_ALLdata(self):
	# Return all data
	return self.ALLdata

	def get_3D_volume(self, volume, select_channel = None):
	if self.reverse_axis_order:
	volume = reverse_axis_order(volume)
	if volume.ndim == 4:
	if select_channel is None:
	select_channel = np.random.randint(0, volume.shape[3] - 1)
	volume = volume[:, :, :, select_channel]
	# print(f"Volume shape: {volume.shape}, selected channel: {select_channel}")
	return volume

	def get_filter_ROI(self, key_word):
	# Filter out images with a key word
	ALLdata = self.ALLdata.copy()
	for k in self.ALLdata.keys():
	if key_word not in k["ROI"]:
	del ALLdata[k]
	return ALLdata

	def get_filter_mindim(self):
	# Filter out images with dimensions less than min_dim
	# Top priority is to filter out images with dimensions less than min_dim
	ALLdata = self.ALLdata.copy()
	for k in self.ALLdata.keys():
	if min(self.ALLdata[k]['Size'][:self.ndims]) < self.out_sz/2:
	del ALLdata[k]
	return ALLdata

	def combine_data(self, mappings = mapping_files):
	ALLdata = {}
	total_entries = 0
	total_skipped = 0
	for j in mappings.keys():
	with open(mappings[j], 'r') as f:
	mappings_tmp = json.load(f)
	skipped = 0
	for k, v in mappings_tmp.items():
	if not os.path.exists(k) or os.path.getsize(k) == 0:
	skipped += 1
	continue
	ALLdata[k] = v
	accessible = len(mappings_tmp) - skipped
	total_entries += len(mappings_tmp)
	total_skipped += skipped
	if skipped > 0:
	print(f" WARNING: {j}: {accessible}/{len(mappings_tmp)} accessible ({skipped} missing/empty)")
	if total_skipped > 0:
	print(f" DATA LOADING WARNING: {len(ALLdata)}/{total_entries} total files accessible ({total_skipped} missing)")
	if len(ALLdata) < 1000:
	print(f" *** CRITICAL WARNING: Only {len(ALLdata)} files loaded! Expected ~15000+. "
	f"Check that data paths in nifty_mappings/ JSON files are accessible from this node. ***")
	return ALLdata

	def __len__(self):
	return len(self.ALLdata_filtered.keys())

	def normalize(self, volume, eps=1e-7):
	# Normalize the image (0-1)
	volume = volume.astype(np.float64)
	volume = (volume - np.min(volume)) / (np.ptp(volume) + eps)
	return volume

	def __getitem__(self, idx):
	key = list(self.ALLdata_filtered.keys())[idx]
	embd = self.ALLdata_filtered[key]['embd']
	embd = np.array(embd, dtype=np.float32)

	if 0:
	print(key)
	volume = sitk.ReadImage(key)
	volume = sitk.GetArrayFromImage(volume)
	# if volume.ndim == 4:
	volume = self.get_3D_volume(volume)

	if self.clamp_range is not None:
	modality = self.ALLdata_filtered[key].get("Modality", None)
	if modality == "CT":
	volume = np.clip(volume, self.clamp_range[0], self.clamp_range[1])
	volume = self.normalize(volume)

	if self.min_crop_ratio is not None:
	# print(f'before volume_shape: {volume.shape}')
	# crop_ratio = np.random.uniform(self.min_crop_ratio, 1)
	crop_ratio = sample_random_uniform_multi_order(high=1., low=self.min_crop_ratio, order_num=self.crop_ratio_sample_order, type='high')
	# crop_size = int(min(volume.shape) * crop_ratio)
	crop_size = int(max(volume.shape) * crop_ratio)
	crop_size = min(crop_size, self.max_sz)
	volume = self.random_crop_3d(volume, crop_size)
	volume = resize(volume, [self.out_sz]*self.ndims, anti_aliasing = True, preserve_range = True)


	else:
	volume = self.random_crop_3d(volume, self.out_sz)
	volume = volume[None, :, :, :]

	if self.transform is not None:
	return self.transform(volume)

	return [volume, embd]

	class OminiDataset_paired(Dataset):
	def __init__(self, out_sz = 128, transform=None, clamp_range = CLAMP_RANGE, min_crop_ratio = 0.85, ROIs = None, modality = None, reverse_axis_order = False):
	# self.mappings = mapping_files
	self.ALLdata = self.combine_data(mappings=mapping_files)
	self.out_sz = out_sz
	self.sz_range = get_sizeRange_dict()
	self.min_dim_ratio = 0.5
	self.reverse_axis_order = reverse_axis_order
	self.min_crop_ratio = min_crop_ratio
	self.transform = transform
	self.clamp_range = clamp_range
	self.ndims = 3
	# Start you filtering here
	# print(f"Number of images before filtering: {len(self.ALLdata.keys())}")
	self.ALLdata_filtered = self.get_filter_mindim()
	# print(f"Number of images after filtering: {len(self.ALLdata_filtered.keys())}")
	self.ALLdata_filtered = self.get_filter_modality(modality)
	# print(f"Number of images after modality filtering: {len(self.ALLdata_filtered.keys())}")
	if ROIs is None:# if no ROIs are provided, get all the ROIs from filtered data
	self.ROIs = self.get_all_ROI()
	else:
	self.ROIs = ROIs
	self.ALLdata_filtered = self.get_filter_ROIs()
	# print(f"Number of images after ROI filtering: {len(self.ALLdata_filtered.keys())}")
	# filtering ends here



	def combine_data(self, mappings = mapping_files):
	ALLdata = {}
	total_entries = 0
	total_skipped = 0
	for j in mappings.keys():
	with open(mappings[j], 'r') as f:
	mappings_tmp = json.load(f)
	skipped = 0
	for k, v in mappings_tmp.items():
	if not os.path.exists(k) or os.path.getsize(k) == 0:
	skipped += 1
	continue
	ALLdata[k] = v
	accessible = len(mappings_tmp) - skipped
	total_entries += len(mappings_tmp)
	total_skipped += skipped
	if skipped > 0:
	print(f" WARNING: {j}: {accessible}/{len(mappings_tmp)} accessible ({skipped} missing/empty)")
	if total_skipped > 0:
	print(f" DATA LOADING WARNING: {len(ALLdata)}/{total_entries} total files accessible ({total_skipped} missing)")
	if len(ALLdata) < 1000:
	print(f" *** CRITICAL WARNING: Only {len(ALLdata)} files loaded! Expected ~15000+. "
	f"Check that data paths in nifty_mappings/ JSON files are accessible from this node. ***")
	return ALLdata

	def normalize(self, volume, eps=1e-7):
	# Normalize the image (0-1)
	volume = volume.astype(np.float64)
	volume = (volume - np.min(volume)) / (np.ptp(volume) + eps)
	return volume

	def random_crop_3d(self, volume, crop_size=None):
	# Fast random crop with optional padding using NumPy
	d, h, w = volume.shape
	if crop_size is None:
	crop_size = self.out_sz
	crop_d, crop_h, crop_w = crop_size, crop_size, crop_size

	# Only pad if needed (avoid np.pad if not necessary)
	pad_d = max(0, crop_d - d)
	pad_h = max(0, crop_h - h)
	pad_w = max(0, crop_w - w)
	if pad_d or pad_h or pad_w:
	pad_width = (
	(np.random.randint(0, pad_d + 1), pad_d - np.random.randint(0, pad_d + 1)),
	(np.random.randint(0, pad_h + 1), pad_h - np.random.randint(0, pad_h + 1)),
	(np.random.randint(0, pad_w + 1), pad_w - np.random.randint(0, pad_w + 1)),
	)
	volume = np.pad(volume, pad_width, mode='constant', constant_values=0)
	d, h, w = volume.shape

	# Crop indices
	start_d = np.random.randint(0, d - crop_d + 1) if d > crop_d else 0
	start_h = np.random.randint(0, h - crop_h + 1) if h > crop_h else 0
	start_w = np.random.randint(0, w - crop_w + 1) if w > crop_w else 0

	# Use NumPy slicing (very fast)
	return volume[start_d:start_d + crop_d, start_h:start_h + crop_h, start_w:start_w + crop_w]

	# def random_crop_3d(self, volume, crop_size=None):
	# # Randomly crop the image
	# d, h, w = volume.shape
	# if crop_size is None:
	# crop_size = self.out_sz
	# crop_d, crop_h, crop_w = crop_size, crop_size, crop_size

	# if crop_d > d or crop_h > h or crop_w > w:
	# raise ValueError("Crop size must be smaller than the original array size")

	# start_d = np.random.randint(0, d - crop_d + 1)
	# start_h = np.random.randint(0, h - crop_h + 1)
	# start_w = np.random.randint(0, w - crop_w + 1)

	# cropped_array = volume[start_d:start_d + crop_d, start_h:start_h + crop_h, start_w:start_w + crop_w]

	# return cropped_array

	def get_all_ROI(self):
	# Get all the ROI options. and remove the reduntant ones
	ROIs = []
	for k in self.ALLdata_filtered.keys():
	ROIs.append(self.ALLdata[k]['ROI'])
	ROIs = set(ROIs)
	return ROIs

	def find_min_dim(self):
	# Find the minimum dimension of the images
	min_dim = 100000
	for k in self.ALLdata.keys():
	value = self.ALLdata[k]
	if min(value['Size']) < min_dim:
	min_dim = min(value['Size'])
	return min_dim

	def get_ALLdata(self):
	# Return all data
	return self.ALLdata

	def get_filter_modality(self, key_words=None):
	ALLdata_filtered = self.ALLdata_filtered.copy()
	if key_words is not None:
	for k in self.ALLdata_filtered.keys():
	if ALLdata_filtered[k]["Modality"] not in key_words:
	del ALLdata_filtered[k]
	return ALLdata_filtered

	def get_filter_ROI(self, key_word):
	# Filter out images with a key word
	ALLdata_filtered = self.ALLdata_filtered.copy()
	for k in self.ALLdata_filtered.keys():
	if key_word not in k["ROI"]:
	del ALLdata_filtered[k]
	return ALLdata_filtered

	def get_key_by_ROI(self, key_word):
	# Get all the keys with a key word
	keys = []
	for k in self.ALLdata_filtered.keys():
	if key_word == self.ALLdata_filtered[k]["ROI"]:
	keys.append(k)
	return keys

	def get_filter_ROIs(self):
	ALLdata_filtered = self.ALLdata_filtered.copy()
	for k in self.ALLdata_filtered.keys():
	if self.ALLdata_filtered[k]['ROI'] not in self.ROIs:
	del ALLdata_filtered[k]
	return ALLdata_filtered

	def get_3D_volume(self, volume, select_channel = None):
	if self.reverse_axis_order:
	volume = reverse_axis_order(volume)
	if volume.ndim == 4:
	if select_channel is None:
	select_channel = np.random.randint(0, volume.shape[3] - 1)
	volume = volume[:, :, :, select_channel]
	return volume

	def get_filter_mindim(self):
	# Filter out images with dimensions less than min_dim
	# Top priority is to filter out images with dimensions less than min_dim
	ALLdata = self.ALLdata.copy()
	for k in self.ALLdata.keys():
	img_sz = self.ALLdata[k]['Size'][:self.ndims]
	del_flag = False
	del_flag = del_flag or min(img_sz) < self.out_sz
	# print(f"Size: {self.ALLdata[k]['Size']}, Spacing_mm: {self.ALLdata[k]['Spacing_mm']}, ROI: {self.ALLdata[k]['ROI']}")
	# print(f"sz_range: {self.sz_range[self.ALLdata[k]['ROI']]}, min_dim_ratio: {self.min_dim_ratio}")
	del_flag = del_flag or (min(img_sz)*self.ALLdata[k]['Spacing_mm']) < self.sz_range[self.ALLdata[k]['ROI']][0]
	del_flag = del_flag or (min(img_sz)/max(img_sz) < self.min_dim_ratio)
	# del_flag = min(self.ALLdata[k]['Size']) < self.out_sz or (min(self.ALLdata[k]['Size'])*self.ALLdata[k]['Spacing_mm']) < self.sz_range[self.ALLdata[k]['ROI']] or (min(self.ALLdata[k]['Size'])/max(self.ALLdata[k]['Size']) < self.min_dim_ratio)
	if del_flag:
	del ALLdata[k]
	return ALLdata



	def __getitem__(self,idx):
	key = list(self.ALLdata_filtered.keys())[idx]
	volume_A = sitk.ReadImage(key)
	volume_A = sitk.GetArrayFromImage(volume_A)

	paired_keys = self.get_key_by_ROI(self.ALLdata_filtered[key]['ROI'])
	paired_key = random.choice(paired_keys)

	volume_B = sitk.ReadImage(paired_key)
	volume_B = sitk.GetArrayFromImage(volume_B)

	# if volume_A.ndim == 4 or volume_B.ndim == 4:
	volume_A = self.get_3D_volume(volume_A)
	volume_B = self.get_3D_volume(volume_B)

	if self.clamp_range is not None:
	modality = self.ALLdata_filtered[key].get("Modality", None)
	if modality == "CT":
	volume_A = np.clip(volume_A, self.clamp_range[0], self.clamp_range[1])
	volume_B = np.clip(volume_B, self.clamp_range[0], self.clamp_range[1])
	volume_A = self.normalize(volume_A)
	volume_B = self.normalize(volume_B)

	if self.min_crop_ratio is not None:

	# print(f'before volume_shape: {volume.shape}')
	crop_ratio = np.random.uniform(self.min_crop_ratio, 1)
	crop_size_A = int(min(volume_A.shape) * crop_ratio)
	crop_size_B = int(min(volume_B.shape) * crop_ratio)
	# crop_size_A = int(max(volume_A.shape) * crop_ratio)
	# crop_size_B = int(max(volume_B.shape) * crop_ratio)
	volume_A = self.random_crop_3d(volume_A, crop_size_A)
	volume_B = self.random_crop_3d(volume_B, crop_size_B)
	volume_A = resize(volume_A, [self.out_sz]*self.ndims, anti_aliasing = True, preserve_range = True)
	volume_B = resize(volume_B, [self.out_sz]*self.ndims, anti_aliasing = True, preserve_range = True)

	else:
	volume_A = self.random_crop_3d(volume_A, self.out_sz)
	volume_B = self.random_crop_3d(volume_B, self.out_sz)
	volume_A = volume_A[None, :, :, :]
	volume_B = volume_B[None, :, :, :]

	if self.transform is not None:
	return self.transform(volume_A), self.transform(volume_B)

	# print(self.ALLdata_filtered[key]['ROI'],self.ALLdata_filtered[key]['Modality'],self.ALLdata_filtered[key]['Dataset_name'],'---',self.ALLdata_filtered[paired_key]['ROI'], self.ALLdata_filtered[paired_key]['Modality'], self.ALLdata_filtered[paired_key]['Dataset_name'])
	return volume_A, volume_B

	def __len__(self):
	return len(self.ALLdata_filtered.keys())

	class OMDataset_pair(Dataset):
	def __init__(self, out_sz = 128, transform=None, clamp_range = CLAMP_RANGE, min_crop_ratio = 0.75, ROIs = indivi_ROI_list, modality = None, reverse_axis_order = False):
	# self.mappings = mapping_files
	self.ALLdata = self.combine_data(mappings=mapping_files)
	self.out_sz = out_sz
	self.max_sz = out_sz*8
	self.sz_range = get_sizeRange_dict()
	self.min_dim_ratio = 0.7
	self.reverse_axis_order = reverse_axis_order
	self.min_crop_ratio = min_crop_ratio
	self.transform = transform
	self.clamp_range = clamp_range
	self.ndims = 3
	# Start you filtering here
	# print(f"Number of images before filtering: {len(self.ALLdata.keys())}")
	print(f"Registration mode: Total data size before filtering: {len(self.ALLdata)}")

	self.ALLdata_filtered = self.get_filter_mindim()
	# print(f"Number of images after filtering: {len(self.ALLdata_filtered.keys())}")
	self.ALLdata_filtered = self.get_filter_modality(modality)
	# print(f"Number of images after modality filtering: {len(self.ALLdata_filtered.keys())}")
	if ROIs is None:# if no ROIs are provided, get all the ROIs from filtered data
	self.ROIs = self.get_all_ROI()
	else:
	self.ROIs = ROIs
	self.ALLdata_filtered = self.get_filter_ROIs()
	print(f"Registration mode: Number of images after filtering: {len(self.ALLdata_filtered.keys())}")
	# filtering ends here



	def combine_data(self, mappings = mapping_files):
	ALLdata = {}
	total_entries = 0
	total_skipped = 0
	for j in mappings.keys():
	with open(mappings[j], 'r') as f:
	mappings_tmp = json.load(f)
	skipped = 0
	for k, v in mappings_tmp.items():
	if not os.path.exists(k) or os.path.getsize(k) == 0:
	skipped += 1
	continue
	ALLdata[k] = v
	accessible = len(mappings_tmp) - skipped
	total_entries += len(mappings_tmp)
	total_skipped += skipped
	if skipped > 0:
	print(f" WARNING: {j}: {accessible}/{len(mappings_tmp)} accessible ({skipped} missing/empty)")
	if total_skipped > 0:
	print(f" DATA LOADING WARNING: {len(ALLdata)}/{total_entries} total files accessible ({total_skipped} missing)")
	if len(ALLdata) < 1000:
	print(f" *** CRITICAL WARNING: Only {len(ALLdata)} files loaded! Expected ~15000+. "
	f"Check that data paths in nifty_mappings/ JSON files are accessible from this node. ***")
	return ALLdata

	def normalize(self, volume, eps=1e-7):
	# Normalize the image (0-1)
	volume = volume.astype(np.float64)
	volume = (volume - np.min(volume)) / (np.ptp(volume) + eps)
	return volume

	def random_crop_3d(self, volume, crop_size=None):
	# Fast random crop with optional padding using NumPy
	d, h, w = volume.shape
	if crop_size is None:
	crop_size = self.out_sz
	crop_d, crop_h, crop_w = crop_size, crop_size, crop_size

	# Only pad if needed (avoid np.pad if not necessary)
	pad_d = max(0, crop_d - d)
	pad_h = max(0, crop_h - h)
	pad_w = max(0, crop_w - w)
	if pad_d or pad_h or pad_w:
	pad_width = (
	(np.random.randint(0, pad_d + 1), pad_d - np.random.randint(0, pad_d + 1)),
	(np.random.randint(0, pad_h + 1), pad_h - np.random.randint(0, pad_h + 1)),
	(np.random.randint(0, pad_w + 1), pad_w - np.random.randint(0, pad_w + 1)),
	)
	volume = np.pad(volume, pad_width, mode='constant', constant_values=0)
	d, h, w = volume.shape

	# Crop indices
	start_d = np.random.randint(0, d - crop_d + 1) if d > crop_d else 0
	start_h = np.random.randint(0, h - crop_h + 1) if h > crop_h else 0
	start_w = np.random.randint(0, w - crop_w + 1) if w > crop_w else 0

	# Use NumPy slicing (very fast)
	return volume[start_d:start_d + crop_d, start_h:start_h + crop_h, start_w:start_w + crop_w]

	# def random_crop_3d(self, volume, crop_size=None):
	# # Randomly crop the image
	# d, h, w = volume.shape
	# if crop_size is None:
	# crop_size = self.out_sz
	# crop_d, crop_h, crop_w = crop_size, crop_size, crop_size

	# if crop_d > d or crop_h > h or crop_w > w:
	# raise ValueError("Crop size must be smaller than the original array size")

	# start_d = np.random.randint(0, d - crop_d + 1)
	# start_h = np.random.randint(0, h - crop_h + 1)
	# start_w = np.random.randint(0, w - crop_w + 1)

	# cropped_array = volume[start_d:start_d + crop_d, start_h:start_h + crop_h, start_w:start_w + crop_w]

	# return cropped_array

	def get_all_ROI(self):
	# Get all the ROI options. and remove the reduntant ones
	ROIs = []
	for k in self.ALLdata_filtered.keys():
	ROIs.append(self.ALLdata[k]['ROI'])
	ROIs = set(ROIs)
	return ROIs

	def find_min_dim(self):
	# Find the minimum dimension of the images
	min_dim = 100000
	for k in self.ALLdata.keys():
	value = self.ALLdata[k]
	if min(value['Size']) < min_dim:
	min_dim = min(value['Size'])
	return min_dim

	def get_ALLdata(self):
	# Return all data
	return self.ALLdata

	def get_filter_modality(self, key_words=None):
	ALLdata_filtered = self.ALLdata_filtered.copy()
	if key_words is not None:
	for k in self.ALLdata_filtered.keys():
	if ALLdata_filtered[k]["Modality"] not in key_words:
	del ALLdata_filtered[k]
	return ALLdata_filtered

	def get_filter_ROI(self, key_word):
	# Filter out images with a key word
	ALLdata_filtered = self.ALLdata_filtered.copy()
	for k in self.ALLdata_filtered.keys():
	if key_word not in k["ROI"]:
	del ALLdata_filtered[k]
	return ALLdata_filtered

	def get_key_by_ROI(self, key_word):
	# Get all the keys with a key word
	keys = []
	for k in self.ALLdata_filtered.keys():
	if key_word == self.ALLdata_filtered[k]["ROI"]:
	keys.append(k)
	return keys

	def filter_keys_by_xx(self, key_word, keys=None, term="ROI"):
	# Filter out images with a key word
	filtered_keys = []
	if keys is None:
	keys = self.ALLdata_filtered.keys()
	for k in keys:
	value = self.ALLdata_filtered[k].get(term, None)
	if value is not None and key_word == value:
	filtered_keys.append(k)
	return filtered_keys

	def get_filter_ROIs(self):
	ALLdata_filtered = self.ALLdata_filtered.copy()
	for k in self.ALLdata_filtered.keys():
	if self.ALLdata_filtered[k]['ROI'] not in self.ROIs:
	del ALLdata_filtered[k]
	return ALLdata_filtered

	def get_3D_volume(self, volume, select_channel = None):
	if self.reverse_axis_order:
	volume = reverse_axis_order(volume)
	if volume.ndim == 4:
	if select_channel is None:
	select_channel = np.random.randint(0, volume.shape[3] - 1)
	volume = volume[:, :, :, select_channel]
	return volume

	def get_filter_mindim(self):
	# Filter out images with dimensions less than min_dim
	# Top priority is to filter out images with dimensions less than min_dim
	ALLdata = self.ALLdata.copy()
	for k in self.ALLdata.keys():
	img_sz = self.ALLdata[k]['Size'][:self.ndims]
	del_flag = False
	del_flag = del_flag or min(img_sz) < self.out_sz
	# print(f"Size: {self.ALLdata[k]['Size']}, Spacing_mm: {self.ALLdata[k]['Spacing_mm']}, ROI: {self.ALLdata[k]['ROI']}")
	# print(f"sz_range: {self.sz_range[self.ALLdata[k]['ROI']]}, min_dim_ratio: {self.min_dim_ratio}")
	del_flag = del_flag or (min(img_sz)*self.ALLdata[k]['Spacing_mm']) < self.sz_range[self.ALLdata[k]['ROI']][0]
	del_flag = del_flag or (min(img_sz)/max(img_sz) < self.min_dim_ratio)
	# del_flag = min(self.ALLdata[k]['Size']) < self.out_sz or (min(self.ALLdata[k]['Size'])*self.ALLdata[k]['Spacing_mm']) < self.sz_range[self.ALLdata[k]['ROI']] or (min(self.ALLdata[k]['Size'])/max(self.ALLdata[k]['Size']) < self.min_dim_ratio)
	if del_flag:
	del ALLdata[k]
	return ALLdata



	def __getitem__(self,idx):
	key = list(self.ALLdata_filtered.keys())[idx]
	volume_A = sitk.ReadImage(key)
	volume_A = sitk.GetArrayFromImage(volume_A)

	embd_A = self.ALLdata_filtered[key]['embd']
	embd_A = np.array(embd_A, dtype=np.float32)

	all_keys = list(self.ALLdata_filtered.keys())
	paired_keys = self.filter_keys_by_xx(self.ALLdata_filtered[key]['ROI'], all_keys, term="ROI")
	paired_keys = self.filter_keys_by_xx(self.ALLdata_filtered[key]['Modality'], paired_keys, term="Modality")
	# paired_keys = self.get_key_by_ROI(self.ALLdata_filtered[key]['ROI'])

	paired_key = random.choice(paired_keys)

	# print(f"Key: {key}, Paired Key: {paired_key}")
	# print(f"ROI: {self.ALLdata_filtered[key]['ROI']}, {self.ALLdata_filtered[paired_key]['ROI']}; Modality: {self.ALLdata_filtered[key]['Modality']}, {self.ALLdata_filtered[paired_key]['Modality']}")


	volume_B = sitk.ReadImage(paired_key)
	volume_B = sitk.GetArrayFromImage(volume_B)

	embd_B = self.ALLdata_filtered[paired_key]['embd']
	embd_B = np.array(embd_B, dtype=np.float32)

	# if volume_A.ndim == 4 or volume_B.ndim == 4:
	volume_A = self.get_3D_volume(volume_A)
	volume_B = self.get_3D_volume(volume_B)

	if self.clamp_range is not None:
	modality = self.ALLdata_filtered[key].get("Modality", None)
	if modality == "CT":
	volume_A = np.clip(volume_A, self.clamp_range[0], self.clamp_range[1])
	volume_B = np.clip(volume_B, self.clamp_range[0], self.clamp_range[1])
	volume_A = self.normalize(volume_A)
	volume_B = self.normalize(volume_B)

	if self.min_crop_ratio is not None:

	# print(f'before volume_shape: {volume.shape}')
	crop_ratio = np.random.uniform(self.min_crop_ratio, 1)
	# crop_size_A = int(min(volume_A.shape) * crop_ratio)
	# crop_size_B = int(min(volume_B.shape) * crop_ratio)
	crop_size_A = int(max(volume_A.shape) * crop_ratio)
	crop_size_B = int(max(volume_B.shape) * crop_ratio)
	crop_size_A = min(crop_size_A, self.max_sz)
	crop_size_B = min(crop_size_B, self.max_sz)
	volume_A = self.random_crop_3d(volume_A, crop_size_A)
	volume_B = self.random_crop_3d(volume_B, crop_size_B)
	volume_A = resize(volume_A, [self.out_sz]*self.ndims, anti_aliasing = True, preserve_range = True)
	volume_B = resize(volume_B, [self.out_sz]*self.ndims, anti_aliasing = True, preserve_range = True)

	else:
	volume_A = self.random_crop_3d(volume_A, self.out_sz)
	volume_B = self.random_crop_3d(volume_B, self.out_sz)
	volume_A = volume_A[None, :, :, :]
	volume_B = volume_B[None, :, :, :]


	if self.transform is not None:
	return self.transform(volume_A), self.transform(volume_B)

	# print(self.ALLdata_filtered[key]['ROI'],self.ALLdata_filtered[key]['Modality'],self.ALLdata_filtered[key]['Dataset_name'],'---',self.ALLdata_filtered[paired_key]['ROI'], self.ALLdata_filtered[paired_key]['Modality'], self.ALLdata_filtered[paired_key]['Dataset_name'])
	return [volume_A, volume_B, embd_A, embd_B]

	def __len__(self):
	return len(self.ALLdata_filtered.keys())

	class OminiDataset_paired_inf(object):
	def __init__(self, out_sz = 128, transform=None, clamp_range = CLAMP_RANGE, min_crop_ratio = 0.3, ROIs = None):
	# self.mappings = mapping_files
	self.ALLdata = self.combine_data(mappings=mapping_files)
	self.out_sz = out_sz
	self.min_crop_ratio = min_crop_ratio
	self.transform = transform
	self.clamp_range = clamp_range
	self.ndims = 3
	# Start you filtering here:
	# filter out images with dimensions less than min_dim
	self.ALLdata_filtered = self.get_filter_mindim()
	# filter out images with ROIs that are not in the provided ROIs
	if ROIs is None:
	self.ROIs = self.get_all_ROI()
	else:
	self.ROIs = ROIs
	self.ALLdata_filtered = self.get_filter_ROIs()
	# filtering ends here

	self.roi_scan_mapping = self.build_ROI_scan_mapping()
	self.keys_dist, self.total = self.get_keys_dist()




	def get_all_ROI(self):
	# Get all the ROI options. and remove the reduntant ones
	ROIs = []
	for k in self.ALLdata_filtered.keys():
	ROIs.append(self.ALLdata[k]['ROI'])
	ROIs = set(ROIs)
	return ROIs

	def get_ALLdata(self):
	# Return all data
	return self.ALLdata

	def combine_data(self, mappings = mapping_files):
	ALLdata = {}
	total_entries = 0
	total_skipped = 0
	for j in mappings.keys():
	with open(mappings[j], 'r') as f:
	mappings_tmp = json.load(f)
	skipped = 0
	for k, v in mappings_tmp.items():
	if not os.path.exists(k) or os.path.getsize(k) == 0:
	skipped += 1
	continue
	ALLdata[k] = v
	accessible = len(mappings_tmp) - skipped
	total_entries += len(mappings_tmp)
	total_skipped += skipped
	if skipped > 0:
	print(f" WARNING: {j}: {accessible}/{len(mappings_tmp)} accessible ({skipped} missing/empty)")
	if total_skipped > 0:
	print(f" DATA LOADING WARNING: {len(ALLdata)}/{total_entries} total files accessible ({total_skipped} missing)")
	if len(ALLdata) < 1000:
	print(f" *** CRITICAL WARNING: Only {len(ALLdata)} files loaded! Expected ~15000+. "
	f"Check that data paths in nifty_mappings/ JSON files are accessible from this node. ***")
	return ALLdata

	def __len__(self):
	return len(self.ALLdata_filtered.keys())

	def random_crop_3d(self, volume, crop_size=None):
	# Randomly crop the image
	d, h, w = volume.shape
	if crop_size is None:
	crop_size = self.out_sz
	crop_d, crop_h, crop_w = crop_size, crop_size, crop_size

	if crop_d > d or crop_h > h or crop_w > w:
	raise ValueError("Crop size must be smaller than the original array size")

	start_d = np.random.randint(0, d - crop_d + 1)
	start_h = np.random.randint(0, h - crop_h + 1)
	start_w = np.random.randint(0, w - crop_w + 1)

	cropped_array = volume[start_d:start_d + crop_d, start_h:start_h + crop_h, start_w:start_w + crop_w]

	return cropped_array

	def normalize(self, volume, eps=1e-7):
	# Normalize the image (0-1)
	volume = volume.astype(np.float64)
	volume = (volume - np.min(volume)) / (np.ptp(volume) + eps)
	return volume

	def get_3D_volume(self, volume, select_channel = None):
	volume = reverse_axis_order(volume)
	if volume.ndim == 4:
	if select_channel is None:
	select_channel = np.random.randint(0, volume.shape[3] - 1)
	volume = volume[:, :, :, select_channel]
	return volume

	def get_filter_mindim(self):
	# Filter out images with dimensions less than min_dim
	# Top priority is to filter out images with dimensions less than min_dim
	ALLdata = self.ALLdata.copy()
	for k in self.ALLdata.keys():
	if min(self.ALLdata[k]['Size'][:self.ndims]) < self.out_sz/2:
	del ALLdata[k]
	return ALLdata

	def get_filter_ROI(self, key_word):
	# Filter out images with a key word
	ALLdata_filtered = self.ALLdata_filtered.copy()
	for k in self.ALLdata_filtered.keys():
	if key_word not in k["ROI"]:
	del ALLdata_filtered[k]
	return ALLdata_filtered


	def get_filter_ROIs(self):
	ALLdata_filtered = self.ALLdata_filtered.copy()
	for k in self.ALLdata_filtered.keys():
	if self.ALLdata_filtered[k]['ROI'] not in self.ROIs:
	del ALLdata_filtered[k]
	return ALLdata_filtered

	def get_keys_dist(self):
	ROIs = self.get_all_ROI()
	keys_dist = {}
	total = 0
	for item in self.ALLdata_filtered.keys():
	if self.ALLdata_filtered[item]['ROI'] not in keys_dist:
	keys_dist[self.ALLdata_filtered[item]['ROI']] = 0
	keys_dist[self.ALLdata_filtered[item]['ROI']] += 1

	return keys_dist, total

	def build_ROI_scan_mapping(self):
	# Build a mapping of ROIs to scans
	ROI_scan_mapping = {}
	for item in self.ALLdata_filtered.keys():
	if self.ALLdata_filtered[item]['ROI'] not in ROI_scan_mapping:
	ROI_scan_mapping[self.ALLdata_filtered[item]['ROI']] = []
	ROI_scan_mapping[self.ALLdata_filtered[item]['ROI']].append(item)
	return ROI_scan_mapping


	def get_random_2_items(self, mode = 'uniform'):
	# Get a random pair of items from the dataset with the same ROI
	if mode == 'uniform':
	idx = random.randint(0, len(self.keys_dist.keys()) - 1)
	key = list(self.keys_dist.keys())[idx]
	path_1 = random.choice(self.roi_scan_mapping[key])
	path_2 = random.choice(self.roi_scan_mapping[key])

	volume_A = sitk.ReadImage(path_1)
	volume_A = sitk.GetArrayFromImage(volume_A)

	volume_B = sitk.ReadImage(path_2)
	volume_B = sitk.GetArrayFromImage(volume_B)

	if self.clamp_range is not None:
	modality = self.ALLdata_filtered[key].get("Modality", None)
	if modality == "CT":
	volume_A = np.clip(volume_A, self.clamp_range[0], self.clamp_range[1])
	volume_B = np.clip(volume_B, self.clamp_range[0], self.clamp_range[1])
	volume_A = self.normalize(volume_A)
	volume_B = self.normalize(volume_B)

	if self.min_crop_ratio is not None:
	crop_ratio = np.random.uniform(self.min_crop_ratio, 1)
	crop_size_A = int(min(volume_A.shape) * crop_ratio)
	crop_size_B = int(min(volume_B.shape) * crop_ratio)
	volume_A = self.random_crop_3d(volume_A, crop_size_A)
	volume_B = self.random_crop_3d(volume_B, crop_size_B)
	volume_A = resize(volume_A, [self.out_sz]*self.ndims, anti_aliasing = True, preserve_range = True)
	volume_B = resize(volume_B, [self.out_sz]*self.ndims, anti_aliasing = True, preserve_range = True)
	else:
	volume_A = self.radndom_crop_3d(volume_A, self.out_sz)
	volume_B = self.radndom_crop_3d(volume_B, self.out_sz)
	volume_A = volume_A[None, :, :, :]
	volume_B = volume_B[None, :, :, :]
	if self.transform is not None:
	return self.transform(volume_A), self.transform(volume_B)
	return volume_A, volume_B

	elif mode == 'original':
	pass

	def build_batch(self, batch_size = 2):
	batch_1 = []
	batch_2 = []
	for i in range(batch_size):
	V_a, V_b = self.get_random_2_items()
	batch_1.append(V_a)
	batch_2.append(V_b)
	return np.array(batch_1), np.array(batch_2)

	class OminiDataset_inference_w_all(object):
	def __init__(self, out_sz = 128, transform=None, clamp_range = CLAMP_RANGE, min_crop_ratio = 0.75, ROIs = None, label_key = ['brain'], task_key = 'segmentation', database = None, select_channels_dict = {}):
	self.mappings = mapping_files
	# database=['MSD', 'TotalSegmentor']
	if database is not None:
	self.mappings = {db: self.mappings[db] for db in database if db in self.mappings}
	# select_channels_dict={
	# "ImgDict":["ed","es"]
	# }
	self.select_channels_dict = select_channels_dict
	self.ALLdata = self.combine_data(mappings=self.mappings)
	self.out_sz = out_sz
	self.label_key = label_key
	self.min_crop_ratio = min_crop_ratio
	self.transform = transform
	self.clamp_range = clamp_range
	self.ndims = 3
	self.is_reverse_axis_order = True # for inference, always reverse axis order (nifty is reverse order than numpy)

	# Start you filtering here:
	# self.ALLdata_filtered = self.ALLdata.copy()
	# filter out images with dimensions less than min_dim
	self.ALLdata_filtered = self.get_filter_mindim()
	# filter out images with ROIs that are not in the provided ROIs
	if ROIs is None:
	self.ROIs = self.get_all_ROI()
	else:
	self.ROIs = ROIs
	self.ALLdata_filtered = self.get_filter_ROIs()
	self.ALLdata_filtered = self.get_filter_labels(task_key=task_key,label_keys=label_key)
	# filtering ends here

	self.roi_scan_mapping = self.build_ROI_scan_mapping()
	self.keys_dist, self.total = self.get_keys_dist()



	def get_all_ROI(self):
	# Get all the ROI options. and remove the reduntant ones
	ROIs = []
	for k in self.ALLdata_filtered.keys():
	ROIs.append(self.ALLdata[k]['ROI'])
	ROIs = set(ROIs)
	return ROIs

	def get_keys_dist(self):
	ROIs = self.get_all_ROI()
	keys_dist = {}
	total = 0
	for item in self.ALLdata_filtered.keys():
	if self.ALLdata_filtered[item]['ROI'] not in keys_dist:
	keys_dist[self.ALLdata_filtered[item]['ROI']] = 0
	keys_dist[self.ALLdata_filtered[item]['ROI']] += 1

	return keys_dist, total

	def build_ROI_scan_mapping(self):
	# Build a mapping of ROIs to scans
	ROI_scan_mapping = {}
	for item in self.ALLdata_filtered.keys():
	if self.ALLdata_filtered[item]['ROI'] not in ROI_scan_mapping:
	ROI_scan_mapping[self.ALLdata_filtered[item]['ROI']] = []
	ROI_scan_mapping[self.ALLdata_filtered[item]['ROI']].append(item)
	return ROI_scan_mapping

	def get_3D_volume(self, volume, select_channel = None):
	volume = reverse_axis_order(volume) if self.is_reverse_axis_order else volume
	if volume.ndim == 4:
	if select_channel is None:
	select_channel = np.random.randint(0, volume.shape[3] - 1)
	volume = volume[:, :, :, select_channel]
	# print(f"Volume shape: {volume.shape}, selected channel: {select_channel}")
	return volume

	def get_filter_mindim(self):
	# Filter out images with dimensions less than min_dim
	# Top priority is to filter out images with dimensions less than min_dim
	ALLdata = self.ALLdata.copy()
	for k in self.ALLdata.keys():
	if min(self.ALLdata[k]['Size'][:self.ndims]) < self.out_sz/2:
	del ALLdata[k]
	return ALLdata

	def find_min_dim(self):
	# Find the minimum dimension of the images
	min_dim = 100000
	for k in self.ALLdata.keys():
	value = self.ALLdata[k]
	if min(value['Size']) < min_dim:
	min_dim = min(value['Size'])
	return min_dim

	# def combine_data(self):
	# ALLdata = {}
	# for j in self.mappings.keys():
	# with open(self.mappings[j], 'r') as f:
	# mappings = json.load(f)
	# ALLdata.update(mappings)
	# return ALLdata

	def combine_data(self, mappings = mapping_files):
	ALLdata = {}
	total_entries = 0
	total_skipped = 0
	for j in mappings.keys():
	with open(mappings[j], 'r') as f:
	mappings_tmp = json.load(f)
	skipped = 0
	for k, v in mappings_tmp.items():
	if not os.path.exists(k) or os.path.getsize(k) == 0:
	skipped += 1
	continue
	ALLdata[k] = v
	accessible = len(mappings_tmp) - skipped
	total_entries += len(mappings_tmp)
	total_skipped += skipped
	if skipped > 0:
	print(f" WARNING: {j}: {accessible}/{len(mappings_tmp)} accessible ({skipped} missing/empty)")
	if total_skipped > 0:
	print(f" DATA LOADING WARNING: {len(ALLdata)}/{total_entries} total files accessible ({total_skipped} missing)")
	if len(ALLdata) < 1000:
	print(f" *** CRITICAL WARNING: Only {len(ALLdata)} files loaded! Expected ~15000+. "
	f"Check that data paths in nifty_mappings/ JSON files are accessible from this node. ***")
	return ALLdata

	def normalize(self, volume, eps=1e-7):
	# Normalize the image (0-1)
	volume = volume.astype(np.float64)
	volume = (volume - np.min(volume)) / (np.ptp(volume) + eps)
	return volume

	def get_key_by_ROI(self, key_word):
	# Get all the keys with a key word
	keys = []
	for k in self.ALLdata_filtered.keys():
	if key_word == self.ALLdata_filtered[k]["ROI"]:
	keys.append(k)
	return keys

	def get_filter_task(self, task_key = 'segmentation'):
	# Filter out images with task type that are not in the provided labels_path
	ALLdata_filtered = self.ALLdata_filtered.copy()
	for k in self.ALLdata_filtered.keys():
	if 'Label_path' not in self.ALLdata_filtered[k] or task_key not in self.ALLdata_filtered[k]['Label_path']:
	del ALLdata_filtered[k]
	Warning(f"Label path not found for {k} with task key {task_key}. This image will be removed from the dataset.")
	return ALLdata_filtered

	def get_filter_labels(self, task_key='segmentation', label_keys=['heart']):
	# Filter out images where 'Label_path' does not contain any of the label_keys for the given task_key
	ALLdata_filtered = self.ALLdata_filtered.copy()
	keys_to_remove = []
	for k in list(ALLdata_filtered.keys()):
	label_path = ALLdata_filtered[k].get('Label_path', {})
	task_labels = label_path.get(task_key, {})
	# Check if any label_keys are present in task_labels
	# print(f"Checking {k} for task key {task_labels.keys()} with label keys {label_keys}")
	has_any_label = any((tk in label_keys) for tk in task_labels.keys())
	# print(f"Has any label: {has_any_label}")
	if not has_any_label:
	keys_to_remove.append(k)
	# print(f"Label path not found for {k} with task key {task_key} and label keys {label_keys}. This image will be removed from the dataset.")
	for k in keys_to_remove:
	del ALLdata_filtered[k]
	return ALLdata_filtered

	def get_random_pad_crop_params(self, volume_shape, crop_size=None, random=True):
	# Get random padding and cropping parameters for a given shape
	d, h, w = volume_shape[:3]
	if crop_size is None:
	crop_size = self.out_sz
	crop_d, crop_h, crop_w = crop_size, crop_size, crop_size

	# Calculate padding
	pad_width = []
	for size, crop in zip((d, h, w), (crop_d, crop_h, crop_w)):
	if crop > size:
	total_pad = crop - size
	pad_before = np.random.randint(0, total_pad + 1)
	pad_after = total_pad - pad_before
	pad_width.append((pad_before, pad_after))
	else:
	pad_width.append((0, 0))

	# Update shape after padding
	d_p, h_p, w_p = d + pad_width[0][0] + pad_width[0][1], h + pad_width[1][0] + pad_width[1][1], w + pad_width[2][0] + pad_width[2][1]

	if random:
	# Calculate cropping start indices (random crop)
	start_d = np.random.randint(0, d_p - crop_d + 1) if d_p > crop_d else 0
	start_h = np.random.randint(0, h_p - crop_h + 1) if h_p > crop_h else 0
	start_w = np.random.randint(0, w_p - crop_w + 1) if w_p > crop_w else 0
	else:
	# Calculate cropping start indices (center crop)
	start_d = max((d_p - crop_d) // 2, 0)
	start_h = max((h_p - crop_h) // 2, 0)
	start_w = max((w_p - crop_w) // 2, 0)

	crop_slices = (start_d, start_h, start_w, crop_d, crop_h, crop_w)
	return pad_width, crop_slices

	def apply_pad_crop(self, volume, pad_width, crop_slices):
	# Apply padding and cropping to the volume
	if any(pad != (0, 0) for pad in pad_width):
	volume = np.pad(volume, pad_width, mode='constant', constant_values=0)
	start_d, start_h, start_w, crop_d, crop_h, crop_w = crop_slices
	cropped_array = volume[start_d:start_d + crop_d, start_h:start_h + crop_h, start_w:start_w + crop_w]
	return cropped_array

	def get_filter_ROIs(self):
	ALLdata_filtered = self.ALLdata_filtered.copy()
	for k in self.ALLdata_filtered.keys():
	if self.ALLdata_filtered[k]['ROI'] not in self.ROIs:
	del ALLdata_filtered[k]
	return ALLdata_filtered

	def get_channel_ids(self, key):
	"""
	Get the indices where ImgDict values match the selected channels (e.g., 'ed', 'es').

	Returns:
	list: List of integer indices matching the selected channels
	"""
	img_dict = self.ALLdata_filtered[key].get("ImgDict", {})
	selected_values = self.select_channels_dict.get("ImgDict", [])
	# Build reverse mapping: value -> index
	value_to_idx = {value: int(idx) for idx, value in img_dict.items()}

	# Get indices in the order of selected_values
	indices = [
	value_to_idx[val] for val in selected_values
	if val in value_to_idx
	]
	return indices
	# return sorted(indices)

	def __len__(self):
	return len(self.ALLdata_filtered.keys())

	def __getitem__(self, idx):
	key = list(self.ALLdata_filtered.keys())[idx]
	return_dict = dict()

	print(f"Processing key: {key}")

	volume = sitk.ReadImage(key)
	volume = sitk.GetArrayFromImage(volume)

	if volume.ndim == 4:
	channel_ids = self.get_channel_ids(key)
	if len(channel_ids) == 0:
	# warning message that this key has no matching channels
	Warning(f"No matching channels found for key: {key} with ImgDict: {self.ALLdata_filtered[key].get('ImgDict', {})} and selected channels: {self.select_channels_dict.get('ImgDict', [])}. Using random channel.")
	channel_id = None
	else:
	channel_id=channel_ids[0]

	volume = self.get_3D_volume(volume, select_channel = channel_id)

	if self.clamp_range is not None:
	modality = self.ALLdata_filtered[key].get("Modality", None)
	if modality == "CT":
	volume = np.clip(volume, self.clamp_range[0], self.clamp_range[1])
	volume = self.normalize(volume)

	crop_ratio = np.random.uniform(self.min_crop_ratio, 1)

	crop_size = int(max(volume.shape) * crop_ratio)
	pad_width, crop_slices = self.get_random_pad_crop_params(volume.shape, crop_size)
	# print(f"Pad width: {pad_width}, Crop slices: {crop_slices}, Original shape: {volume.shape}")
	volume = self.apply_pad_crop(volume, pad_width, crop_slices)

	label_dict = dict()
	if 'Label_path' in self.ALLdata_filtered[key]:
	for lk in self.label_key:
	if lk in self.ALLdata_filtered[key]['Label_path']['segmentation'].keys():
	label = sitk.ReadImage(self.ALLdata_filtered[key]['Label_path']['segmentation'][lk])
	label = sitk.GetArrayFromImage(label)
	# print(f"Label shape: {label.shape}, key: {key}, label key: {lk}")
	label = reverse_axis_order(label) if self.is_reverse_axis_order else label

	# print(f"Label shape: {label.shape}, key: {key}, label key: {lk}")
	if label.ndim > self.ndims:
	if len(channel_ids) != 0:
	label = label[...,channel_ids] # assuming channel last
	pad_width_lab = pad_width + [(0,0)]*(label.ndim - self.ndims)
	# print(f"Label with channels, pad_width_lab: {pad_width_lab}")
	else:
	pad_width_lab = pad_width

	label = self.apply_pad_crop(label, pad_width_lab, crop_slices)
	# print(f"After pad and crop, label shape: {label.shape}, key: {key}, label key: {lk}")
	label_dict[lk] = resize(label,[self.out_sz]*self.ndims, anti_aliasing = False, preserve_range = True, order=0)
	if label.ndim > self.ndims:
	if self.ndims==3:
	label_dict[lk] = np.transpose(label_dict[lk], (3,0,1,2)) # assuming channel last
	elif self.ndims==4:
	label_dict[lk] = np.transpose(label_dict[lk], (4,0,1,2,3)) # assuming channel last
	# print(f"After resize, label shape: {label_dict[lk].shape}, key: {key}, label key: {lk}")
	else:
	label_dict[lk] = np.full([self.out_sz]*self.ndims, -1)
	Warning(f"Label path not found for {key} with label key {lk}.")
	label_dict[lk] = label_dict[lk][None, :, :, :] if label_dict[lk].ndim == 3 else label_dict[lk]
	else:
	for lk in self.label_key:
	label_dict[lk] = np.full([self.out_sz]*self.ndims, -1)
	Warning(f"Label path not found for {key} with label key {lk}.")
	label_dict[lk] = label_dict[lk][None, :, :, :]

	volume =resize(volume, [self.out_sz]*self.ndims, anti_aliasing = True, preserve_range = True)
	# return_dict['labels'] = label_dict
	return_dict['labels'] = np.concatenate([v for v in label_dict.values()], axis=1)

	return_dict['img'] = volume[None, :, :, :]
	return_dict['label_channels'] = list(self.select_channels_dict.get("ImgDict", []))
	return return_dict



	class OminiDataset_bertembd(OminiDataset):
	def __init__(self,
	out_sz = 128,
	transform=None,
	clamp_range = CLAMP_RANGE,
	min_crop_ratio = 0.85,
	ROIs = None,
	modality = None,
	reverse_axis_order = False,
	min_dim = 3,
	mapping_files = mapping_files):
	super().__init__(out_sz = out_sz,
	transform = transform,
	clamp_range = clamp_range,
	min_crop_ratio = min_crop_ratio,
	ROIs = ROIs,
	modality = modality,
	reverse_axis_order = reverse_axis_order,
	min_dim = min_dim,
	mapping_files=mapping_files)
	# start you filtering here
	self.ALLdata_filtered = self.get_filter_mindim()
	if ROIs is None:
	# if no ROIs are provided, get all the ROIs from filtered data
	self.ROIs = self.get_all_ROI()
	else:
	self.ROIs = ROIs
	self.ALLdata_filtered = self.get_filter_ROIs()
	# self.ALLdata_filtered = self.filter_embd()
	# self.ALLdata_filtered = self.get_filter_labels(task_key=task_key,label_keys=label_key)
	# end your filtering here
	def __getitem__(self, idx):
	key = list(self.ALLdata_filtered.keys())[idx]
	embd = self.ALLdata_filtered[key]['embd']
	if 0:
	print(key)

	volume = sitk.ReadImage(key)
	volume = sitk.GetArrayFromImage(volume)
	volume = self.get_3D_volume(volume)

	if self.clamp_range is not None:
	modality = self.ALLdata_filtered[key].get("Modality", None)
	if modality == "CT":
	volume = np.clip(volume, self.clamp_range[0], self.clamp_range[1])
	volume = self.normalize(volume)

	if self.min_crop_ratio is not None:
	crop_ratio = np.random.uniform(self.min_crop_ratio, 1)
	crop_size = int(max(volume.shape) * crop_ratio)
	volume = self.random_crop_3d(volume, crop_size)
	volume = resize(volume, [self.out_sz]*self.ndims, anti_aliasing = True, preserve_range = True)
	else:
	volume = self.random_crop_3d(volume, self.out_sz)
	volume = volume[None, :, :, :]

	if self.transform is not None:
	return self.transform(volume)

	return volume,np.array(embd)

	def __len__(self):
	return len(self.ALLdata_filtered.keys())

	def filter_embd(self):
	for k in self.ALLdata_filtered.keys():
	if 'BERT_embedding_keys' not in self.ALLdata_filtered[k]['Metadata']:
	del self.ALLdata_filtered[k]
	return self.ALLdata_filtered