Spaces:

trojblue
/

dataset-explorer-danbooru

Sleeping

App Files Files Community

dataset-explorer-danbooru / app.py

trojblue

Update app.py

c34122e verified 11 months ago

raw

history blame contribute delete

6.63 kB

	import random
	import pandas as pd
	import gradio as gr
	from typing import Dict, Optional

	import unibox as ub

	# Store current dataset in a global dict so it persists across Gradio calls.
	CURRENT_DATASET = {
	"id": None,
	"df": None
	}

	rating_map = {
	"g": "general",
	"s": "sensitive",
	"q": "questionable",
	"e": "explicit"
	}

	def load_dataset_if_needed(dataset_id: str):
	"""
	Checks if dataset_id is different from what's currently loaded.
	If so, loads from HF again and updates CURRENT_DATASET.
	"""
	if CURRENT_DATASET["id"] != dataset_id:
	df = ub.loads(f"hf://{dataset_id}").to_pandas()
	CURRENT_DATASET["id"] = dataset_id
	CURRENT_DATASET["df"] = df


	def convert_dbr_tag_string(tag_string: str, shuffle: bool = True) -> str:
	"""
	1girl long_hair blush -> 1girl, long_hair, blush
	"""
	tags_list = [i.replace("_", " ") for i in tag_string.split(" ") if i]
	if shuffle:
	random.shuffle(tags_list)
	return ", ".join(tags_list)


	def get_tags_dict(df_row: pd.Series) -> dict:
	"""
	Returns a dict with rating/artist/character/copyright/general/meta
	plus numeric score.
	"""
	rating = df_row["rating"]
	artist = df_row["tag_string_artist"]
	character = df_row["tag_string_character"]
	copyright_ = df_row["tag_string_copyright"]
	general = df_row["tag_string_general"]
	meta = df_row["tag_string_meta"]
	score = df_row["score"]

	rating_str = rating_map.get(rating, "")
	artist_str = artist if artist else ""
	character_str = convert_dbr_tag_string(character) if character else ""
	copyright_str = f"copyright:{copyright_}" if copyright_ else ""
	general_str = convert_dbr_tag_string(general) if general else ""
	meta_str = convert_dbr_tag_string(meta) if meta else ""
	_score = str(score) if score else ""

	return {
	"rating_str": rating_str,
	"artist_str": artist_str,
	"character_str": character_str,
	"copyright_str": copyright_str,
	"general_str": general_str,
	"meta_str": meta_str,
	"score": _score,
	}


	def build_tags_from_tags_dict(tags_dict: dict, add_artist_tags: bool = True) -> str:
	"""
	Build a final comma-separated string (rating, artist, character, etc.).
	"""
	context = []

	if tags_dict["rating_str"]:
	context.append(tags_dict["rating_str"])

	if tags_dict["artist_str"] and add_artist_tags:
	context.append(f"artist:{tags_dict['artist_str']}")

	if tags_dict["character_str"]:
	context.append(tags_dict["character_str"])

	if tags_dict["copyright_str"]:
	context.append(tags_dict["copyright_str"])

	if tags_dict["general_str"]:
	context.append(tags_dict["general_str"])

	return ", ".join(context)


	def get_captions_for_rows(df, start_idx: int = 0, end_idx: int = 5,
	tags_front: str = "", tags_back: str = "",
	add_artist_tags: bool = True) -> list:
	filtered_df = df.iloc[start_idx:end_idx]
	captions = []
	for _, row in filtered_df.iterrows():
	tags = get_tags_dict(row)
	caption_base = build_tags_from_tags_dict(tags, add_artist_tags)
	# Combine front, base, back
	pieces = [part for part in [tags_front, caption_base, tags_back] if part]
	final_caption = ", ".join(pieces)
	captions.append(final_caption)
	return captions


	def get_previews_for_rows(df: pd.DataFrame, start_idx: int = 0, end_idx: int = 5) -> list:
	filtered_df = df.iloc[start_idx:end_idx]
	return [row["large_file_url"] for _, row in filtered_df.iterrows()]


	def gradio_interface(
	dataset_id: str,
	start_idx: int = 0,
	display_count: int = 5,
	tags_front: str = "",
	tags_back: str = "",
	add_artist_tags: bool = True
	):
	"""
	1) Loads dataset if needed
	2) Returns (DataFrame, Gallery, InfoMessage)
	"""
	# 1) Possibly reload
	load_dataset_if_needed(dataset_id)
	dset_df = CURRENT_DATASET["df"]
	if dset_df is None:
	return pd.DataFrame(), [], f"ERROR: Could not load dataset {dataset_id}"

	# 2) Figure out total length, clamp inputs
	total_len = len(dset_df)
	if total_len == 0:
	return pd.DataFrame(), [], f"Dataset {dataset_id} is empty."

	start_idx = max(start_idx, 0)
	if start_idx >= total_len:
	start_idx = total_len - 1

	end_idx = start_idx + display_count
	if end_idx > total_len:
	end_idx = total_len

	# 3) Build results
	idxs = range(start_idx, end_idx)
	captions = get_captions_for_rows(dset_df, start_idx, end_idx, tags_front, tags_back, add_artist_tags)
	previews = get_previews_for_rows(dset_df, start_idx, end_idx)
	df_out = pd.DataFrame({"index": idxs, "Captions": captions})

	# 4) Build info string
	info_msg = (
	f"Current dataset: {CURRENT_DATASET['id']} \n"
	f"Dataset length: {total_len} \n"
	f"start_idx: {start_idx}, display_count: {display_count}, "
	f"tags_front: '{tags_front}', tags_back: '{tags_back}', "
	f"add_artist_tags: {add_artist_tags}"
	)

	return df_out, previews, info_msg


	with gr.Blocks() as demo:
	gr.Markdown("## Danbooru2025 Dataset Captions and Previews")

	with gr.Row():
	with gr.Column(scale=1):
	dataset_id_input = gr.Textbox(
	value="dataproc5/test-danbooru2025-tag-balanced-2k",
	label="Dataset ID"
	)
	start_idx_input = gr.Number(value=500, label="Start Index")
	display_count_input = gr.Slider(
	value=5, minimum=1, maximum=50, step=1,
	label="Number of Items"
	)
	tags_front_input = gr.Textbox(value="", label="Tags Front")
	tags_back_input = gr.Textbox(value="", label="Tags Back")
	add_artist_tags_input = gr.Checkbox(label="Add artist tags", value=True)

	run_button = gr.Button("Get Captions & Previews")

	with gr.Column(scale=2):
	captions_df_out = gr.DataFrame(label="Captions")
	previews_gallery_out = gr.Gallery(label="Previews", type="filepath")
	info_textbox_out = gr.Markdown(value="")

	run_button.click(
	fn=gradio_interface,
	inputs=[
	dataset_id_input,
	start_idx_input,
	display_count_input,
	tags_front_input,
	tags_back_input,
	add_artist_tags_input
	],
	outputs=[
	captions_df_out,
	previews_gallery_out,
	info_textbox_out
	]
	)

	demo.launch()