SetForge Quality Dataset Generator

Generate high-quality Q&A datasets for LLM fine-tuning with systematic quality validation and error analysis.

Overview

SetForge is a research-based dataset generator that produces 15K-20K high-quality question-answer pairs for fine-tuning language models. It emphasizes quality over quantity through context grounding, cultural authenticity, and systematic error analysis.

Core Principles

When implementing or using this skill, follow these research-backed quality principles:

1. **Error Analysis First**: Systematically examine failures to identify highest-ROI improvements

2. **Quality Over Quantity**: Clean, relevant data outperforms large, noisy datasets

3. **Context Grounding**: All answers must be extractable from source material (≥60% extractive content)

4. **Cultural Authenticity**: Domain-specific relevance for target audience (≥70% relevance score)

5. **Consistent Formatting**: Proper instruction format is critical for model performance

Architecture

Quality-First Pipeline

```

Source Files → Context Chunking → Q&A Generation → Quality Validation → Error Analysis → JSONL Dataset

```

Core Components

1. **main_generator.py**: Single, clean Q&A generator with quality focus

2. **quality_checker.py**: Error analysis and quality validation

3. **cli.py**: Simple commands (generate, validate, analyze)

4. **config.yaml**: Configuration with quality thresholds

5. **utils.py**: Cultural context and text processing utilities

Implementation Instructions

Step 1: Configure API and Quality Thresholds

Create a `config.yaml` with:

```yaml

api_url: "https://inference.do-ai.run/v1/chat/completions"

model: "llama3-8b-instruct"

max_cost_usd: 200.0

cost_per_token: 0.0000002

quality_thresholds:

min_extractive_score: 0.6 # Anti-hallucination

min_cultural_score: 0.7 # Domain relevance

min_detail_score: 0.6 # Specific information

min_overall_score: 0.7 # Combined quality

```

Step 2: Implement Context Processing

Create meaningful context chunks that preserve semantic integrity:

```python

def create_quality_chunks(text: str) -> List[str]:

"""Create 500-1000 word chunks that preserve context integrity"""

chunks = []

paragraphs = text.split('\n\n')

current_chunk = ""

for paragraph in paragraphs:

if len(current_chunk + paragraph) > 1000:

if current_chunk:

chunks.append(current_chunk.strip())

current_chunk = paragraph

else:

current_chunk += "\n\n" + paragraph if current_chunk else paragraph

if current_chunk:

chunks.append(current_chunk.strip())

return chunks

```

Step 3: Generate Context-Grounded Q&A Pairs

Use anti-hallucination prompting pattern:

```python

async def generate_question_from_context(context: str) -> str:

prompt = f"""

Based on this context, generate a realistic question that can be answered

from the provided information.

Context: {context}

Generate a specific, actionable question.

"""

response = await call_api(prompt)

return extract_question(response)

async def generate_answer_from_context(context: str, question: str) -> str:

prompt = f"""

Answer this question using ONLY information from the provided context.

If the context doesn't contain enough information, say so clearly.

Question: {question}

Context: {context}

Provide a detailed, accurate answer based on the context.

"""

response = await call_api(prompt)

return extract_answer(response)

```

Step 4: Implement Quality Validation

Validate each Q&A pair against multiple quality dimensions:

```python

def validate_qa_quality(question: str, answer: str, context: str) -> QualityMetrics:

"""Comprehensive quality validation"""

# Extractive score (anti-hallucination)

extractive_score = calculate_extractive_score(answer, context)

# Cultural authenticity

cultural_score = validate_domain_focus(question, answer)

# Specific details

detail_score = validate_specific_details(answer)

# Overall quality

overall_score = (extractive_score * 0.4 +

cultural_score * 0.3 +

detail_score * 0.3)

return QualityMetrics(

extractive_score=extractive_score,

cultural_score=cultural_score,

detail_score=detail_score,

overall_score=overall_score

)

```

Step 5: Implement Error Analysis

Systematically categorize and analyze quality failures:

```python

def analyze_quality_failures(failed_pairs: List[QAPair]) -> ErrorAnalysis:

"""Analyze quality failures to identify improvement opportunities"""

error_categories = {

'low_extractive': [],

'poor_cultural_focus': [],

'missing_details': [],

'hallucination': [],

'irrelevant_content': []

}

for pair in failed_pairs:

if pair.quality.extractive_score < 0.6:

error_categories['low_extractive'].append(pair)

elif pair.quality.cultural_score < 0.7:

error_categories['poor_cultural_focus'].append(pair)

# Categorize other failures

return ErrorAnalysis(error_categories)

```

Step 6: Format for Model Fine-tuning

Generate properly formatted training data (example for Mistral 7B):

```python

def format_for_mistral(qa_pair: QAPair) -> dict:

"""Format Q&A pair for Mistral 7B fine-tuning"""

return {

"instruction": f"<s>[INST] {qa_pair.question} [/INST]",

"input": qa_pair.context,

"output": qa_pair.answer,

"context_source": qa_pair.source_file,

"quality_score": qa_pair.quality.overall_score

}

```

Usage Workflows

Development Testing with Error Analysis

```bash

Generate small batch

python cli.py generate data/ output/test_100.jsonl --target 100 --budget 5

Analyze quality failures

python cli.py analyze-errors output/test_100.jsonl --output error_analysis.json

Improve based on error analysis

python cli.py generate data/ output/test_100_v2.jsonl --target 100 --budget 5

Validate improvement

python cli.py validate output/test_100_v2.jsonl --threshold 0.7

```

Quality Validation

```bash

Comprehensive quality analysis

python cli.py validate dataset.jsonl --detailed-report quality_report.json

Error analysis for improvement

python cli.py analyze-errors dataset.jsonl --output error_analysis.json

Domain relevance check

python cli.py validate-cultural dataset.jsonl --output cultural_report.json

```

Production Scaling

```bash

Production run with quality monitoring

python cli.py generate data/ output/dataset_15k.jsonl \

--target 15000 --budget 200 --quality-threshold 0.7

Real-time quality monitoring

python cli.py monitor-quality output/dataset_15k.jsonl --live

```

Quality Metrics Dashboard

Monitor these metrics during generation:

```python

logger.info(f"""

Quality Generation Status:

Q&A Pairs: {len(generated_pairs):,}/{target_pairs:,}

Quality Score: {avg_quality:.2f}/1.0 (Target: ≥0.7)

Extractive Score: {avg_extractive:.2f}/1.0 (Target: ≥0.6)

Cultural Score: {avg_cultural:.2f}/1.0 (Target: ≥0.7)

Cost: ${total_cost:.2f}/${max_cost_usd}

Error Rate: {error_rate:.1f}% (Target: <5%)

""")

```

Critical Success Criteria

Quantitative Targets

**Quality Score**: ≥0.7 overall quality average

**Extractive Content**: ≥60% to prevent hallucinations

**Domain Relevance**: ≥70% culturally/contextually appropriate

**Specific Details**: ≥60% contain concrete information

**Error Rate**: <5% quality validation failures

Domain-Specific Requirements

Ensure generated content includes:

Specific, verifiable details (names, numbers, dates)

Domain-appropriate terminology and context

Cultural considerations relevant to target audience

Actionable, practical guidance

Direct grounding in source material

Critical Pitfalls to Avoid

API Configuration

```yaml

❌ WRONG: Generic or incorrect API endpoints

✅ CORRECT: Use exact provider-specified endpoints

```

Quality Shortcuts

```python

❌ DANGEROUS: Skipping extractive validation

✅ MANDATORY: All answers must be grounded in context

❌ RISKY: Ignoring domain authenticity

✅ REQUIRED: Domain-specific validation

❌ POOR: Generic, broad answers

✅ ESSENTIAL: Specific, detailed information

```

Error Analysis Neglect

```python

❌ FAILURE: Generating without error analysis

✅ SUCCESS: Systematic error analysis and improvement

❌ WASTE: Ignoring quality failures

✅ VALUE: Learning from failures to improve quality

```

Reference Documentation

Quality Dataset Research

Hamel's Field Guide to Rapidly Improving AI Products

Meta's PEFT Fine-tuning Research

Cleanlab's LLM Tuning Data Guide

Model Fine-tuning

Mistral Fine-tuning Documentation

HuggingFace Model Training Guides

Stanford Alpaca Research

Quality Evaluation

OpenAI Model Optimization Guide

HuggingFace Trainer Documentation

Unsloth Dataset Guide

Notes

Always prioritize quality validation over generation speed

Systematic error analysis is the fastest path to improvement

Context grounding prevents hallucinations

Domain authenticity ensures real-world utility

Cost tracking prevents budget overruns

Regular quality monitoring catches issues early

SetForge Quality Dataset Generator

Safety Concern

SetForge Quality Dataset Generator

Overview

Core Principles

Architecture

Quality-First Pipeline

Core Components

Implementation Instructions

Step 1: Configure API and Quality Thresholds

Step 2: Implement Context Processing

Step 3: Generate Context-Grounded Q&A Pairs

Step 4: Implement Quality Validation

Step 5: Implement Error Analysis

Step 6: Format for Model Fine-tuning

Usage Workflows

Development Testing with Error Analysis

Generate small batch

Analyze quality failures

Improve based on error analysis

Validate improvement

Quality Validation

Comprehensive quality analysis

Error analysis for improvement

Domain relevance check

Production Scaling

Production run with quality monitoring

Real-time quality monitoring

Quality Metrics Dashboard

Critical Success Criteria

Quantitative Targets

Domain-Specific Requirements

Critical Pitfalls to Avoid

API Configuration

Quality Shortcuts

Error Analysis Neglect

Reference Documentation

Quality Dataset Research

Model Fine-tuning

Quality Evaluation

Notes

Reviews (0)