core: add doc-section generator

2025-12-30 16:15:14 -05:00
parent 18dcfe51d2
commit 162ec68583
5 changed files with 250 additions and 0 deletions
--- a/src/afs_scawful/cli.py
+++ b/src/afs_scawful/cli.py
@@ -8,6 +8,7 @@ import json
 from pathlib import Path
 from typing import Iterable
 from .generators import DocSectionConfig, DocSectionGenerator, write_jsonl
 from .registry import build_dataset_registry, index_datasets, write_dataset_registry
 from .resource_index import ResourceIndexer
 from .paths import resolve_datasets_root, resolve_index_root
@@ -86,6 +87,32 @@ def _validators_run_command(args: argparse.Namespace) -> int:
    return 0 if overall_ok else 1
 def _generators_doc_sections_command(args: argparse.Namespace) -> int:
    index_path = Path(args.index).expanduser().resolve() if args.index else None
    roots = [Path(path).expanduser().resolve() for path in args.root] if args.root else None
    config = DocSectionConfig(min_chars=args.min_chars, max_chars=args.max_chars)
    generator = DocSectionGenerator(
        resource_index=index_path,
        resource_roots=roots,
        config=config,
    )
    result = generator.generate()
    output_path = (
        Path(args.output).expanduser().resolve()
        if args.output
        else resolve_index_root() / "doc_sections.jsonl"
    )
    write_jsonl(result.samples, output_path)
    print(f"doc_sections: {output_path}")
    print(
        f"samples={len(result.samples)} skipped={result.skipped} errors={len(result.errors)}"
    )
    if result.errors:
        for err in result.errors[:5]:
            print(f"error: {err}")
    return 0 if not result.errors else 1
 def build_parser() -> argparse.ArgumentParser:
    parser = argparse.ArgumentParser(prog="afs_scawful")
    subparsers = parser.add_subparsers(dest="command")
@@ -135,6 +162,39 @@ def build_parser() -> argparse.ArgumentParser:
    )
    validators_run.set_defaults(func=_validators_run_command)
    generators_parser = subparsers.add_parser("generators", help="Generator tools.")
    generators_sub = generators_parser.add_subparsers(dest="generators_command")
    doc_sections = generators_sub.add_parser(
        "doc-sections", help="Generate samples from documentation."
    )
    doc_sections.add_argument(
        "--index",
        help="Resource index path override (optional).",
    )
    doc_sections.add_argument(
        "--root",
        action="append",
        help="Resource root override (repeatable).",
    )
    doc_sections.add_argument(
        "--output",
        help="Output JSONL path (default: training index/doc_sections.jsonl).",
    )
    doc_sections.add_argument(
        "--min-chars",
        type=int,
        default=120,
        help="Minimum section length to keep.",
    )
    doc_sections.add_argument(
        "--max-chars",
        type=int,
        default=2000,
        help="Maximum section length to keep.",
    )
    doc_sections.set_defaults(func=_generators_doc_sections_command)
    return parser
@@ -153,6 +213,9 @@ def main(argv: Iterable[str] | None = None) -> int:
    if args.command == "validators" and not getattr(args, "validators_command", None):
        parser.print_help()
        return 1
    if args.command == "generators" and not getattr(args, "generators_command", None):
        parser.print_help()
        return 1
    return args.func(args)
--- a/src/afs_scawful/generators/init.py
+++ b/src/afs_scawful/generators/init.py
@@ -0,0 +1,12 @@
 """Generator registry for AFS Scawful."""
 from .base import BaseGenerator, GenerationResult, write_jsonl
 from .doc_sections import DocSectionConfig, DocSectionGenerator
 __all__ = [
    "BaseGenerator",
    "DocSectionConfig",
    "DocSectionGenerator",
    "GenerationResult",
    "write_jsonl",
 ]
--- a/src/afs_scawful/generators/base.py
+++ b/src/afs_scawful/generators/base.py
@@ -0,0 +1,44 @@
 """Generator base classes for AFS Scawful."""
 from __future__ import annotations
 from abc import ABC, abstractmethod
 from dataclasses import dataclass, field
 from datetime import datetime
 from pathlib import Path
 from typing import Iterable
 from ..training import TrainingSample
@dataclass
 class GenerationResult:
    samples: list[TrainingSample] = field(default_factory=list)
    errors: list[str] = field(default_factory=list)
    skipped: int = 0
    generated_at: str = field(default_factory=lambda: datetime.now().isoformat())
    def to_dict(self) -> dict[str, object]:
        return {
            "samples": [sample.to_dict() for sample in self.samples],
            "errors": list(self.errors),
            "skipped": self.skipped,
            "generated_at": self.generated_at,
        }
 class BaseGenerator(ABC):
    def __init__(self, name: str, domain: str) -> None:
        self.name = name
        self.domain = domain
    @abstractmethod
    def generate(self) -> GenerationResult:
        raise NotImplementedError
 def write_jsonl(samples: Iterable[TrainingSample], output_path: Path) -> Path:
    output_path.parent.mkdir(parents=True, exist_ok=True)
    lines = [sample.to_jsonl_entry() for sample in samples]
    output_path.write_text("\n".join(lines) + "\n", encoding="utf-8")
    return output_path
--- a/src/afs_scawful/generators/doc_sections.py
+++ b/src/afs_scawful/generators/doc_sections.py
@@ -0,0 +1,111 @@
 """Generate training samples from documentation sections."""
 from __future__ import annotations
 from dataclasses import dataclass
 from pathlib import Path
 from typing import Iterable
 from ..resource_index import ResourceIndexer
 from ..training import TrainingSample
 from .base import BaseGenerator, GenerationResult
@dataclass
 class DocSectionConfig:
    min_chars: int = 120
    max_chars: int = 2000
    file_globs: tuple[str, ...] = ("**/*.md", "**/*.txt")
 class DocSectionGenerator(BaseGenerator):
    """Build training samples by extracting sections from docs."""
    def __init__(
        self,
        *,
        resource_index: Path | None = None,
        resource_roots: list[Path] | None = None,
        config: DocSectionConfig | None = None,
    ) -> None:
        super().__init__(name="DocSectionGenerator", domain="docs")
        self.resource_index = resource_index
        self.resource_roots = resource_roots
        self.config = config or DocSectionConfig()
    def generate(self) -> GenerationResult:
        result = GenerationResult()
        files = self._collect_files()
        for path in files:
            try:
                samples = self._samples_from_file(path)
                result.samples.extend(samples)
                if not samples:
                    result.skipped += 1
            except Exception as exc:
                result.errors.append(f"{path}: {exc}")
        return result
    def _collect_files(self) -> list[Path]:
        if self.resource_index:
            indexer = ResourceIndexer(index_path=self.resource_index)
            loaded = indexer.load_index()
            if loaded:
                return [item.path for item in loaded.files]
        indexer = ResourceIndexer(
            resource_roots=self.resource_roots,
            search_patterns=list(self.config.file_globs),
        )
        result = indexer.build_index()
        return [item.path for item in result.files]
    def _samples_from_file(self, path: Path) -> list[TrainingSample]:
        if not path.exists() or not path.is_file():
            return []
        text = path.read_text(encoding="utf-8", errors="ignore")
        sections = _split_sections(path, text)
        samples: list[TrainingSample] = []
        for heading, content in sections:
            content = content.strip()
            if len(content) < self.config.min_chars:
                continue
            if len(content) > self.config.max_chars:
                content = content[: self.config.max_chars].rstrip()
            instruction = f"Extract the documentation section '{heading}'."
            sample = TrainingSample(
                instruction=instruction,
                input=f"source: {path.name}",
                output=content,
                domain=self.domain,
                source=str(path),
                metadata={"heading": heading, "path": str(path)},
            )
            samples.append(sample)
        return samples
 def _split_sections(path: Path, text: str) -> list[tuple[str, str]]:
    if path.suffix.lower() not in {".md", ".markdown"}:
        content = text.strip()
        if not content:
            return []
        return [(path.stem, content)]
    sections: list[tuple[str, str]] = []
    current_heading = path.stem
    buffer: list[str] = []
    for line in text.splitlines():
        stripped = line.strip()
        if stripped.startswith("#"):
            if buffer:
                sections.append((current_heading, "\n".join(buffer).strip()))
            current_heading = stripped.lstrip("#").strip() or current_heading
            buffer = []
        else:
            buffer.append(line)
    if buffer:
        sections.append((current_heading, "\n".join(buffer).strip()))
    return sections
--- a/tests/test_generators.py
+++ b/tests/test_generators.py
@@ -0,0 +1,20 @@
 from __future__ import annotations
 from pathlib import Path
 from afs_scawful.generators import DocSectionConfig, DocSectionGenerator
 def test_doc_section_generator_basic(tmp_path: Path) -> None:
    doc_path = tmp_path / "guide.md"
    doc_path.write_text(
        "# Intro\n\nThis is a short intro section.\n\n# Details\n\nMore details here.\n",
        encoding="utf-8",
    )
    config = DocSectionConfig(min_chars=10, max_chars=200)
    generator = DocSectionGenerator(resource_roots=[tmp_path], config=config)
    result = generator.generate()
    assert result.samples
    assert result.samples[0].domain == "docs"