Ga naar inhoud

Dit overdrachtsrapport is samengesteld op basis van de drie recent verstrekte bronnen. Het is ontworpen om direct in Claude Desktop te worden gebruikt om de meest effectieve ontwikkelstrategieën, contextmanagement en AI-integratietechnieken te evalueren.

Overdrachtsrapport: AI-Development Strategie & Context Optimalisatie

1. Claude Skill Creator 2.0 & AI-Workflows

De introductie van Skill Creator 2.0 transformeert AI-workflows van simpele prompts naar volwaardige software-engineering.

  • Geautomatiseerde Evaluaties (Evals): Nieuwe skills worden getest via een pipeline van vier parallelle agents: de Executor (voert de taak uit), de Grader (verifieert claims), de Blind Comparator (vergelijkt resultaten anoniem) en de Post-hoc Analist (verklaart waarom een winnaar won).
  • Twee Categorieën Skills:
    • Capability Uplift: Maakt Claude beter in taken waar het van nature minder goed in is (bijv. specifieke frontend animaties).
    • Encoded Preference: Legt specifieke bedrijfsprocessen of Standard Operating Procedures (SOP's) vast voor herhaalbaarheid.
  • Front Matter Optimalisatie: De beschrijving in de 'front matter' is cruciaal; als deze niet optimaal is, wordt de skill niet betrouwbaar getriggerd wanneer dat nodig is.
  • Kostenbeheersing: Door specifieke modellen te koppelen aan subprocessen (bijv. Sonnet gebruiken voor routinetaken binnen een Opus-sessie), kunnen tokens en kosten worden bespaard.

2. Kritisch Contextmanagement (CLAUDE.md / AGENT.md)

Recent onderzoek trekt de effectiviteit van uitgebreide contextbestanden in twijfel. Grote bestanden kunnen de prestaties zelfs verslechteren.

  • Het Risico van Afleiding: Modellen presteren vaak 3% slechter met door AI gegenereerde contextbestanden omdat ze het model kunnen biasen of afleiden met irrelevante informatie (bijv. verouderde tech-stacks zoals TRPC).
  • Architectuur boven Instructie: In plaats van fouten te repareren met een agent.md, is het effectiever om de codebase zelf te verbeteren door middel van robuuste unit-tests, integratietests en type-checks die het model kan gebruiken voor feedback.
  • Minimale Context: Gebruik contextbestanden alleen voor zaken die het model consistent fout doet of voor "surprising" onderdelen van het project die niet uit de code zelf blijken.
  • Outdated Information: Verouderde contextbestanden leiden tot foutieve aannames (bijv. bestanden op de verkeerde plek zetten).

3. Fundamentele Beperkingen & De "World Model" Kloof

Begrip van wat LLM's niet kunnen is essentieel voor een realistische projectplanning.

  • Systeem 1 vs. Systeem 2: LLM's zijn uitstekend in snelle, statistische patroonherkenning (Systeem 1), maar missen diepgaand deliberatief redeneren (Systeem 2).
  • Het Gebrek aan een Wereldmodel: LLM's hebben geen echt begrip van fysieke of sociale regels; ze reconstrueren probabilistische relaties tussen tekstfragmenten, wat leidt tot hallucinaties.
  • Problemen met Nieuwigheid (Novelty): Omdat LLM's in feite "glorified memorization machines" zijn, falen ze vaak bij situaties die buiten hun trainingsdata vallen (bijv. een car-summon systeem dat een vliegtuig ramt omdat het geen categorie 'jet' heeft).
  • Neuro-symbolische AI: De toekomst ligt waarschijnlijk in de integratie van LLM's met klassieke symbolische AI (zoals code-interpreters), die logische regels en berekeningen exact kunnen uitvoeren.

Belangrijke Aandachtspunten voor het Project

  1. Prioriteer Evals boven Vibes: Gebruik de nieuwe evaluatie-tools om objectief vast te stellen of een AI-skill daadwerkelijk waarde toevoegt ten opzichte van het standaardmodel.
  2. Snoei in Contextbestanden: Controleer of CLAUDE.md geen informatie bevat die het model ook zelf kan vinden via de package.json of bestandsstructuur.
  3. Implementeer Feedback Loops: Bouw systemen die outputs automatisch valideren (bijv. via Python-scripts) en pas doorgaan wanneer de validatie 'true' geeft.
  4. Gebruik MCP voor Dynamische Discovery: Overweeg het Model Context Protocol (MCP) om Claude Desktop te koppelen aan externe tools en databases op een gestandaardiseerde manier, in plaats van voor elke tool een aparte adapter te bouwen.

Actie voor Claude Desktop: Analyseer mijn huidige projectstructuur en bepaal of mijn contextbestanden (indien aanwezig) voldoen aan de "minimal requirements" strategie of dat ze het model momenteel afleiden.

In de bronnen worden "skills" beschreven als draagbare workflow-pakketten die Claude specifieke processen aanleren, zodat deze herhaalbaar en efficiënt uitgevoerd kunnen worden. Hieronder volgt een overzicht van de besproken skills, hun functies en de technische bijzonderheden.

1. Categorieën Skills

De bronnen maken een fundamenteel onderscheid tussen twee soorten skills: * Capability Uplift: Deze zijn bedoeld om Claude beter te maken in taken waar het model van nature minder goed in is. Een voorbeeld is een skill voor frontend-ontwikkeling die Claude stap-voor-stap instructies geeft voor complexe animaties en 'best practices' voor cinematische websites. * Encoded Preference: Dit zijn AI-workflows die specifiek zijn afgestemd op de use-case van een gebruiker, zoals een systeem dat YouTube-transcripties omzet in LinkedIn-content via een vast stappenplan.

2. Specifiek Besproken Skills

In de bronnen worden diverse concrete voorwaarden en voorbeelden van skills genoemd:

Skill Wat het doet Bijzonderheden
Meeting Prep Skill Scrapt LinkedIn-profielen en bouwt een volledige briefing over een persoon (wie ze zijn, hun problemen, wat te pitchen). Kan omgaan met verschillende input-stijlen (volledige URL, alleen naam/bedrijf, of minimale info).
Research Lead Skill Transformeert een LinkedIn URL naar een compleet onderzoekspakket inclusief gepersonaliseerde outreach. Maakt gebruik van externe Python-scripts voor het scrapen en analyseren om de context window niet te vervuilen.
Gamma Slides Skill Genereert presentatie-decks op basis van Markdown-content via de Gamma API. Gebruikt een lokale Markdown-fase om credits te besparen en bewerkingen mogelijk te maken voordat het naar de API wordt gestuurd.
Skill Creator 2.0 (Meta-skill) Een 'meta-skill' die de gebruiker helpt bij het bouwen, testen en optimaliseren van andere skills. Bevat een evaluatie-pipeline met vier agents (Executor, Grader, Blind Comparator, Post-hoc Analist) voor objectieve A/B-testen.

3. Anatomie en Bijzonderheden van een Skill

Een skill is meer dan alleen een prompt; het is een gestructureerd pakket met de volgende kenmerken: * Progressive Disclosure: Om kosten te besparen, laadt Claude eerst alleen de front matter (naam en beschrijving, ±100 tokens) om te bepalen of de skill relevant is voor de vraag van de gebruiker. Pas bij een match wordt de volledige body geladen. * Lokale Scripts: Skills kunnen Python-scripts aanroepen die lokaal worden uitgevoerd. Dit leidt tot een reductie van context-bloat met wel 97%, omdat alleen het resultaat (bijv. 100 regels output) naar Claude wordt gestuurd in plaats van de duizenden regels code van de tool zelf. * Referenties en Assets: Een skill kan mappen bevatten met voorbeelden (bijv. "wat is een goede DM") of templates, die alleen worden geladen wanneer dat nodig is. * Model Routing: Een skill kan specifieke modellen aanroepen. Zo kan een proces gestart worden in Opus, maar een subprocess voor routine-taken laten uitvoeren door het goedkopere Sonnet. * Aandachtspunt (Context Management): Er wordt gewaarschuwd dat te grote of verouderde contextbestanden (zoals AGENT.md) de prestaties met 3% kunnen verlagen en het model kunnen afleiden. Het advies is om skills alleen te gebruiken voor zaken die het model consequent fout doet.