Zum Hauptinhalt springen
Devin hat Zugriff auf eine vollwertige Linux-Desktop-Umgebung – nicht nur auf einen Browser. Es kann die Maus bewegen, auf UI-Elemente klicken, auf der Tastatur tippen, Screenshots aufnehmen und mit jeder Anwendung interagieren, die auf einem Linux-Desktop läuft. Diese Fähigkeit wird Computer Use genannt und ermöglicht es Devin, Ihre Software auf die gleiche Weise zu testen und mit ihr zu interagieren wie ein Mensch.

Was ist „Computer Use“?

Computer Use gibt Devin direkten Zugriff auf eine grafische Desktop-Umgebung mit Maus und Tastatur. Das geht über Browserautomatisierung hinaus — Devin kann mit jeder Anwendung interagieren, die auf dem Bildschirm dargestellt wird, darunter:
  • Webanwendungen in Chrome (Klicken von Schaltflächen, Ausfüllen von Formularen, Navigieren durch Seiten)
  • Desktop-Anwendungen, die auf Linux laufen (Electron-Apps, native GUIs, IDEs)
  • Terminalbasierte UIs (TUI-Programme, interaktive CLIs)
  • Jede visuelle Benutzeroberfläche, die auf dem Desktop angezeigt werden kann
Devin sieht den Bildschirm als ein 1024×768-Pixel-Display und kann Aktionen wie Klicken, Tippen, Scrollen, Ziehen und das Aufnehmen von Screenshots ausführen — genau wie ein Mensch, der am Computer sitzt.

So aktivieren Sie es

Computer Use wird über den Schalter Enable desktop mode in den Anpassungsoptionen Ihrer Organisation gesteuert.
  1. Gehen Sie zu Settings > Customization
  2. Aktivieren Sie im Abschnitt Browser interaction den Schalter Enable desktop mode
  3. Devin verwendet nun während Sitzungen seine Desktop-Umgebung
Der Desktop-Modus ist in allen Tarifen verfügbar. Nur Organisationsadministratoren können diese Einstellung ändern.

Wann Computer Use ausgeführt wird

Sobald der Desktop-Modus aktiviert ist, steht Computer Use in jeder Sitzung zur Verfügung. Es gibt drei Situationen, in denen es ausgeführt wird:

Nach dem Erstellen eines Pull Requests (PR)

Wenn Devin einen Pull Request (PR) erstellt, wird die Schaltfläche Test the app angezeigt. Ein Klick darauf löst den vollständigen Test-Workflow aus — Devin startet deine App, verwendet Computer Use, um mit dem Desktop zu interagieren, testet die Änderungen und sendet dir eine Aufzeichnung.
Schaltfläche „Test the app“

Auf Anfrage während einer Sitzung

Du kannst Devin jederzeit während einer Sitzung zum Testen auffordern – keine spezielle Syntax erforderlich, nur natürliche Sprache. Zum Beispiel:
  • „Teste die Änderungen, die du gerade vorgenommen hast, und schick mir eine Aufnahme.“
  • „Öffne die App im Browser und überprüfe, ob die Anmeldeseite funktioniert.“
  • „Starte die Desktop-App und prüfe, ob der neue Menüpunkt erscheint.“

Wenn es sinnvoll ist, autonom

Devin entscheidet selbst, wann die Interaktion mit dem Desktop das richtige Mittel für eine Aufgabe ist. Wenn eine Aufgabe das Klicken auf UI-Elemente, das Navigieren in einer App, das Ausfüllen von Formularen oder das visuelle Überprüfen von Inhalten umfasst, verwendet Devin Computer Use, ohne dass Sie es ausdrücklich dazu auffordern müssen. Sie müssen Devin nicht sagen, wie es mit dem Bildschirm interagieren soll — sagen Sie ihm einfach, was es erreichen soll.

Was Devin bei der Computernutzung leisten kann

Webanwendungen end-to-end testen

Devin kann Ihre App lokal starten, sie in Chrome öffnen und vollständige User-Flows durchklicken – Login, Navigation, Formularabsendung, Checkout – und so überprüfen, ob alles wie erwartet funktioniert.

Desktopanwendungen testen

Jede Anwendung, die unter Linux ausgeführt wird, kann getestet werden. Devin kann die App starten, mit ihrer GUI interagieren und das Verhalten überprüfen. Dazu zählen Electron-Apps, Java Swing/AWT-Anwendungen, GTK/Qt-Apps und mehr.

Visuelle Überprüfung

Devin kann während des Testens an bestimmten Punkten Screenshots aufnehmen, um zu überprüfen, ob Layouts, Styling und UI-Elemente korrekt dargestellt werden. Es kann den Bildschirminhalt mit dem erwarteten Verhalten vergleichen und visuelle Probleme markieren.

Mit komplexen UI-Abläufen interagieren

Einige Testszenarien erfordern mehrstufige GUI-Interaktionen, die über einfache API-Aufrufe oder Browserautomatisierung hinausgehen – etwa Drag-and-Drop, Kontextmenüs, Tastenkombinationen oder das Navigieren zwischen mehreren Fenstern. Computer Use beherrscht all dies.

Testsitzungen aufzeichnen

Devin kann seinen Bildschirm während der Tests aufzeichnen und wichtige Momente im Video kommentieren. Die Aufzeichnung wird anschließend verarbeitet und an Sie gesendet, damit Sie sehen können, wie Devin mit Ihrer App interagiert und bestätigen können, dass die Änderungen wie erwartet funktionieren. Ausführliche Informationen zum Aufzeichnungsworkflow finden Sie unter Testing & Video Recordings.

Wie Computer Use funktioniert

Wenn Devin während einer Sitzung Computer Use verwendet, folgt Devin dabei diesem Ablauf:
  1. Erstellt einen Screenshot des aktuellen Bildschirms, um zu erfassen, was angezeigt wird
  2. Identifiziert interaktive Elemente – Buttons, Textfelder, Menüs, Links – und entscheidet, mit welchen Elementen interagiert werden soll
  3. Führt eine Aktion aus – klickt, tippt, scrollt oder verwendet Tastenkombinationen
  4. Wartet und beobachtet – erstellt einen weiteren Screenshot, um das Ergebnis der Aktion zu sehen
  5. Wiederholt den Vorgang, bis die Aufgabe abgeschlossen ist
Diese Schleife aus Screenshots und Aktionen ermöglicht es Devin, sich an alles auf dem Bildschirm anzupassen und dynamische Inhalte, Ladezustände, Pop-ups und unerwartete Dialoge genau wie ein Mensch zu handhaben.

Computer Use und Tests

Computer Use ist die Grundlage von Devins Workflow für Tests und Aufzeichnungen. Wenn Devin Ihre Anwendung nach dem Erstellen eines Pull-Requests (PR) testet:
  1. Einrichtung — Devin installiert Abhängigkeiten, startet Ihre App und bereitet die Umgebung vor
  2. Testplanung — Devin liest das Diff und erstellt einen zielgerichteten Testplan
  3. Ausführung über Computer Use — Devin verwendet seinen Desktop, um mit Ihrer App zu interagieren und folgt dem Testplan Schritt für Schritt
  4. Aufzeichnung — Der gesamte Prozess wird als Video mit Annotationen aufgezeichnet und Ihnen anschließend zur Überprüfung gesendet
Der zentrale Unterschied zwischen Computer Use und dem Workflow „Testing & Recordings“ ist der Umfang: Computer Use ist die zugrunde liegende Fähigkeit (Desktop-Interaktion), während Testing & Recordings der strukturierte Workflow ist, der Computer Use verwendet, um Ihre PRs zu testen und Video-Nachweise zu liefern.

Tipps für optimale Ergebnisse

Geben Sie genau an, was getestet werden soll

  • “Öffnen Sie die App, klicken Sie oben rechts auf die Schaltfläche Einstellungen, aktivieren Sie den Dark Mode und prüfen Sie, ob der gesamte Text weiterhin lesbar ist”
  • “Starten Sie die Electron-App, erstellen Sie ein neues Dokument, geben Sie etwas Text ein und prüfen Sie, ob es gespeichert wird, wenn Sie das Fenster schließen”

Teilen Sie Devin mit, wie Erfolg aussieht

  • “Das Dashboard sollte drei Diagramme ohne Fehlermeldungen anzeigen”
  • “Nach dem Absenden des Formulars sollte oben auf der Seite ein grünes Erfolgsbanner erscheinen”

Zugriff vorab konfigurieren

Wenn Ihre App eine Authentifizierung erfordert, richten Sie Secrets im Voraus ein, damit Devin sich anmelden kann, ohne Sie während der Sitzung fragen zu müssen. Schließen Sie das Repo Setup ab, um sicherzustellen, dass Devin Abhängigkeiten installieren und Ihre App ohne Probleme starten kann.

Test-Skills erstellen

Für Apps, die Sie häufig testen, erstellen Sie einen Skill, der Devin genau vorgibt, wie Ihre Anwendung eingerichtet und getestet werden soll. Das spart Zeit bei wiederkehrenden Sitzungen und sorgt für konsistente Tests. Beispiele finden Sie unter Tests & Videoaufzeichnungen — Skill-Vorschläge.

Skriptgesteuerte Browsernutzung über Playwright

Devins Chrome-Browser stellt einen Chrome DevTools Protocol (CDP)-Endpunkt bereit, zu dem Playwright eine Verbindung herstellen kann. Devin kann Playwright-Skripte schreiben und ausführen, um Browserinteraktionen in seinem eigenen laufenden Browser zu automatisieren — etwa Anmeldeabläufe oder systematische Dateneingaben. Sie können diese Skripte auch selbst schreiben und in Ihr Repo einchecken. Für die meisten anderen Browseraktionen sind Devins native Computer Use-Funktion oder seine Browser-Tools die bessere Wahl.

So funktioniert es

Devins Chrome-Instanz lauscht auf Port 29229 auf CDP-Verbindungen. Ein Playwright-Skript kann sich mit diesem Browser verbinden, Aktionen ausführen (Formulare ausfüllen, auf Schaltflächen klicken, Weiterleitungen folgen) und die Verbindung anschließend wieder trennen. Da sich das Skript mit dem bestehenden Browser verbindet, anstatt einen neuen zu starten, bleiben alle Zustandsänderungen — Cookies, localStorage, Auth-Token — auch nach dem Beenden des Skripts erhalten. Das bedeutet, dass Devin die authentifizierte Sitzung sofort nutzen kann: Seiten aktualisieren, navigieren und normal mit der App interagieren.

Beispiel: Verbindung zu Devins Browser herstellen

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.connect_over_cdp("http://localhost:29229")
    context = browser.contexts[0]
    page = context.pages[0] if context.pages else context.new_page()

    # Beispiel: Navigieren und anmelden
    page.goto("https://example.com/login")
    page.fill('input[name="email"]', "user@example.com")
    page.fill('input[name="password"]', "password")
    page.click('button[type="submit"]')
    page.wait_for_url("**/dashboard")
    print("Anmeldung erfolgreich!")
Nachdem dieses Skript ausgeführt wurde, ist der Browser von Devin angemeldet und einsatzbereit — kein manuelles Eingreifen erforderlich.

Wann Sie dies verwenden sollten

SSO-/OAuth-Flows

Automatisieren Sie mehrstufige Anmeldeabläufe (z. B. Okta, Auth0, Google SSO), bei denen es mühsam wäre, sich in jeder Sitzung manuell durchzuklicken.

Authentifizierung beim Repo-Setup

Fügen Sie Ihrem Umgebungs-Setup ein Anmeldeskript hinzu, damit Devin jede Sitzung bereits authentifiziert startet.

Skill-basierte Automatisierung

Speichern Sie Anmelde- oder Dateneingabeskripte in einem Skill, damit Devin sie bei Bedarf automatisch ausführen kann.

Systematische Dateneingabe

Erstellen Sie Skripte für wiederholte Formularübermittlungen oder Massendateneingaben, die per Point-and-Click langsam und fehleranfällig wären.

Tipps

  • Speichere Anmeldeskripte im Verzeichnis .agents/skills/ deines Repo, damit sie über Sitzungen hinweg erhalten bleiben
  • Verwende Secrets, um Zugangsdaten zu speichern — greife in deinen Skripten über Umgebungsvariablen darauf zu
  • Der CDP-Endpunkt ist immer http://localhost:29229 — es ist derselbe Port, unabhängig davon, ob der Desktop-Modus aktiviert ist oder nicht
  • Nachdem das Skript ausgeführt wurde, kann Devin entweder Computer Use oder Browser-Tools verwenden, um mit der authentifizierten Sitzung zu interagieren

Fehlerbehebung

Devin kann ein UI-Element nicht finden

Wenn Devin einen Button oder ein Element auf dem Bildschirm nicht finden kann, formuliere deine Anweisungen genauer – beschreibe die Position des Elements, seine Beschriftung oder den umgebenden Kontext. Zum Beispiel ist „Klicke auf den blauen Save-Button unten rechts im Modal-Fenster“ besser als „Klicke auf Save“.

Die App wird auf Devins Desktop nicht angezeigt

Devin läuft in einer Linux-Umgebung. Wenn Ihre Anwendung nur unter macOS oder Windows läuft, steht sie für Desktop-Tests nicht zur Verfügung. Webanwendungen funktionieren plattformunabhängig, da sie in Chrome ausgeführt werden. Stellen Sie bei Desktop-Apps sicher, dass eine Linux-Version (Build für Linux) verfügbar ist.

Devin klickt auf die falschen Elemente

Wenn Devin nicht richtig mit Ihrer Benutzeroberfläche interagiert, erstellen Sie einen Skill- oder Knowledge-Eintrag mit konkreten Navigationsanweisungen für Ihre App. Wenn Sie die einzelnen Schritte genau beschreiben („Klicken Sie oben links auf das Hamburger-Menü und wählen Sie dann im Dropdown Settings aus“), verringert das Unklarheiten.