Meetre — Meeting-Transkripte, die deinen Mac nie verlassen
Ich habe ein Open-Source-Tool für den Mac gebaut, das ein Meeting aufnimmt, mit Whisper transkribiert, die Sprecher erkennt und mit Qwen zusammenfasst — alles lokal, ohne Cloud, ohne Konto.
Ich sitze in vielen Meetings, und wie ich sie dokumentiere, hat mich nie zufrieden gemacht. Halb zuhören und nebenbei Notizen kritzeln heißt, das eigentliche Gespräch zu verpassen. Die Aufnahme einem Cloud-Dienst geben heißt, stillschweigend zu akzeptieren, dass alles aus diesem Raum jetzt auf dem Server von jemand anderem liegt. Also habe ich Meetre gebaut.
Meetre nimmt ein Meeting auf deinem Mac auf und macht daraus ein sauberes, nach Sprechern sortiertes und zusammengefasstes Transkript. Der ganze Sinn steckt in einem Wort: lokal. Nichts verlässt deinen Rechner. Kein Upload, kein Konto, keine Nutzungsbedingungen, die über deine Worte entscheiden.
Die Modelle, die arbeiten
Die Transkription läuft auf Whisper large-v3-turbo, beschleunigt über Apples MLX-Framework, damit es auf Apple Silicon wirklich schnell ist. Wer das große Modell nicht braucht, geht auf small oder medium runter und spart Platz und Zeit.
Die Zusammenfassungen kommen von einem lokalen LLM, das das Transkript liest und festhält, was tatsächlich entschieden wurde. Standardmäßig steht das Modell auf auto und nimmt einfach das größte, das in deinen RAM passt: ein MacBook mit 8 GB landet bei qwen3.5-4b, eine 32-GB-Maschine bekommt qwen3.5-35b, und du musst keinen Gedanken daran verschwenden. Die aktuelle Generation ist Qwen3.5, ein hybrides Reasoning-Modell, das erst durch das Meeting denkt und dann schreibt, plus Gemma 4 für die beste mehrsprachige Ausgabe. Das versteckte Nachdenken wird aus dem aussortiert, was du behältst, übrig bleiben vier saubere Abschnitte: Zusammenfassung, Entscheidungen, Aufgaben, offene Fragen.
Auf die Sprechertrennung bin ich still ein bisschen stolz. Meetre nimmt dein Mikrofon und den Systemton als getrennte Spuren auf und kann so dich und alle in deinem Raum schon von den Leuten am anderen Ende unterscheiden, bevor überhaupt ein Modell läuft. Danach läuft pyannote-Diarisierung auf jeder Spur einzeln und trennt die einzelnen Stimmen pro Seite. Saubere Einzelspuren zu diarisieren ist deutlich zuverlässiger, als hinterher einen Mono-Mix zu entwirren, und das Transkript liest sich wie ein Drehbuch statt wie eine Textwand.
Jedes dieser Modelle läuft auf deiner eigenen Hardware. Die Cloud kommt nie ins Spiel.
Das beste Datenschutz-Feature ist das, über das man nie nachdenken muss. Bei Meetre verlassen die Daten den Raum einfach nie.
Steuerung über das Terminal
Die Installation ist eine Zeile. Sie lädt ein lokales, verschiebbares Python und richtet die Berechtigungen für dich ein:
cd ~ && curl -fsSL https://github.com/maxlkatze/meetre/archive/refs/heads/main.tar.gz | tar -xz && cd meetre-main && bash install.sh
Danach hält sich das CLI dezent zurück:
# Aufnahme mit Namen starten
meetre record --name "Standup"
# Eine vorhandene Audiodatei neu transkribieren
meetre transcribe call.mp3
# Das letzte Transkript in die Notizen schicken
meetre summarize
# Einstellungen ansehen oder ändern (Modell, Sprache, Schalter)
meetre config
Wer sich keine Flags merken will, nimmt meetre cli und wählt aus einem interaktiven Textmenü.
Oder einfach die Menüleiste
Wenn das Terminal nicht dein Ding ist: Das ✦-Symbol sitzt in der Menüleiste und kann alles, was das CLI kann. Ein Klick öffnet ein Einstellungs-Popup für den Meeting-Namen, das Transkriptions- und das Zusammenfassungs-Modell, die Sprache sowie Schalter für Systemton und Sprechererkennung. Die Modellauswahl ist auf deine Maschine zugeschnitten: zu große Modelle sind ausgegraut, geladene bekommen ein Häkchen, und die Reasoning-Modelle ein kleines Hirn. Während es arbeitet, siehst du den Live-Status (Aufnahmezeit, einen Download-Balken, ein drehendes Transkribiere…), und am Ende kommt eine native Benachrichtigung, dass das Meeting fertig ist. Es aktualisiert sich per git pull bei jedem Start, startet auf Wunsch beim Anmelden und bleibt sonst unsichtbar, bis du es brauchst.
Der Systemton wird direkt über ScreenCaptureKit aufgenommen, du brauchst also keinen BlackHole- oder Loopback-Treiber — genau das, was „nimm mal den Call auf" sonst in eine halbe Stunde Audio-Routing-Gefummel verwandelt.
Heraus kommt ein Markdown-Transkript mit Zeitstempeln und Sprecher-Labels, ein MP3-Backup der Aufnahme und eine Notiz in der Notizen-App.
Warum lokal, und warum offen
Privatsphäre ist der naheliegende Grund, und er stimmt. Der leisere Grund heißt Besitz. Ein Werkzeug, das auf der eigenen Hardware läuft, ist kein Abo mehr, das man mietet, sondern etwas, das einem bleibt. Es funktioniert im Flugzeug. Es funktioniert, wenn der Dienst, von dem man abhängt, gerade ausfällt. Es funktioniert in fünf Jahren noch, wenn das Startup hinter der Cloud-Alternative längst übernommen und abgeschaltet wurde. Apple Silicon ist heute schnell genug, dass „Audio an einen Server schicken" eine Entscheidung ist und keine Voraussetzung, und ich treffe lieber die andere.
Es läuft ab macOS 13 auf Apple Silicon (M1 bis M5), will am unteren Ende 8 GB RAM und etwa 6 GB Plattenplatz für die Modelle und ist standardmäßig auf Deutsch eingestellt, weil die meisten meiner Meetings deutsch sind. Andere Sprachen und automatische Erkennung sind einen Schalter entfernt. Schnell ist es auch: Ein 30-Minuten-Meeting ist auf den meisten M-Macs in zwei bis vier Minuten transkribiert, je neuer der Chip, desto flotter.
Das Ganze ist Open Source unter der MIT-Lizenz, du kannst also genau nachlesen, was es mit deinem Audio macht, bevor du ihm ein einziges Meeting anvertraust. Es liegt auf GitHub. Ich habe es zuerst für mich selbst gebaut, was meistens der einzig ehrliche Grund ist, überhaupt etwas zu bauen.