Plasma Bigscreen im Beta-Test
Plasma Bigscreen ist eine Linux-Distribution vorrangig für den Raspberry Pi 4. Sie integriert Komponenten wie KDE Neon, Mycroft AI, KDE Plasma Bigscreen, libcec und (aktuell noch) Googles Speech-to-Text-Dienst (STT). Es ist aber geplant, für STT auf Mozillas DeepSpeech umzusteigen. In den Worten der Projektwebseite:
This project is using various open-source components like Plasma Bigscreen, Mycroft AI and libcec with a modified KDE Neon img for the Raspberry Pi 4 to allow easy accessing content-related services on your TV.
Mycroft AI
Mycroft ist ein Startup, das einen Open Source-Sprachassistenten baut und programmiert. Die Vision ist einerseits, einen Smart Speaker ähnlich dem Amazon Echo zu produzieren, andererseits - und darauf liegt das Hauptaugenmerk - einen Software-Stack zu entwickeln, der auf diesem Lautsprecher, aber auch auf vielen anderen Geräten laufen kann. Und der so weit wie möglich Open Source ist.
Das ist auch neun Jahre nach der Einführung von Apples Siri und fünf Jahre nach dem ersten Echo-Lautsprecher keine triviale Aufgabe. MyCroft hatte bereits 2015 eine erfolgreiche Kickstarter-Kampagne für eine Open Source Artifical Intelligence durchgeführt, das Produkt ist heute als MyCroft 1 bekannt. Auch für das folgende Modell MyCroft 2 wurde erfolgreich Geld eingesammelt, aber bis heute ist das Produkt aus vielerlei Gründen leider noch nicht fertig.
Allerdings hat sich der Fokus von MyCroft auch deutlich geweitet: Mittlerweile steht der Software-Stack im Mittelpunkt, die Hardware soll eine Art Referenz-Design darstellen, und es wird mit vielen anderen Open Source-Projekten zusammengearbeitet.
Mozilla DeepSpeech und Common Voice
DeepSpeech ist Mozillas STT-Implementierung. Die Modelle zur Spracherkennung werden auch mithilfe von Common Voice verfeinert. Common Voice ist eine große Datenbank mit Audio-Datensätzen, die von Freiwilligen aufgenommen und gespendet werden. Jede*r kann sich daran beteiligen, indem bereits eingesprochene Sätze verifiziert oder selbst Audio-Beiträge eingesprochen werden. Es gibt sogar einen inoffiziellen Android-Client für Common Voice.
Plasma Bigscreen auf dem Raspi im Praxistest
Zur Installation wird das Beta-Image vom 26. März 2020 bei SourceForge heruntergeladen, auf eine SD-Karte geflasht und diese dann in den Raspberry Pi 4 gesteckt.
Wird Plasma Bigscreen zum ersten Mal gestartet, muss zunächst eine (W)LAN-Verbindung hergestellt und das Gerät im Anschluss mittels einer PIN mit der MyCroft-Cloud verbunden werden. Dort können auch ein paar Einstellungen bezüglich Stimme, geograpischer Position und Zeitzone hinterlegt werden, die dann mit dem Gerät gesynct werden.
Ein Video sagt manchmal mehr als viele Worte, deswegen habe ich versucht, eine kurze Demo zu filmen. Leider habe ich nur meine Smartphone-Kamera griffbereit gehabt, entschuldigt bitte die mittelmäßige Qualität.
Die Spracheingabe steht und fällt hauptsächlich mit der Qualität des Mikrofons. Ich habe mir eine Wechip G20-Fernbedienung mit integriertem Mikrofon besorgt, weil sie offiziell empfohlen wird. Sie lässt sich als "Air Mouse" sehr gut bedienen, aber das Mic ist wirklich nicht berauschend. Beziehungsweise rauscht es doch ziemlich und ist sehr leise. Ich habe damit mal eine Aufnahme in Audacity gemacht, die sich ziemlich mies anhört.
Dennoch könnte es für die Spracheingabe ausreichen, aber ich hatte damit keinen Erfolg. Besser funktionierte es mit meinem alten Zoom H2, das ich auch im verlinkten Video benutzt habe. Zuverlässig klappt das aber auch nicht, manchmal hilft ein erneuter Reboot oder ein die Änderung der Lautstärke-Einstellung. Insgesamt musste ich dafür relativ viel ausprobieren, aber jetzt klappt es einigermaßen.
Skills
Plasma Bigscreen wird mit einer Handvoll Skills und einigen vorinstallierten Apps (z.B. Tuxracer und andere Spiele) ausgeliefert. Skills sind die kleinen Programme, die Spracheingaben entgegennehmen, verarbeiten und entsprechende Aktionen ausführen. So gibt es einen YouTube-Skill, der Videos abspielt, einen Soundcloud-Skill der Musik abspielt und einen BitChute-Skill, der Videos via BitTorrent wiedergibt.
Es ist ebenfalls möglich, sich das aktuelle Wetter und die Uhrzeit ansagen und anzeigen zu lassen. Testweise habe ich auch den Unsplash-Skill installiert, mithilfe dessen ich mir Bildschirmhintergründe einstellen kann.
Allerdings scheinen mir das nicht die gewöhnlichen MyCroft-Skills zu sein, und es lassen sich auch keine weiteren Skills aus diesem Repository nachinstallieren. Aber das kann ja noch kommen. Eventuell ist es möglich, manuell Skills (hier eine ausführliche Liste) zu installieren, das habe ich aber noch nicht weiter verfolgt.
Diese Sprachbefehle funktionierten bei mir:
youtube big buck bunny
soundcloud professor kliq
(sogar die ungewöhnliche Schreibweise wird korrekt zurückgeliefert)tell me the weather
what time is it?
Zwischendurch - das ist auch im Video zu hören - werden ab und zu Fehlermeldungen ausgegeben, die aber in meinem Versuch die Funktionalität nicht beeinträchtigt haben.
Fazit
Von Praxistauglichkeit ist Plasma Bigscreen noch weit entfernt. Aber die Beta zeigt, was jetzt schon möglich ist und wohin die Reise gehen könnte. Die Entwicklung neuer Skills dürfte dank Open Source-Unterbau nicht übermäßig schwierig sein, so dass mit einer Menge neuer Funktionen zu rechnen ist, wenn Plasma Bigscreen einmal stabil sein wird.
Kritischer scheint mir, taugliche Hardware zu finden und die Spracheingabe zu optimieren. Damit meine ich sowohl die Umwandlung von Sprache zu Text als auch die Aufnahme-Hardware. Hier ging in meinem Test die Zeit drauf, das sollte irgendwann besser out-of-the-box funktionieren.
Plasma Bigscreen ist, wie der Name schon sagt, an ein Anzeigegerät gebunden. Für mich ist es daher auch eher eine Übergangslösung auf dem Weg zum eigentlichen Open Source-Sprachassistenten, den ich in die Ecke stellen und zur Automatisierung von Aufgaben verwenden kann.
Kommentare
Ansicht der Kommentare: Linear | Verschachtelt