Im Interview: Eugen Gross, CEO und Gründer aiconix

Next Big Think Jan. 27, 2021

Eugen Gross arbeitete über 25 Jahre  als Kameramann, Produzent und Regisseur bei diversen TV-Produktionen. Er studierte Media Management an der Media School Hamburg und dozierte an der Medienakademie Hamburg. 2018 gründete er aiconix. Das Start-up bietet B2B-Lösungen an, die darauf abzielen, die Produktivität im Medien- und Kreativbereich zu verbessern, indem sie ihren Kunden einen einfachen und schnellen Zugang zu den neuesten KI-Innovationen ermöglichen. Ihre Plattform, ein KI One-Stop-Shop, bietet eine Reihe von Funktionen wie Gesichtserkennung, Speech-to-Text-Konvertierung, Beschriftung von Bildern und Videos sowie zusätzliche eigene Features. Wir haben mit Eugen Gross unter anderem über seinen Weg in die Tech-Branche, seine Faszination für KI und die größten Herausforderungen für junge Start-ups gesprochen.

Was macht Ihre Faszination für künstliche Intelligenz aus?

Man kann mit künstlicher Intelligenz Ideen verwirklichen, die früher nicht möglich waren. Ich komme ursprünglich vom Fernsehen und habe nie damit gerechnet, dass ich in der Softwarebranche landen werde. Wenn man aber das Prinzip von künstlicher Intelligenz verstanden hat, dann gibt es in jeder Branche die Möglichkeit, Dinge auszuprobieren, die früher völlig undenkbar waren. Deswegen fasziniert mich auch der Ansatz, den die finnische Regierung verfolgt: Jedem ein Grundverständnis von KI zu geben! Denn nur dann bist du in der Lage, mit KI einen Mehrwert in deinem Unternehmen, in deiner Branche und in deinem Umfeld zu schaffen.

Es ist schon interessant, dass ich so begeistert bin. In der Schule hatte die Klasse unter mir als erster Jahrgang einen Computerkurs. Ich dachte mir, ich bin ein Jahr zu spät, aber das interessiert mich auch gar nicht. Das Interesse kam erst später, als ich nach Berlin gezogen bin. Im Umfeld meiner Freundin gab es ganz viele Computer-Begeisterte, die an der TU promovierten. Als ich dann mit einem 14,4MB-Modem in 8 Stunden eine 1,4MB Floppy-Disk in meine Nachbarschaft übertragen habe, hielt ich mich für den größten Hacker. Das technische Interesse hat damals begonnen.

Welche Herausforderungen stellen sich Ihnen im Bereich KI momentan?

Es ist in Deutschland wahnsinnig schwierig, Trainingsmaterial für Machine Learning zu bekommen. Wir bauen momentan ein eigenes Face Recognition Modell. Anstatt dem Modell 100 Mal ein Bild von einer Person zu zeigen und trainieren, dass das Person X ist bis die Maschine dann Person X auch erkennt, soll sie gar nicht wissen, wer die Person ist, sondern sie anhand von biometrischen Merkmalen automatische erkennen.

Meine Kunden haben das Problem, dass sie selten mit internationalen Popstars oder Politikern arbeiten, sondern mit regionalen Persönlichkeiten. Und wenn man zum Beispiel die Bürgermeister von Spandau, Pinneberg oder Dachau sucht, erkennt Google diese in der Regel nicht. Ein regionales Medienhaus hat solche Bilder aber zigfach im Archiv und muss sie finden. Das funktioniert nur, wenn es ein Modell gibt, das sich nicht mit der Person beschäftigt, sondern allgemein sagt „Diese Person sieht so aus, bekommt eine ID und diese ID kann ich immer wieder finden“.

Wir haben ein solches Modell trainiert und versucht, Trainingsmaterial zu bekommen. Viel Trainingsmaterial, das im Netz verfügbar ist, darf allerdings nur für die Forschung verwendet und nicht betriebswirtschaftlich ausgewertet werden. Dieses Material kam für uns also nicht in Frage.  Wir sind deshalb an andere Akteure herangetreten und haben gefragt, ob sie uns unterstützen können. Einige Fotoagenturen haben das auch gemacht. Aber diejenigen, die sich eigentlich auf die Fahne schreiben, KI in Deutschland zu fördern, haben uns bisher nicht unterstützt. Wir haben z.B. die Pressestelle des Bundestags angefragt. Der Bundestag verfügt über tausende von beschrifteten Bildern. Wir haben gefragt, ob wir Bilder von Seehofer, Söder etc. haben dürfen. Wir würden sie auch anonymisieren und nur als Trainingsmaterial, nicht personenbezogen verwenden. Es hat sehr lange gedauert, doch schlussendlich kam die Antwort: Sie seien sich nicht sicher, ob sie das dürfen. Es sei nicht definitiv verboten, aber auch nicht konkret erlaubt.

Das zeigt diese typische Haltung in Deutschland: Wir gehen nicht nach vorne und sagen „wir machen das, wir probieren das erstmal aus“. Sondern man ist vorsichtig, zurückhaltend und macht lieber nichts aus Angst vor Fehlentscheidungen.

Eine Freundin von mir, die in Austin ein Start-up gegründet hat, hat etwas ganz anderes erlebt: Sie ging zur Bürgermeisterin, wollte alle anonymisierte Daten zum Nahverkehr als Trainingsmaterial und war ganz perplex, dass sie diese einfach bekommen hat. Natürlich herrschen dort andere Datenschutzregeln als bei uns, aber es herrscht auch eine offenere Haltung und Experimentierfreudigkeit. Unsere größte Challenge als KI-Start-up ist darum tatsächlich, an Trainingsmaterial zu kommen. Es gibt zu wenig Material und es gibt vor allem zu wenig Bereitschaft dazu, junge Unternehmen einfach mit seinen Inhalten und Daten zu unterstützen.

Woran arbeiten Sie momentan bei aiconix im Bereich der KI?

Aktuell arbeiten wir einerseits an unserer Plattform, auf der wir die Dienste vieler Anbieter zusammenfassen und ihre Daten veredeln. Die Idee zur Plattform ist entstanden, als ich selbst nach einer Lösung für die zuverlässige Transkription von Audiofiles suchte. Ich habe festgestellt, dass es sehr viele Services am Markt gibt: Google, Microsoft, Amazon – dutzende Anbieter. Jeder davon ist gut in bestimmten Bereichen, aber nie in allem. Der eine kann gut Englisch, der andere eher Russisch. Die eine Anwendung ist stark in der Gesichtserkennung, die andere in der Spracherkennung und Übersetzung. Als wir für uns festgestellt haben, wir brauchen eine Plattform, die einzelne Provider vereint, haben wir gesehen: Der Markt braucht das auch! Unsere ersten Kunden haben uns gesagt, sie wollen zwar KI einsetzen, sich aber nicht mit dutzenden Anbietern auseinandersetzen. Und daraus ist entstanden, was die Plattform jetzt ist. Ein One-Stop-Shop für KI-Anwendungen für Medieninhalte.

Anderseits arbeiten wir aber auch an eigenen Modellen. Es ist wichtig, dass wir uns auch von den großen Anbietern abgrenzen. Dass wir beispielsweise eine eigene Gesichtserkennung haben, die unabhängig von den GAFAs ist.

Was macht die KI-Lösung bei aiconix so besonders?

Besonders ist, dass wir ein One-Stop-Shop sind. Wir öffnen einem Unternehmen die gesamte Welt der KI an einem einzigen Ort. Ich vergleiche es immer mit der Hotelbuchungsmaschine: Der Kunde möchte vielleicht nicht mit einzelnen Hotels, Fluggesellschaften, Autovermietungen etc.  jeweils einzelne Verträge abschließen. Sondern er geht zu einer Buchungsmaschine, wo er alles an einer Stelle zusammen buchen kann.  Genauso funktioniert auch unsere Lösung: Der Kunde muss sich nicht darum kümmern, welcher Provider der Beste ist. Der Kunde gibt uns den Auftrag und den Use Case und sagt uns beispielsweise „Ich möchte den Besten“ oder „ich möchte den Günstigsten“. Und wir erledigen das für ihn. Der Kunde hat zudem eine Ausfallsicherheit. Wenn etwas Neues dazukommt, kann er umschalten und braucht sich um diese Dinge nicht zu kümmern. Wir unterstützen ihn mit unserer Expertise und er hat nur eine Schnittstelle zu uns. Das macht unserer Lösung besonders.

Was möchten Sie mit KI bewegen?

Ich möchte, dass die Kreativen sich um das kümmern, was sie am besten können: Content kreieren. Sie sollen nicht etwas abtippen müssen oder nach Bildern suchen. Wie oft saß ich am Schnittplatz und habe diese eine Einstellung gesucht, die ich vor drei Wochen gedreht hatte. Ich wusste, die liegt irgendwo auf dem Server. Aber ich konnte nicht einfach Steuerung-F drücken und nach der Szene mit dem Sonnenuntergang oder mit der Person X suchen. Diese einfachen Aufgaben kann eine KI wunderbar übernehmen. Wir wollen, dass sich die Leute tatsächlich wieder mehr um ihren Job kümmern und nicht um die Administration, das Sortieren oder das Suchen.

Wie profitiert der Mittelstand von Ihrem Angebot?

Früher haben wir nur Medienunternehmen adressiert. Aber inzwischen ist eigentlich jedes Unternehmen ein Medienunternehmen. Unser Zielmarkt sind alle Unternehmen, die Medieninhalte besitzen. Ob das jetzt ein Krankenhaus oder ein Landtag ist – Medieninhalte müssen irgendwo gespeichert werden, alle haben MAM/DAM Systeme im Hintergrund. Betriebswirtschaftlich ist unser Markt also plötzlich viel größer geworden.

Auch im Mittelstand nutzt jeder Medienhinhalte und kann dafür KI nutzen. Am einfachsten können wir es bei der Sprache festmachen. Egal in welcher Branche man arbeitet: Man verbringt viel Zeit in Meetings, muss gesprochenes in Text umwandeln, hat Konferenzen, die zusammengefasst werden müssen. Es beginnt fast immer mit der Sprache.

Wir haben eine App gebaut, die in Slack genutzt werden kann. Man schiebt per Drag and Drop ein Audio-File in Slack und bekommt die Transkription sowie Untertitel zurück. Und das für ein paar Euro im Monat. Man braucht keine Technik, muss nicht die IT-Abteilung involvieren. Man bucht einfach eine App in Slack und hat damit bereits einen Mehrwert. Und in dieser App steckt KI drin.

Das hilft allen: Egal, ob es um den Studenten geht, der 100 Interviews für seine Doktorarbeit zusammenfassen muss oder um den Mittelständler, der Audiodateien transkribieren will. Egal, ob eine Fernsehproduktion Untertitel braucht oder ein Krankenhaus für ein Patientenvideo. Oder denken Sie an Journalisten, die mit dem iPhone Interviews aufnehmen: Kaum in der Redaktion angekommen, schon ist das Interview transkribiert. Das ist für so viele ein großer Mehrwert für Cent-Beträge. Es ist keine Science-Fiction, sondern ein greifbares Tool, das in vielen Situationen im Leben sehr hilft, intelligent automatisiert und viel Arbeit abnimmt.

Wir machen auch Transkriptionen für Konferenzen, das ist gerade in der aktuellen Corona-Zeit hilfreich. Wie oft saß ich schon stundenlang in einer Konferenz, habe danach ein Video bekommen und konnte nicht einfach Steuerung-F drücken und mit einem Stichwort nach einer ganz bestimmten Sequenz suchen.

Auch Live-Transkriptionen sind möglich. Bei einem Livestream werden also automatisch Untertitel hinzugefügt. Das funktioniert zwar noch nicht immer 100 Prozent fehlerfrei. Doch viele unserer Kunden sagen, sie seien gesetzlich verpflichtet, barrierefreie Angebote zu haben. Unser Angebot ist dafür eine sehr große Hilfe, da werden kleine Fehler akzeptiert. Die Live-Transkription ist auch leicht verzögert möglich. In unserem Live Editor kann ein Redakteur die Untertitel nochmal prüfen und Korrekturen vornehmen, bevor der Stream online geht.

Wie wird der Einfluss von künstlicher Intelligenz in zehn Jahren aussehen?

Aktuell wird sehr viel über KI diskutiert und gesprochen. Das wird in zehn Jahren überhaupt nicht mehr der Fall sein. KI wird überall drin sein und ganz einfach zum Alltag gehören. Es wird kein Hype-Thema mehr sein, es wird keine Headlines in der Zeitung und keine KI-Beauftrage mehr geben. Das Thema wird angekommen sein.

Man muss aber auch ehrlich sein und sagen: Einfache Jobs werden wegfallen. Darunter werden einige Leute wirklich leiden. LKW-Fahrer ist beispielsweise kein Zukunftsjob mehr, wenn es selbstfahrende Fahrzeuge gibt. Oder betrachten wir die Branche, aus der ich komme: Einen einzigartigen Spielfilm oder einen kreativen Werbespot - den wird man schwerlich mit der KI machen können. Denn die KI orientiert sich immer daran, was es schon gab und was funktioniert hat. Sie fragt sich, wie kam die Sache an, wie kann man sie verbessern. Um etwas ganz Neues, ganz anderes zu machen – da wird weiterhin der Kreative gefragt sein. Aber nicht um Nachrichtenbeiträge zu produzieren, bei denen sechs, sieben Mal am Tag Bilder aus 20 Quellen zusammengeschnitten und ein Text geschrieben werden muss. Ich glaube, diesen Job werden KIs übernehmen.

Früher, als ich noch Kameramann war, hatten wir noch viel Zeit. Wir sind zu fünft rausgefahren und haben drei Schnitttage gehabt. Das ist heute alles sehr viel komprimierter. Heute gibt es automatisierte Kameras, die den Kameramann verdrängen. Manches Berufsbild wird sich verändern oder obsolet werden. Beim Fußballspiel wird es zwar noch 20 Kameras, aber nicht mehr 20 Kameraleute geben. Jede Kamera wird programmiert sein: Kamera 1 verfolgt diesen Spieler, Kamera 2 den anderen, Kamera drei hat immer die Totale im Blick.

Man muss sich tatsächlich um diese Menschen Gedanken machen und für sie Lösungen suchen. Wie immer gibt es aber auch hier Optimisten und Pessimisten. Im Moment schaue ich mit aiconix auf den positiven Teil der KI – und der macht mir extrem viel Spaß.

Wollen Sie gleich ausprobieren, wie die aiconix Speech-to-Text App in Slack funktioniert? Jetzt bis Ende März mit 25% Rabatt testen! Einfach unter https://slackbot.aiconix.cloud/ registrieren und den folgenden Voucher verwenden: FTC2021

Beim Newsletter anmelden und keinen Artikel mehr verpassen

Die spannendsten Artikel der Woche jeden Freitag direkt in Ihr Postfach

* Pflichtfeld

Dominic Hauser

Dominic Hauser ist Redakteur bei fintechcube. Davor war er in Bern als politischer Redakteur tätig und beschäftigte sich nach seinem Umzug nach Berlin mit der Digitalisierung des Public Sectors.