banner
Heim / Nachricht / Der Aufstieg von Open
Nachricht

Der Aufstieg von Open

Apr 08, 2023Apr 08, 2023

Seth Grief-Albert

Folgen

QMIND Technology Review

--

Hören

Aktie

Technologie ist ein interessantes Phänomen. Es kann in der einen oder anderen Form eine ganze Weile existieren, versteckt oder unzugänglich, bis es eines Tages scheinbar vollständig geformt zum Vorschein kommt und dann von der Öffentlichkeit gierig konsumiert wird. Der neueste Goldrausch des 21. Jahrhunderts steht vor der Tür. Das Zeitalter der vermarkteten künstlichen Intelligenz (KI) schreitet immer schneller voran und mit ihr wird der Kampf um ihre potenzielle Macht und Gewinne ausgetragen.

Die „KI“, die eine außerordentliche Verbreitung erlangt hat, lässt sich treffender als ihre spezifische Untergruppe, die Large Language Models (LLMs), bezeichnen, aber in der Populärkultur gibt es eine Möglichkeit, Schlagworte zu verwenden, die sich auf das gesamte Gebiet beziehen. Viele haben vielleicht zum ersten Mal von „dieser neuen KI-Technologie“ von den Medien oder einem Familienmitglied gehört und nicht über ihren üblichen Twitter-Feed oder technischen Blog – so schnell verbreitet sie sich auf dem Markt. Der Bereich der KI macht seit Jahren unglaubliche Fortschritte, aber der Höhepunkt der Verbraucherexplosion scheint Anfang bis Mitte Dezember 2022 gewesen zu sein, als OpenAI ChatGPT auf einer Webseite der Öffentlichkeit zugänglich machte. Die folgende Grafik spricht für sich:

Es ist klar, dass die Menschen hungrig danach sind, mit KI-Technologie zu interagieren und sie zu nutzen. Stellen Sie sich vor, Sie wären ein Entwickler, der dieses Bild sieht, oder der Geschäftsführer eines riesigen Technologiekonzerns oder der Gründer eines Startups. In Anlehnung an die Geschichte können wir die aktuelle Ära der KI mit dem Mittelalter vergleichen. Die Herrscher besaßen Macht und Reichtum und bewachten ihre Burgen, während das Bürgerliche ausgeschlossen blieb. Von Zeit zu Zeit versuchten umherziehende Barbaren, die Herrscher an sich zu reißen. Große Konzerne (Google, Meta, Microsoft usw.) nehmen den Thronsaal ein, während Entwickler und Akademiker die Rolle des Außenseiters einnehmen. Wie entwickelt sich diese Geschichte? Kehren wir zum Anfang des Jahres 2023 zurück.

ChatGPT war seit über einem Monat nicht mehr verfügbar und der Hype um Large Language Models war in vollem Gange. Aber was genau ist ein LLM? Sie entstehen als „Grundlagenmodelle“ oder als spezialisierte Algorithmen, die lange Trainingszeiten für riesige Textdatenmengen durchlaufen haben. Das Ergebnis dieses Prozesses ist ein Modell, das auf Sprachanfragen mit angemessen klingenden Antworten reagieren kann. Diese Modelle verfügen über eine große Anzahl von Gewichten und Parametern, die für unsere Zwecke als alle im Training erlernten Muster angesehen werden können. Diese Gewichte und Parameter sind formbar und können fein abgestimmt werden. Hierbei wird den LLMs eine spezifischere Aufgabe als die allgemeine Textrekonstruktion übertragen. Die beliebteste Feinabstimmungsaufgabe, die wir bisher gesehen haben, war die natürliche Konversation, aber an zweiter Stelle steht die Aufgabe des Sprachmodells, Textanweisungen zu befolgen.

Das Grundmodell von ChatGPT ist GPT-3, das mithilfe von Reinforcement Learning with Human Feedback (RLHF) für die Konversationsinteraktion optimiert wurde und zu GPT-3.5 wurde. Im Wesentlichen sahen sich echte Menschen eine Reihe von Antworten an, die das LLM gegeben hatte, und wählten diejenigen aus, die den tatsächlichen Gesprächen am ähnlichsten waren. Diese Feinabstimmung durch den Menschen machte aus einem Modell für prädiktiven Text (das es bereits seit über einem Jahr gab) das globale Wunderwerk, das wir heute kennen. Feinabstimmung ist ein leistungsstarkes Werkzeug, das das Datenchaos in den Anschein von Ordnung verwandeln kann.

Aber OpenAI war nicht der einzige Spieler im Spiel. In aller Stille bereitete Meta die Veröffentlichung seines eigenen Gründungsmodells vor. Am 24. Februar 2023 wurde LLaMA (Large Language Model Meta AI) der Welt vorgestellt. Es dauerte nicht lange, bis die Dinge schief gingen.

Schneller Vorlauf weniger als eine Woche. Der Nachmittag des 2. März 2023 markierte einen Neuanfang für die KI-Dezentralisierung: Eine Datei mit den Gewichtungen von LLaMA wurde von einem anonymen Benutzer auf der Social-Media-Seite 4chan an die Öffentlichkeit geleakt. Dies löste eine Explosion des Interesses aus, die die Welt der KI im Sturm eroberte. Es dauerte nicht lange, bis die Gewichte über das Internet ihren Weg in das Gebiet von GitHub und HuggingFace fanden – im Wesentlichen die Titelseite des Internets für Software bzw. KI.

Die Schleusen waren geöffnet. Mit den Gewichten von LLaMA, die jeder zur Hand hat, kann jeder die Kraft des Fundamentmodells nutzen, das ihm in die Hand gegeben wird. Open-Source-Software ist für Einzelpersonen zugänglich, um Code in einem globalen Netzwerk zu entwickeln. Denken Sie an Wikipedia, wo jeder auf der Welt eine riesige Enzyklopädie bearbeiten kann – die Enzyklopädie von Open-Source-Software kann stattdessen als dezentrale Codebasis betrachtet werden. Es ist öffentlich und nicht isoliert, was es zugänglich und daher bei Softwareentwicklern auf der ganzen Welt unglaublich beliebt macht. Es ist auch die perfekte Petrischale für KI-Experimente.

Stanford beteiligte sich schnell an der LLaMA-Aktion. Seit dem ersten Leak hatten sie etwas mehr als eine Woche lang an der Feinabstimmung des Sprachmodells gearbeitet, es ALPACA getauft und am 13. März veröffentlicht. Für den erstaunlich niedrigen Preis von 600 US-Dollar hatten sie tatsächlich hochmoderne Ergebnisse bei der Unterrichtsverfolgung, einem beliebten Zweig der Sprachmodellierung, erzielt. Aber sie waren immer noch an das Meta-Urheberrecht gebunden, oder? So in etwa. Neben ALPACA führten die neuen Gewichte zur Einführung einer Feinabstimmung mit niedrigem Rang, die die Freiheit von Metas Eigentumsrechten ermöglichte. Diese Strategie ermöglichte es jedem, Stanfords Prozess auf Consumer-Hardware in bemerkenswert kurzer Zeit zu wiederholen: Wir sprechen von einem leistungsstarken Computer und ein paar Stunden.

In einem Ansturm von Anwendungen, die auf LLaMA basieren, veröffentlichte eine etablierte Entwicklergruppe namens Nomic AI ein monumentales Projekt, GPT4All:

GPT4All ist ein Ökosystem zum Trainieren und Bereitstellen leistungsstarker und angepasster großer Sprachmodelle, die lokal auf CPUs der Verbraucherklasse ausgeführt werden.

– Nomische KI

Mit diesem Open-Source-Ökosystem, das auf gesammelten Sprachmodellen und betrügerischen Daten basiert, könnten nun noch mehr Menschen für sich selbst bauen. Sie möchten ein LLM durchführen, ohne eine Verbindung zum Internet herstellen zu müssen? Du hast es. Privatsphäre? Eingebaut.

Mit dieser KI-Spektakel boomte alles im Open-Source-Bereich – es wurde von Tag zu Tag schneller, billiger und verbreiteter. Dies erregte die Aufmerksamkeit einiger großer Player. Am 4. Mai wurde ein internes Dokument von Google mit dem Titel „We Have No Moat and Neither Does OpenAI“ durchgesickert. Nach Meinung eines Forschers der Institution wurde das rasante Tempo der LLM-Entwicklung seit Anfang 2023 dokumentiert und dargelegt, warum Open-Source in direkter Konkurrenz zur Google-Forschung (oder genauer gesagt zu Google Deepmind) steht. Der titelgebende „Graben“ passt wunderbar zu unserer mittelalterlichen Burg-Analogie: Wie sollen große Technologiekonzerne ihre KI-Fortschritte verteidigen, wenn die Open-Source-Welt sie zu überfluten scheint?

„Wir brauchen sie mehr als sie uns brauchen“

Versetzen Sie sich in die Lage eines KI-Forschers bei Google. Wenn Sie die Beschleunigung der Open-Source-KI-Forschung mit Zeitskalen von Tagen und Wochen aufmerksam verfolgen, könnten Sie sich als Teil eines riesigen Unternehmens zurückgelassen fühlen, von dem angenommen wird, dass es langsamer und bewusster arbeitet. Denn so ist ein Großkonzern aufgebaut: intensive Marktanalyse, Konformität mit bestehenden Richtlinien, strategische Vorgaben. Es ist sicherlich schwierig, dem allgegenwärtigen Wirbelsturm des KI-Hypes zu widerstehen.

Es liegt in der Natur der Privatunternehmen, Talente zu isolieren, um sich einen Wettbewerbsvorteil zu sichern. OpenAI begann als gemeinnützige Organisation, die öffentlich zugängliche Forschung förderte, während sie heute als private Organisation ihre wertvollen Fortschritte für sich behält. Aber ist das metaphorische Silo von Big Tech tatsächlich in Gefahr? Ist die Burg dazu verdammt, von Open-Source-Barbaren überfallen zu werden, oder, was noch katastrophaler ist, sie obsolet zu machen?

Im Gegenteil, ich glaube, dass diese Burgen von Natur aus gut verteidigt sind. Es könnte unverantwortlich sein, sich das baldige Ende des Wettbewerbsvorteils von Big Tech vorzustellen. Lassen Sie uns ein paar „Gräben“ durchgehen, die die Position dieser Giganten auf dem Markt festigen.

Benutzer: Mehr als die Hälfte aller derzeit lebenden Menschen sind Google-Nutzer. Eine astronomische Anzahl von Menschen nutzt auch Produkte und Dienste von Microsoft, Meta und jetzt OpenAI. Seien wir ehrlich: Die meisten Menschen wissen nicht, wie sie mit der neuesten Open-Source-Software interagieren sollen, geschweige denn, was „Forken eines GitHub-Repositorys“ bedeutet. ChatGPT brauchte eine intuitive Benutzeroberfläche, um weltweite Runden zu machen, und wir sollten darauf achten, technologischen Fortschritt nicht mit Technologieeinführung zu verwechseln. Menschen sind an Software gewöhnt, die bereits in ihrem Leben vorhanden ist. Auch wenn die Optionen von Drittanbietern günstiger, fortschrittlicher oder privater sind, vertrauen die meisten auf die zuverlässige Verpackung, die sie kennen und lieben.

Barrierefreiheit ist äußerst wichtig, um Verbraucher zu erreichen. Wir können auf eine aktuelle Anwendung der bildgenerierenden KI zurückblicken, die dies veranschaulicht: Lensa AI, die mit der Veröffentlichung von ChatGPT Ende November 2022 zusammenfiel. Lensa wurde über eine bereits bestehende Foto-App veröffentlicht und ermöglichte es Ihnen, ein paar Bilder von sich selbst hochzuladen und erhalten Sie eine Reihe von KI-generierten Avataren. Die App explodierte und erzielte in bemerkenswert kurzer Zeit einen enormen Gewinn. Es stellte sich heraus, dass das gleiche Foto-zu-Avatar-Konzept bereits einige Wochen vor der Veröffentlichung von Lensa existierte – der Unterschied bestand darin, dass sich die bereits bestehende Plattform zur Avatar-Generierung auf einer Website und nicht in einer App befand. Verbraucher, die sich für KI zur Bilderzeugung interessieren, erreicht man am besten über ihr Mobilgerät und nicht über ihren Computer. Interessanterweise war es der Engpass auf dem Bilderzeugungsmarkt, der den LLMs zum Aufblühen verhalf! OpenAI stellte ChatGPT über eine einfache Webseite der Öffentlichkeit zur Verfügung. Eine plausible Erklärung für diesen Bereitstellungsunterschied war das Endergebnis für den Benutzer. Das Erstellen eines coolen Avatars zum Versenden an Ihre Freunde ist auf Ihrem Telefon einfacher, während es im Internet bequemer ist, ein Programm wie ChatGPT zum Erledigen Ihrer Hausaufgaben zu verwenden. Microsoft folgte dem Beispiel von OpenAI und veröffentlichte Bing Chat über seinen Browser für eine Benutzerbasis von Millionen.

Computerplattformen: Kürzlich habe ich die Analogie gehört, dass, wenn die KI mit der Lokomotive verwandt ist, die Rechenleistung ihre Kohle ist. Es kann hilfreich sein, auf die Geschichte der industriellen Revolution zurückzublicken. Wer wurde reich? Die Gründung einer Industrie war natürlich lukrativ, aber denken Sie auch an den großen Kohlebergbau, der für diese Zeit so charakteristisch war! Die Realität beim Hosten großer KI-Modelle ist, dass sie viel Energie und eine robuste Infrastruktur erfordern. Die einzigen Akteure, die dieser extremen Nachfrage wirklich gerecht werden können, sind große Technologiekonzerne: Google mit seiner Cloud, Microsofts Azure und Amazons AWS. Selbst wenn die Open-Source-Forschung jedes einzelne KI-Labor auf revolutionäre Weise ausschaltet, verkaufen diese Giganten die Munition.

Erstklassige Forschung und Entwicklung: Die größten Technologiekonzerne haben einige der besten Köpfe in verschiedenen KI-Bereichen geschnappt. Was Open Source von einem bestimmten Forschungslabor unterscheidet, ist die enorme Menge an guter Arbeit, die im Fall von LLMs einen gewissen Vorteil gegenüber konzentrierterer Forschung von hervorragender Qualität zu haben scheint. Die besten Silos können bei Bedarf unglaublich effektiv sein.

Der Wettbewerbsvorteil großer Technologiekonzerne besteht darin, dass sie Gewinne und Kosten anstreben. Sie sind Maschinen, die ständig daran arbeiten, Daten in Einnahmen umzuwandeln. Es wird deutlich, dass ihnen – zumindest in den Augen dieser Konzerne – betrügerische Entwicklergemeinschaften nicht im Weg stehen werden. Angesichts all der vertrauensvollen Benutzer, die sie sich nur wünschen können, der Macht, Modelle zu hosten und zu verbreiten, und der Aussicht auf die nächste Generation der KI-Forschung wäre es naiv, den bevorstehenden Untergang dieser durch den Wettbewerb gesicherten Bastionen zu behaupten.

Der Stand des KI-Fortschritts muss berücksichtigt werden. LLMs basieren auf Transformatormodellen, und die Weiterentwicklung dieser Modelle kratzt nur an der Oberfläche des Potenzials. Transformers wurden der Welt durch die bahnbrechende Arbeit „Attention Is All You Need“ aus dem Jahr 2017 vorgestellt. Es kann hilfreich sein, sich Forschung wie das Klettern auf einen Baum vorzustellen, wobei der Transformatorbaum ziemlich hoch erscheint und viele Früchte trägt.

Obwohl dies derzeit lukrativ ist, muss möglicherweise irgendwann ein neuer Baum gepflanzt werden: einer, der die nächste Generation des Fundamentmodells und die damit verbundenen Änderungen einleitet. Auf dem Weg zur Verbesserung der allgemeinen Fähigkeiten künstlicher Intelligenz sind Sprachmodelle vielleicht nicht das A und O. In einem Szenario, in dem der Hype um diese Modelle nachlässt, würde ich mein Geld in Forschungslabore bei Institutionen wie Google und OpenAI investieren, die neuartige Fortschritte machen, und sei es nur wegen der Tatsache, dass aus ihnen bereits eine enorme Menge bahnbrechender Arbeit hervorgegangen ist.

Seit dem Dokumentenleck am 4. Mai hat sich in Bezug auf die Bereitstellungsstrategie von Google viel getan. Bei der jüngsten I/O, einer jährlichen Entwickler-Showcase-Veranstaltung, war KI ein Hauptthema:

Die Zukunft der KI auf der Grundlage des aktuellen Wissens vorherzusagen, ist eine schwer zu fassende Aufgabe. Besteht die Möglichkeit, dass die Macht modernster künstlicher Intelligenz in die Hände ethischer Akteure gelangt? Die Ausbildung von Stiftungsmodellen ist unglaublich teuer und wird fast ausschließlich von großen Unternehmen durchgeführt. Es ist unwahrscheinlich, dass sich das in absehbarer Zeit drastisch ändern wird. Wenn man sich darauf konzentriert, Forschung und Technologie den Verbrauchern zugänglich zu machen, scheinen die Wege der Markteinführung am wichtigsten zu sein. Es sollte jedoch unterschieden werden: Forschung und Entwicklung sind nicht unbedingt auf die Ziele des Technologieeinsatzes ausgerichtet. Big Tech wird ein mächtiger Akteur bleiben, und sei es nur in seiner Fähigkeit, Menschen dazu zu bringen, KI in ihrem Alltag zu nutzen.

Wir haben gesehen, dass unglaubliche Fortschritte extrem schnell erzielt werden können, wenn der Öffentlichkeit über Open-Source Zugang zu wettbewerbsfähigen Ressourcen gewährt wird. Stellen Sie sich eine Welt vor, in der KI-Forscher ihre Ideen schneller in die Umsetzungsphase bringen und größere Anstrengungen unternehmen könnten, um die Spitze ihres Fachgebiets in Angriff zu nehmen. Mit den richtigen Richtlinien ist dies meiner Meinung nach einem Modell des Unternehmensmonopols auf modernste Forschung vorzuziehen.

Das wirft die Frage auf: Was für eine Welt nähern wir uns? Werden sich Forscher und Entwickler weiterhin auf Konzerngiganten verlassen, die ihnen Grundlagenmodelle zur Verfügung stellen? Wie wird sich die Landschaft der Open-Source-KI weiterentwickeln und wird sie den Test der Zeit bestehen? Auf diese Fragen gibt es keine eindeutigen Antworten. Eines ist klar: Wir stehen erst am Anfang dieses Paradigmas.

Jeder Weg, der genau bis zum Ende verfolgt wird, führt genau nirgendwo hin. Erklimmen Sie den Berg ein wenig, um zu testen, ob es sich um einen Berg handelt. Von der Spitze des Berges aus kann man den Berg nicht sehen.

– Frank Herbert | Düne

Wenn Sie Fragen oder Kommentare haben, können Sie mich gerne auf LinkedIn kontaktieren!

Dieser Artikel wurde für QMIND geschrieben – Kanadas größte studentische Organisation für disruptive Technologie und künstliche Intelligenz.

Benutzer: Computerplattformen: Erstklassige Forschung und Entwicklung: