Stefan Wilson schied nach einem Trainings-Shunt aus dem Indy 500 aus
Mar 06, 2023F1-Fans dachten alle das Gleiche über den Q2-Shunt der Mercedes-Teamkollegen
Mar 08, 2023[Neueste] Globale (SST) Marktgröße/Marktanteil für Festkörpertransformatoren im Wert von 240 Millionen US-Dollar bis 2030 bei einer durchschnittlichen jährlichen Wachstumsrate von 16 %: Benutzerdefinierte Markteinblicke (Analyse, Ausblick, Führungskräfte, Bericht, Trends, Prognose, Segmentierung, Wachstum, Wachstumsrate, Wert). )
Mar 10, 2023Der Markt für optische Stromtransformatoren soll bis 2029 60,07 Mio. USD erreichen und mit einer durchschnittlichen jährlichen Wachstumsrate von 8,2 Prozent wachsen
Mar 12, 2023Transformers: Aufstieg der Bestien Rezension
Mar 14, 2023Vision Transformers meistern Herausforderungen mit neuem Patch
Veröffentlicht
An
Von
Technologien der künstlichen Intelligenz (KI), insbesondere Vision Transformers (ViTs), haben sich mit ihrer Fähigkeit, Objekte in Bildern zu identifizieren und zu kategorisieren, als äußerst vielversprechend erwiesen. Allerdings wurde ihre praktische Anwendung durch zwei wesentliche Herausforderungen eingeschränkt: die hohen Anforderungen an die Rechenleistung und die mangelnde Transparenz bei der Entscheidungsfindung. Jetzt hat eine Gruppe von Forschern eine bahnbrechende Lösung entwickelt: eine neuartige Methodik namens „Patch-to-Cluster Attention“ (PaCa). PaCa zielt darauf ab, die Fähigkeiten der ViTs bei der Identifizierung, Klassifizierung und Segmentierung von Bildobjekten zu verbessern und gleichzeitig die seit langem bestehenden Probleme des Rechenaufwands und der Klarheit der Entscheidungsfindung zu lösen.
Transformatoren gehören aufgrund ihrer überlegenen Fähigkeiten zu den einflussreichsten Modellen in der KI-Welt. Die Leistungsfähigkeit dieser Modelle wurde durch ViTs, eine Klasse von Transformatoren, die mit visuellen Eingaben trainiert werden, auf visuelle Daten ausgeweitet. Trotz des enormen Potenzials, das ViTs bei der Interpretation und dem Verstehen von Bildern bieten, wurden sie durch einige große Probleme gebremst.
Erstens erfordern ViTs aufgrund der Art der Bilder, die große Datenmengen enthalten, erhebliche Rechenleistung und Speicher. Diese Komplexität kann für viele Systeme überfordernd sein, insbesondere beim Umgang mit hochauflösenden Bildern. Zweitens ist der Entscheidungsprozess innerhalb von ViTs oft kompliziert und undurchsichtig. Für Benutzer ist es schwierig zu verstehen, wie ViTs zwischen verschiedenen Objekten oder Merkmalen in einem Bild unterscheiden, was für zahlreiche Anwendungen von entscheidender Bedeutung ist.
Die innovative PaCa-Methodik bietet jedoch eine Lösung für beide Herausforderungen. „Wir begegnen der Herausforderung im Zusammenhang mit dem Rechen- und Speicherbedarf, indem wir Clustering-Techniken verwenden, die es der Transformatorarchitektur ermöglichen, Objekte in einem Bild besser zu identifizieren und zu fokussieren“, erklärt Tianfu Wu, korrespondierender Autor einer Arbeit über die Arbeit und außerordentlicher Professor für Elektro- und Informationstechnik an der North Carolina State University.
Der Einsatz von Clustering-Techniken in PaCa reduziert den Rechenaufwand drastisch und verwandelt das Problem von einem quadratischen Prozess in einen beherrschbaren linearen Prozess. Wu erklärt den Prozess weiter: „Durch Clustering können wir daraus einen linearen Prozess machen, bei dem jede kleinere Einheit nur mit einer vorgegebenen Anzahl von Clustern verglichen werden muss.“
Clustering dient auch der Klärung des Entscheidungsprozesses in ViTs. Der Prozess der Clusterbildung zeigt, wie das ViT entscheidet, welche Merkmale für die Gruppierung von Abschnitten der Bilddaten wichtig sind. Da die KI nur eine begrenzte Anzahl von Clustern erstellt, können Benutzer den Entscheidungsprozess leicht verstehen und untersuchen, was die Interpretierbarkeit des Modells erheblich verbessert.
Durch umfassende Tests stellten die Forscher fest, dass die PaCa-Methodik anderen ViTs in mehreren Bereichen überlegen ist. Wu führt aus: „Wir haben festgestellt, dass PaCa SWin und PVT in jeder Hinsicht übertrifft.“ Der Testprozess ergab, dass PaCa bei der Klassifizierung und Identifizierung von Objekten in Bildern und der Segmentierung hervorragende Leistungen erbringt und die Grenzen von Objekten in Bildern effizient umreißt. Darüber hinaus erwies es sich als zeiteffizienter und erledigte Aufgaben schneller als andere ViTs.
Ermutigt durch den Erfolg von PaCa möchte das Forschungsteam seine Entwicklung vorantreiben, indem es es auf größeren Basisdatensätzen trainiert. Dadurch hoffen sie, die Grenzen dessen, was derzeit mit bildbasierter KI möglich ist, zu erweitern.
Das Forschungspapier „PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers“ wird auf der kommenden IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung vorgestellt. Es ist ein wichtiger Meilenstein, der den Weg für effizientere, transparentere und zugänglichere KI-Systeme ebnen könnte.
Technologieführer betonen die Risiken von KI und die Dringlichkeit einer strengen KI-Regulierung
Alex McFarland ist ein in Brasilien lebender Autor, der über die neuesten Entwicklungen in der künstlichen Intelligenz berichtet. Er hat mit führenden KI-Unternehmen und Publikationen auf der ganzen Welt zusammengearbeitet.
Segment Anything-Modell – Computer Vision erhält einen massiven Aufschwung
5 Computer-Vision-Anwendungen im Jahr 2022
Trennung „verschmelzter“ Menschen in der Computer Vision
Verwendung von KI zum Zusammenfassen langer Anleitungsvideos
Forscher entwickeln amphibisches künstliches Sehsystem
Diagnose psychischer Störungen durch KI-Bewertung des Gesichtsausdrucks