8 min läsning

Nu kommer en ny våg av AI-hårdvara

I dagarna släpptes den första portabla röstassistenten med “AI”, och även om Humanes AI-pin sågades jäms med fotknölarna av typ alla som recenserade den så fanns det också en röd tråd av “Detta kommer nog bli något i framtiden”. Fast kommer det verkligen det?

Skrivet av
Kristoffer Yi FredrikssonDigital strateg17 apr, 2024

I dagarna släpptes den första portabla röstassistenten med “AI”, och även om Humanes Ai Pin sågades jäms med fotknölarna av typ alla som recenserade den så fanns det också en röd tråd av “Detta kommer nog bli något i framtiden”.

Fast kommer det verkligen det?

Humanes Ai Pin är bara den första av en serie produkter som är på väg att släppas under året, vi har också Rabbits R1 att se fram emot, plus en open source version från företaget Open Interpreter med tillhörande portabla “smarta högtalare” vid namn 01 Light.

Alla tre vill erbjuda en personlig smart assistent 2.0*, 1.0 var Siri, Google Assistant och Alexa. I stort sett så lockar de nya assistenterna med samma sak som den första vågen assistenter gjorde, be om en sak du själv kan göra typ “Jag vill äta lasagne, beställ en åt mig” och så fixar din assistent det.

Personligen blev jag rätt överraskad av hur lika dagens idéer kring assistenter är jämfört med tidiga reklamfilmer för Siri, Som när Zooey Deschanel vill ha tomatsoppa eller när en random joggare svarar på SMS. Men det finns två nya “löften” från nästa generations assistenter:

Ett: Allt en dator kan göra, gör vi.

Två: Vi kan se det du ser.

“Anything you can do I can do…”

Tanken är att vi skall kunna lära våra assistenter hur vi vill att de skall utföra vissa saker. Till exempel kopiera länken till en intressant bloggpost man just sitter och läser, lägga in det i en lista med en sammanfattning av bloggposten, och sen posta den listan på på linkedInvarje torsdag klockan 11:32 med en autogenererad bild.


Det är lockande, dagens assistenter är uppbyggda med hjälp av beslutsträd där de på vissa förutbestämda steg kan lyssna efter förutbestämda ord. Om vi som använder dem går utanför ramen eller använder ett ord de inte förväntar sig så går allt åt skogen. De nya assistenterna skall, enligt löftet, klara naturligt språk på samma vis som ChatGPT etc klarar av naturligt språk.

Att skapa automatiserade flöden är inget nytt, på MacOS som jag använder har det varit möjligt så länge jag kan minnas. Det går nog inte att skapa ett flöde som automatiskt betalar för en flygbiljett, något Rabbit har sagt att deras pryl skall kunna, men att posta länkar borde nog gå bra.

Jag säger borde för detta är inte någon särskilt använd funktion, varken av mig eller någon annan, så jag vet faktiskt inte riktigt var gränsen går. Om nästa generations assistenter har ett lättanvänt gränssnitt för att skapa personliga automatiserade flöden så är det good enough för min del. Inte tillräckligt för att jag skall köpa en helt ny manick och bära med mig vart jag än går, men en trevlig tjänst jag tror många skulle vilja ha.

Peekaboo, I can see you

Det andra “löftet” är att de här maskinerna skall kunna se och förstå det du ser och förstår. Med hjälp av kameror och/eller skärmläsare skall man kunna interagera genom att säga “Vad kan jag laga med det jag har i kylen?” eller “Sammanfatta det här mailet” och så händer det.

Återigen är detta något som funnits/finns. 2015 lanserades Google Now on Tap, en funktion som gjorde att google med hjälp av machine learning analyserade vad som fanns på en android-skärm och gissade vad man skulle vilja göra med den informationen, ringa ett mobilnummer, koppla sig mot en wifi, eller kanske översätta lite text.

Sen försvann det men kom tillbaks några år senare under namnet Google Lens, där Google med hjälp av machine learning försöker gissa vad man skulle vilja göra med den information som syns via mobilens kamera, eller på en skärmdump.

Jag använder översättningsfunktionen med jämna mellanrum, och jag har flera gånger saknat Google Now on Taps mer invasiva tillvägagångssätt, där till exempel SMS från budfirmor tolkades och jag automatiskt fick se när ett paket förväntades vara framme.

Ännu en gång kan jag intyga att den här nygamla funktionaliteten är helt okej, att det finns verkliga användningsområden för den.

Så då blir det hejdundrande sucéer av detta ellerrrrrrr…..?

Nej, det tror jag inte, åtminstone inte de närmsta åren. Jag har flera anledningar till varför jag tvivlar:

Pengar I

Pengar som i priset. Humanes Ai Pin kostar USD 699 eller 799 plus USD 24 i månaden vilket är väldigt mycket pengar för en pryl som alla recensenter är överens om inte funkar. Även om den funkat så hade det varit mycket pengar för en bärbar Google Home med laserprojektor. Rabbit R1 kostar USD 199 vilket ligger närmare impulsköpsgränsen (för den ppryltokige) och det är runt 60 000 personer som klickat på köpknappen. Open Interpreter tar USD 109 för sin pryl, men den har å andra sidan ingen kamera.

Pengar II

Pengar som i “kostnad att driva”. Det är ingen slump att Humane vill ha USD 24 i månaden, det kostar att driva servrar och kostnaden minskar inte ju fler som använder tjänsten. Någon måste stå för serverkostnader, plus vidareutveckling av mjukvara, plus marknadsföring, plus massa allmänt meck med inköp, kvalitetskoll, trade compliance och så vidare. Det är svårt att sälja en uppkopplad pryl till en engångskostnad. Vilket för oss till:

Pengar III

Pengar som i “Hur skall de tjäna pengar?” Hur Rabbit tänker betala serverkostnader är i dagsläget oklart men det ryktas om sponsrade resultat vilket inte hade förvånat mig. De verkar vara ett företag som opererar enligt den beprövade fyrstegsmodellen:

  1. Dra in riskkapital med hjälp av senaste buzzword
  2. Använd pengarna till att skaffa så många användare som möjligt
  3. ????
  4. PROFIT!

???? har hittills alltid inneburit övervakningskapitalism men vem vet, kanske dyker det upp ett nytt sätt att få in pengar. Open Interpreter tar betalt per förfrågan, på samma sätt som OpenAI tar betalt för sitt API. Men med tanke på vad det kostar att träna upp en LLM så börjar de med en enorm skuld som måste betas av innan de kan sägas generera någon egentlig vinst.

Nytta

Jag tror aldrig jag sett en ny teknikpryl bli så totalsågad som Humanes Ai Pin. Kass batteritid, kass projektor, och framför allt kassa resultat. Och även när den lyckas utföra en uppgift så känns det som en kul grej snarare än en nödvändighet.

Lägg därtill hela röststyrningsproblematiken. Vill vi tala med våra prylar när vi är ute i det offentliga? Är det ens smidigt att diktera SMS eller mail? Att få en lista med fem restauranger upplästa av en robotröst är inte särskilt hjälpsamt jämfört med att se samma restauranger på en karta med bilder.

Även om de nya assistenterna kunde uppfylla sina två löften med bravur så konkurrerar de om fickplats med mobilen, som också kan göra vad de nya prylarna vill göra och mer. Och där ligger nog den största utmaningen.

Gott om vindbrygga, ont om vallgrav

Den största utmaningen för de företag som lanserar nästa generations assistenter är att de helt saknar vallgrav. Stora språkmodeller och Machine Learning är ingen affärshemlighet, röstigenkänning, bildigenkänning, SMS mottagning, webbrowesr och så vidare. Allt det som nextgenassistenter vill göra är fullt möjligt på en mobiltelefon redan idag. Förutom den där grejen när du ger ett nytt företag tillgång till ditt kreditkort och låter deras “ai” köpa grejer med det. Vad kan gå fel?

Som om inte det vore nog så har Google och Amazon (två troliga konkurrenter på assistent-marknaden) tillgång till både generella servrar, och (i Googles fall) speciellt framtagen “ai” hårdvara.

Achilleshälen

De här nya prylarna utmålar sig själva som räddare i nöden. Äntligen skall vi sluta doom scrolla tack vare att vi inte längre har någon skärm att dom scrolla på. Fast vi vill se på bilder och video, vi vill dela med oss av bilder och video. Vi vill ha en skärm, en kamera, en mikrofon och en liten högtalare. På gott och ont har vi byggt upp hela vårt samhälle kring detta.

Ta till exempel mitt digitala pendlarkort. Jag tycker det är fantastiskt smidigt jämfört med det fysiska jag hade innan. Men hur det skall fungera på en andra-generations ai pryl är ännu oklart. Det hade förmodligen inneburit ett nytt paradigm av interaktioner mellan olika system, människor, och maskiner. Sånt tar tid.

Allt detta innebär att folk kommer att fortsätta ta med sig sin mobiltelefon, vilket i sin tur innebär att de kommer att fortsätta använda den till alla viktiga saker vi gör med våra mobiler, vilket i sin tur innebär att de här nya ai-prylarna aldrig får chansen att sträcka på benen på orörd mark så som våra mobiler fick. Mobilerna kunde börja från noll, ai-prylarna måste konkurrera mot etablerade vanor.

Disruption lol

I sin ursprungsform innebar disruption att man hade en sak som var ganska kass på det mesta av vad “the incumbent” (ungefär den den sittande marknadsledaren) kunde, men gjorde en grej så otroligt mycket bättre att folk var beredda att acceptera dess svagheter.

Jag kan för mitt liv inte se var dessa ai-prylar gör bättre. Jag kan inte se en väg fram inom de närmsta fem åren. Jag kan å andra sidan inte heller förstå varför någon skulle vilja få pushnotiser på sin klocka, så vad vet jag.