Nieuwe generatie AI om visueel beperkten foto’s te laten ‘zien’
Facebook heeft een nieuwe generatie automatic alternative text (AAT) aangekondigd om visueel beperkten te helpen bij het ‘zien’ van foto’s. AAT gebruikt kunstmatige intelligentie om beschrijvingen van foto’s te maken door middel van voorwerpherkenning. Visueel beperkten kunnen de beschrijving af laten spelen en weten zo (ongeveer) wat er op een afbeelding te zien is.
In 2016 introduceerde Facebook AAT voor het eerst. Met de nieuwe generatie is volgens Facebook het aantal objecten dat AAT kan herkennen tien keer zo groot geworden. Daarbij zijn de beschrijvingen meer gedetailleerd, en kunnen naast voorwerpen nu ook onder meer activiteiten, oriëntatiepunten in de omgeving en dieren worden herkend.
Een voorbeeld van een beschrijving die de nieuwe generatie AAT kan geven is ‘Dit kan een selfie zijn met twee mensen, buiten, bij de toren van Pisa’. Of: ‘Dit kan een afbeelding zijn van vijf mensen, waaronder Jay Youmens, mensen die muziekinstrumenten bespelen, mensen die staan, twee hoeden en vijf trommels’.
Focuspunt
Ook kan de ATT nu niet alleen beschrijven hoeveel mensen er op een foto zijn, maar ook waar de mensen zich op de foto bevinden - ‘Er staan twee mensen in het midden van de foto en drie mensen verspreid aan de rand’. Of, bij een foto van een landschap met een huis, kan de AAT zeggen dat de berg op de foto het focuspunt van de afbeelding lijkt te zijn.
Om AAT te verbeteren heeft Facebook onder meer foto’s op Instagram gebruikt, waarbij de hashtags die mensen bij foto’s plaatsen een idee geven van wat er op de foto te zien is. Ook werden de modellen getraind aan de hand van transfer learning: een machine learningmethode waarbij het model dat voor een bepaalde taak is gebruikt vervolgens als startpunt wordt gebruikt voor het uitvoeren van een tweede taak.
De AAT is op dit moment in 45 verschillende talen beschikbaar.
Meer weten over Huawei en Kunstmatige Intelligentie? Klik hier.