AI helpt wetenschappers door onderzoeken samen te vatten

ANP | 19 november 2020 | 16:51 | Foto: ©ANP AI helpt wetenschappers door onderzoeken samen te vatten

Een nieuw AI-model helpt onderzoekers door wetenschappelijke literatuur samen te vatten. Semantic Scolar werd ontwikkeld door het Allen Institute for Artificial Intelligence (AI2), een onderzoeksinstituut dat is opgezet door Paul Allen - mede-oprichter van Microsoft.

Het model bestaat uit een zoekmachine die een onderzoek in één zin samenvat. Hierdoor kunnen wetenschappers veel tijd besparen, aangezien ze vaak door duizenden onderzoeken moeten ploegen om precies te vinden wat ze zoeken. Het samenvatten van tekst is volgens vaknieuwssite MIT Technology Review een populair probleem voor natural-language processors (NLP’s), kunstmatige intelligentie die zich richt op het produceren van tekst.

Er zijn volgens MIT Technology Review grofweg twee manieren hoe AI een bestaande tekst samenvat. De eerste methode wordt ‘extractive’ genoemd, hierbij selecteert de AI een zin uit de tekst die de essentie van het verhaal het best lijkt te vatten. Bij de tweede methode, ‘abstractive’, vormt de AI zelf een zin die het verhaal samenvat. In eerste instantie werd de extractive-methode vaker gebruikt, maar nu NLP’s steeds beter worden in het maken van natuurlijke zinnen wint abstractive aan terrein.

Trainen

Het model werd door AI2 eerst getraind in de Engelse taal. Daarna werd het model verder getraind in de specifieke taak van het samenvatten. Daarvoor hebben de onderzoekers een dataset gebouwd die bestond uit zo’n 5400 wetenschappelijke onderzoeken met een bijbehorende samenvatting van één zin. Ook hebben ze mensen ingehuurd om de synopsissen van onderzoeken verder samen te vatten tot één zin, en de onderzoeken met die samenvattingen aan de dataset toegevoegd. Om de dataset nog verder uit te breiden werden ook simpelweg de titels van bestaande onderzoeken gebruikt, omdat die ook een soort samenvatting zijn - uit verschillende experimenten bleek deze aanpak goed genoeg om het model van trainingsmateriaal te voorzien.

Semantic Scolar verkleint onderzoeken gemiddeld gezien 238 keer - papers bestaan vaak uit zo’n 5000 woorden, dit wordt teruggebracht tot ongeveer 21 woorden. Eerdere modellen haalden een verkleining van zo’n 36,5 keer. Ook zou Semantic Scolar een meer informatieve en accurate samenvatting leveren.

In de toekomst hopen de onderzoekers de techniek uit te kunnen breiden naar andere teksten. Daarnaast hopen ze ook het model zo te kunnen verfijnen dat er niet teveel overlap is met de samenvatting en de titel, om zo met evenveel woorden toch meer informatie te kunnen verstrekken. Nog mooier zou het zijn als ze in de toekomst gepersonaliseerde briefings kunnen samenstellen met de samenvattingen van de meest belangrijke onderzoeken in een specifiek veld, bijvoorbeeld wanneer een wetenschapper zich in een nieuw (sub-)onderwerp verdiept.

Meer weten over Huawei en Kunstmatige Intelligentie? Klik hier.