A legjobb NLP modell valaha? A Google BERT új szabványokat állít be 11 nyelvi feladatban

Az új Google AI papír BERT: A mély kétirányú transzformátorok előzetes képzése a nyelv megértése érdekében a gépi tanulás közösségének elismerését kapja. A Google kutatói mély kétirányú transzformátor modellt mutatnak be, amely újradefiniálja a legkorszerűbb technológiát 11 természetes nyelv-feldolgozási feladat számára, sőt, felülmúlva az emberi teljesítményt a kérdésmegválaszolás kihívásokkal teli területein. Néhány kiemelés a papírból:

  • Az NLP kutatói kihasználják a mai rendelkezésre álló nagy mennyiségű nyelvi adatot és érett átviteli tanulási technikákat dolgoznak ki új edzés előtti megközelítések kidolgozására. Először egy nyelvi modellezési célon modellezik a architektúrát, majd finomhangolják azt egy felügyelt downstream feladathoz. Az Aylien kutatója, Sebastian Ruder blogjában azt sugallja, hogy az előre képzett modellek „ugyanolyan széles körű hatással lehetnek az NLP-re, mint az előre képzett ImageNet modellek a számítógépes látásra”.
  • A BERT modell architektúrája egy kétirányú transzformátor kódoló. A transzformátor használata nem meglepő - ez egy legújabb tendencia, amely a Transformers edzési hatékonyságának és kiemelkedő teljesítményének köszönhető a távolsági függőségek rögzítésében, a visszatérő ideghálózati architektúrához képest. A kétirányú kódoló eközben kiemelkedő funkció, amely megkülönbözteti a BERT-t az OpenAI GPT-től (balról jobbra transzformátor) és az ELMo-tól (az önállóan képzett balról jobbra és jobbról balra LSTM összekapcsolása).
  • A BERT hatalmas modell, 24 transzformátor blokkkal, 1024 rejtett egységgel minden rétegben és 340M paraméterekkel.
  • A modellt 40 korszakra előzetesen képzték, egy 3,3 milliárd szótartományban, beleértve a BooksCorpus (800 millió szó) és az angol Wikipedia (2,5 milliárd szó).
  • A modell 16 TPU hüvelyen fut, edzés céljából.
  • Az előzetes képzés során a kutatók olyan megközelítést alkalmaztak, amely véletlenszerűen elfedte a bemeneti tokenek százalékát (15 százalékot) egy mély kétirányú ábrázolás képzéséhez. Erre a módszerre maszkolt nyelvi modellnek (MLM) hivatkoznak.
  • Az előre képzett nyelvi modell nem tudja megérteni a mondatok közötti kapcsolatokat, ami elengedhetetlen a nyelvi feladatokhoz, mint például a kérdések megválaszolása és a természetes nyelvi következtetések. A kutatók ezért előzetesen kiképezték egy binarizált következő mondat-előrejelzési feladatot, amely triviálisan előállítható bármely egynyelvű korpuszból.
  • A különböző adatkészletek finomított modellje a GLUE referenciaértéket 80,4% -ra (7,6% abszolút javulás), a MultiNLI pontosságát 86,7% -ra (5,6% abszolút javulás) javítja, az SQuAD v1.1 kérdés az F1 tesztre válaszolva 93.2-ig (1.5 abszolút javulás) , és így tovább, összesen 11 nyelvi feladatnál.

A cikk első szerzője Jacob Devlin, a Google egyik vezető kutatója, aki elsősorban a természetes nyelvű feladatok mély tanulási modelljeinek kidolgozásával foglalkozik. Korábban a Microsoft Translate egyik fő kutatójaként, a 2014 és 2017 közötti időszakban vezette a Microsoft Translate átmenetet a kifejezés-alapú fordításról az idegi gépi fordításra (NMT).

A Google Brain kutatója, Thang Luong lelkesen tweetelt: „Az NLP új korszak csak néhány nappal ezelőtt kezdődött el: nagyméretű edzés előtti modellek (Transformer 24 réteg, 1024 dim, 16 fej) + hatalmas számítások, amire szüksége van.”

Baoxun Wang, a Tricorn kínai AI induló vezető tudósítója szintén dicsérte a Google újságot, mint „mérföldkövet” az ő heti mesterséges intelligencia iparági szövetségének konferenciáján, a suzhou-i Kínában tartott kiemelt beszédében. A cikk hatalmas mennyiségű adatot, valamint számítási és gondosan csiszolt mérnöki munkát használ fel, ami Wang „a Google erőszakos esztétika hagyományainak” nevezi.

Az előre kiképzett modell és kód a következő két hétben kerül kiadásra. A papír arXiv-en van.

frissítés:

A Google megnyitotta a papír kódját és adatait a Githubon.

Újságíró: Tony Peng | Szerkesztő: Michael Sarazen

Kövess minket a Twitteren @Synced_Global a napi AI-hírekkel kapcsolatban

Tudjuk, hogy nem akar hiányozni egyetlen történet sem. Iratkozzon fel a népszerű Synced Global AI hetilapra, hogy heti AI frissítéseket kapjon.