Token
1. Fogalom magyarul: token
2. Fogalom angolul: token
3. Meghatározás:
A token a természetes nyelvi feldolgozás területén a szöveg elemzése során használt alapegység, amely lehet egy szó, kifejezés, szimbólum vagy bármilyen más egyedi elem. Tokenizálásnak pedig a szöveget tokenekre felbontó folyamatot nevezzük. Például a "hello world" szöveg tokenizálása után kettő token lesz: "hello" és "world". A tokenizálás különböző szinteken végezhető el: (i) a szóalapú tokenizálás a szöveget szavakra bontja, (ii) a karakteralapú tokenizálás minden egyes karaktert külön tokenként kezel, (iii) míg az alapszavak vagy morfémák szerinti tokenizálás a szöveg legkisebb jelentéses egységeire bontja a szöveget. A tokenizálás alapvető lépés a természetes nyelvi feldolgozásban, mivel lehetővé teszi a szöveg strukturált formában történő elemzését.
4. Hivatkozások:
- Chowdhary, K., & Chowdhary, K. R. (2020). Natural language processing. Fundamentals of artificial intelligence, 603-649.
5. Megjegyzések:
6. Kulcsszavak:
mesterséges intelligencia, gépi tanulás