Matn yaratish ( IMT, inglizcha: text mining ) ― sunʼiy intellektning asosiy yoʻnalishidan biri bo'lib, uning maqsadi mashinani o'rganish va tabiiy tilni qayta ishlashning amaliy usullarini qo'llash asosida matnli hujjatlar to'plamidan ma’lumot olishdir. "Matn yaratish " nomi "ma'lumotlar orasidan matn qazib olish" tushunchasiga mos keladi ( AID, inglizcha: data mining ), bu ularning maqsadlari, axborotni qayta ishlashga yondashuvlari va qo‘llanilish sohalarining o‘xshashligini ifodalaydi; farq nafaqat yakuniy usullarda, yoki, AID elektron kutubxonalar va matn korpuslari bilangina emas, balki omborlar va maʼlumotlar bazalari bilan shug‘ullanishida namoyon bo'ladi.

AIT vazifa guruhlari

tahrir

AIT vazifalarining asosiy guruhlari quyidagilardan iborat: matnni turkumlash, ma’lumotlarni ajratib olish va qidirish, matn to'plamlaridagi o‘zgarishlarni qayta ishlash va foydalanuvchiga ma‘lumot taqdim etish vositalarini ishlab chiqishdir.[1]

Hujjatlarni turkumlashtirish to'plamdan hujjatlarni o‘xshash matnlarning bir yoki bir nechta guruhiga (sinflari, klasterlari) (masalan: mavzu yoki uslub bo'yicha) ajratishdan iborat. Kategoriyalashtirish shaxs ishtirokida ham, usiz ham sodir bo‘lishi mumkin. Hujjatlar tasnifi deb ataladigan birinchi holatda, AIT tizimi matnlarni allaqachon aniqlangan (uning uchun qulay) sinflarga kiritishi kerak. Mashinani o‘rganish nuqtai nazaridan, bu nazorat ostida o'rganishni talab qiladi, buning uchun foydalanuvchi AIT tizimiga sinflar to‘plamini va ushbu sinflarga tegishli hujjatlar namunalarini taqdim etishi kerak.

Kategoriyalashtirishning ikkinchi holati hujjatlarni klasterlash deb ataladi. Shu bilan birga, AIT tizimi matnlar tarqatilishi mumkin bo'lgan klasterlar to'plamini o'zi aniqlashi kerak - mashinani o'rganishda tegishli vazifa deyiladi nazoratsiz o‘rganish. Bunday holda, foydalanuvchi IAT tizimiga qayta ishlanayotgan to'plamni bo'lishni xohlagan klasterlar sonini aytishi kerak (xususiyatlarni tanlash protsedurasi allaqachon dastur algoritmiga kiritilgan deb taxmin qilinadi).

So'nggi paytlarda matn tahlili xavfsizlik, tijorat va ilm-fan kabi turli sohalarda tobora ko'proq e'tiborni tortmoqda.

Xavfsizlikda

tahrir

Aerotext va Attensity kabi ko‘plab matn tahlil paketlari xavfsizlik ilovalari bozoriga, xususan, yangiliklar saytlari kabi oddiy matn manbalarini tahlil qilishga qaratilgan.

Dasturiy ta'minotda

tahrir

IBM, Apple va Microsoft kabi yirik kompaniyalarning tadqiqot va ishlanmalar boʻlimlari kelajakda maʼlumotlarni tahlil qilish va chiqarish jarayonlarini avtomatlashtirish maqsadida matn tahlili texnologiyalarini oʻrganmoqda.

Manbalar

tahrir
  1. Berry 2003.

Adabiyotlar

tahrir
Intellektual matn tahlili
Muallif(lar) Peskova O. В.
Sahifalar soni 170—212
ISBN 978–5–94506–294–8
  • Survey of Text Mining I: Clustering, Classification, and Retrieval, 2004, Springer, 2003. ISBN 0387955631. 
  • Aggarwal C. C., Zhai C.. Mining Text Data. Springer, 2012. ISBN 9781461432234. 
  • Do Prado H. A.. Emerging Technologies of Text Mining: Techniques and Applications. Idea Group Reference, 2007. ISBN 1599043734.