IKATLAH ILMU DENGAN MENULISKANNYA

28.1.14

Indexing

Suatu bahasa indeks adalah bahasa yang digunakan untuk menguraikan dokumen dan permintaan. Unsur-Unsur dari bahasa indeks adalah terminologi indeks, yang   mungkin diperoleh dari teks dokumen untuk diuraikan, atau mungkin dengan bebas. Bahasa indeks dapat diuraikan menjadi pre-coordinate atau post-coordinate, yang pertama menunjukkan bahwa terminologi dikoordinir ketika mengindeks dan ketika dalam pencarian. Secara lebih rinci, dalam indeks pre-coordinate suatu kombinasi logis tentang segala  terminologi indeks  mungkin digunakan sebagai suatu label untuk mengidentifikasi suatu kelas dokumen, sedangkan di dalam indeks post-coordinate kelas yang sama akan dikenali pada waktu pencarian dengan mengombinasikan kelas dokumen berlabel dengan terminologi indeks individu.
Bahasa indeks yang muncul dari algoritma conflation dapat dijelaskan sebagai indeks dengan kosakata yang tak terkendalikan, post-coordinate dan merupakan turunan. Kosa kata terminologi indeks pada tahap evolusi kumpulan dokumen hanya merupakan satuan dari semua conflation kelas nama.
Ada banyak kontroversi tentang macam bahasa index yang mana yang terbaik untuk pencarian kembali dokumen. Perdebatan utama adalah tentang apakah indeks otomatis sebaik atau lebih baik daripada indeks manual. Masing-masing bisa dilakukan pada berbagai tingkatan kompleksitas. Bagaimanapun, sepertinya terbukti dalam keduanya, indexing otomatis dan manual, menambahkan kompleksitas dalam wujud kendali yang lebih terperinci. Pesan adalah  kosa kata tak terkendalikan berdasar pada bahasa alami untuk mencapai efektivitas pencarian kembali yang dapat diperbandingkan dengan kosa kata dengan kendali rumit.
Mungkin bukti yang paling substansial untuk indexing otomatis telah keluar dari  SMART Project (1966). Salton baru-baru ini meringkas kesimpulan nya:'... pada rata-rata prosedur indeks yang paling sederhana yang mengidentifikasi dokumen yang diinginkan atau kueri oleh satu set terminologi, tertimbang atau  tak tertimbang, diperoleh dari dokumen atau teks kueri adalah juga yang paling efektif'. Rekomendasinya harus jelas, analisa teks otomatis perlu menggunakan terminologi tertimbang diperoleh dari kutipan dokumen yang panjangnya sedikitnya satu dokumen abstrak.
Dokumen representatif yang digunakan oleh SMART project lebih canggih dari pada sekedar daftar batang yang diintisarikan oleh conflation. Tidak ada keraguan, dibanding format kata biasa metode ini lebih efektif ( Carroll dan Debruyn). Pada puncaknya, the SMART project ini menambahkan indeks tertimbang, di mana suatu istilah index mungkin adalah beberapa kelas konsep melalui penggunaan berbagai kamus.


http://www.dcs.gla.ac.uk/keith/chapter1/ch1
http://www.sims.berkeley.edu/~hearts/irbook/1/node2
http://en.wikipedia.org/wiki/informationretrieval
http://kluweronline.com/issn/1386-4564
http://information.net/ir/8-1/paper                     
 http://www.searchtools.com/info/info-retrieval.html 
http://www.aaai.org/AITopics/html/info.html                             
http://www.db.dk/pi/iri/

Share:

0 komentar:

Posting Komentar

Podcast

Blog Archive

Diberdayakan oleh Blogger.

Arsip Blog

Theme Support

Definition List