Suatu bahasa indeks
adalah bahasa yang digunakan untuk menguraikan dokumen dan permintaan.
Unsur-Unsur dari bahasa indeks adalah terminologi indeks, yang mungkin diperoleh dari teks dokumen untuk
diuraikan, atau mungkin dengan bebas. Bahasa indeks dapat diuraikan menjadi pre-coordinate atau post-coordinate,
yang pertama menunjukkan bahwa terminologi dikoordinir ketika mengindeks dan
ketika dalam pencarian. Secara lebih rinci, dalam indeks pre-coordinate
suatu kombinasi logis tentang segala
terminologi indeks mungkin
digunakan sebagai suatu label untuk mengidentifikasi suatu kelas dokumen,
sedangkan di dalam indeks post-coordinate kelas yang sama akan dikenali
pada waktu pencarian dengan mengombinasikan kelas dokumen berlabel dengan
terminologi indeks individu.
Bahasa indeks yang
muncul dari algoritma conflation
dapat dijelaskan sebagai indeks dengan kosakata yang tak terkendalikan, post-coordinate
dan merupakan turunan. Kosa kata terminologi indeks pada tahap evolusi kumpulan
dokumen hanya merupakan satuan dari semua conflation
kelas nama.
Ada banyak kontroversi
tentang macam bahasa index yang mana yang terbaik untuk pencarian kembali
dokumen. Perdebatan utama adalah tentang apakah indeks otomatis sebaik atau
lebih baik daripada indeks manual. Masing-masing bisa dilakukan pada berbagai
tingkatan kompleksitas. Bagaimanapun, sepertinya terbukti dalam keduanya,
indexing otomatis dan manual, menambahkan kompleksitas dalam wujud kendali yang
lebih terperinci. Pesan adalah kosa kata
tak terkendalikan berdasar pada bahasa alami untuk mencapai efektivitas pencarian
kembali yang dapat diperbandingkan dengan kosa kata dengan kendali rumit.
Mungkin bukti yang
paling substansial untuk indexing otomatis telah keluar dari SMART Project (1966). Salton baru-baru ini
meringkas kesimpulan nya:'... pada rata-rata prosedur indeks yang paling
sederhana yang mengidentifikasi dokumen yang diinginkan atau kueri oleh satu
set terminologi, tertimbang atau tak
tertimbang, diperoleh dari dokumen atau teks kueri adalah juga yang paling efektif'.
Rekomendasinya harus jelas, analisa teks otomatis perlu menggunakan terminologi
tertimbang diperoleh dari kutipan dokumen yang panjangnya sedikitnya satu
dokumen abstrak.
Dokumen representatif
yang digunakan oleh SMART project lebih canggih dari pada sekedar daftar batang
yang diintisarikan oleh conflation.
Tidak ada keraguan, dibanding format kata biasa metode ini lebih efektif (
Carroll dan Debruyn). Pada puncaknya, the SMART project ini menambahkan indeks
tertimbang, di mana suatu istilah index mungkin adalah beberapa kelas konsep melalui
penggunaan berbagai kamus.
http://www.dcs.gla.ac.uk/keith/chapter1/ch1
http://www.sims.berkeley.edu/~hearts/irbook/1/node2
http://en.wikipedia.org/wiki/informationretrieval
http://kluweronline.com/issn/1386-4564
http://information.net/ir/8-1/paper
http://www.searchtools.com/info/info-retrieval.html
http://www.aaai.org/AITopics/html/info.html
http://www.db.dk/pi/iri/
0 Post a Comment:
Posting Komentar