Html İçinde Gereksiz Kelimeleri Çıkaran Benzer Metin Tespit Uygulaması. Uzun, E. In Akıllı Sistemlerde Yenilikler ve Uygulamaları Sempozyumu (ASYU-2010), pages 48-52, 2010.
Html İçinde Gereksiz Kelimeleri Çıkaran Benzer Metin Tespit Uygulaması [pdf]Website  abstract   bibtex   2 downloads  
Kelimelerin metin içinde bulunma sıklığını kullanarak arama yapan arama motorlarından elde edilen sonuçlar, HTML içindeki gereksiz kelimelerden etkilenmektedir. Bu çalışmada, herhangi bir eğitim verisi kullanmadan metinlerdeki benzerliklerini tespit edip gereksiz metinleri çıkaran bir uygulama ve bu uygulamadan elde edilen sonuçlar anlatılmaktadır. Bu uygulama sayesinde HTML dokümana göre %90,59 oranında gereksiz kelime temizlenmiştir. Ayrıca, HTML etiketleri ayrıştırılıp içindeki kelimelere kök bulma işlemi uygulandığında sadece kelimelerin %20,38 oranında kökü bulunurken benzer metin tespit uygulaması sayesinde elde edilen kelimelerin %69,55 oranında kelime kökü tespit edilebilmiştir.

Downloads: 2