Open Access

Doğal Dil İşleme Teknikleri Kullanılarak TÜFE için Çevrimiçi Market Ürünlerinin Sınıflandırılması

Abdulcebar   On1*, Necaattin   Barışçı2
1Gazi Üniversitesi  , Ankara, Turkey
2Gazi Üniversitesi  , Ankara, Turkey
* Corresponding author: acon10@gmail.com

Presented at the 3rd International Symposium on Innovative Approaches in Scientific Studies (Engineering and Natural Sciences) (ISAS2019-ENS), Ankara, Turkey, Apr 19, 2019

SETSCI Conference Proceedings, 2019, 4, Page (s): 196-199

Published Date: 01 June 2019

Bu çalışmada web tarama yöntemi kullanılarak çevrimiçi ürün satışı gerçekleştiren iki marketin ürün bilgileri elde edilmiştir. Bu ürün bilgilerinin gruplandırılması ile resmi olarak Tüketici Fiyat Endeksi (TÜFE) için belirlenmiş ürün kategorilerinin eşleştirilmesini sağlayan bir model geliştirilmiştir. Elde edilen ürün bilgilerinin gruplandırılma işlemi dört aşama ile gerçekleştirilmiştir. İlk gruplandırılma işlemleri için Google görsel arama motoru kullanılmıştır. Arama motoru üzerinden elde edilen ilk iki ürün görseli kullanılmıştır. Görselleri kesişen ürünler bir araya getirilmiştir. Bu ürün gruplama işleminden sonra tüm ürün grupları kendi aralarında karşılaştırılması yapılarak metin eşleştirme tabanlı doğal dil işleme teknikleri kullanılmıştır. Bu aşamada ürün isimlerinin doğal dil işleme ile benzerlik oranın yüksekliğine bağlı olarak tekrar bir araya getirilmesi sağlanmıştır. Böylece gruplama işlemi gerçekleştiği için toplam kayıt sayısı daraltılmıştır. Bu ürün grupları TÜFE için resmi olarak belirlenmiş ürün kategorileri ile manuel olarak eşleştirilmesi daha kolay hale gelebilmiştir.  

Keywords - Web tarama, Web Kazıma, TÜFE, Big Data, Doğal Dil İşleme

[1] SeleniumHQ Browser Automation, https://www.seleniumhq.org/, (Erişim Tarihi: 08.12.2018)

[2] Jsoup: Java HTML Parser, https://jsoup.org/, (Erişim Tarihi: 08.12.2018)

[3] PostgreSQL: The World's Most Advanced Open Source Relational Database, https://www.postgresql.org, (Erişim Tarihi: 08.12.2018)

[4] Levenshtein distance, https://en.wikipedia.org/wiki/Levenshtein_distance, (Erişim Tarihi:09.12.2018)

[5] Damerau–Levenshtein distance, https://en.wikipedia.org/wiki/Damerau–Levenshtein_distance, (ErişimTarihi: 09.12.2018)

[6] Jaro–Winkler distance, https://en.wikipedia.org/wiki/Jaro– Winkler_distance, (Erişim Tarihi: 09.12.2018)

[7] https://en.wikipedia.org/wiki/Longest_common_subsequence_problem, (Erişim Tarihi: 09.12.2018)

[8] Q-gram disance, https://www.joyofdata.de/blog/comparison-of-stringdistance-algorithms, (Erişim Tarihi: 09.12.2018)

[9] Fiyat Endekleri ve Enflasyon, Sorularla Resmi İstatistik Dizisi-3, TÜİK, 2008

0
Citations (Crossref)
17.1K
Total Views
282
Total Downloads

Licence Creative Commons This is an Open Access article distributed under the terms of the Creative Commons Attribution License 4.0, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
SETSCI 2026
info@set-science.com
Copyright © 2026 SETECH
Tokat Technology Development Zone Gaziosmanpaşa University Taşlıçiftlik Campus, 60240 TOKAT-TÜRKİYE