Yapısal olmayan kalite kontrol dökümanlarından anahtar kelime çıkarımı


KAHYA ÖZYİRMİDOKUZ E., ÇİFLİKLİ C.

3. Kayseri Sempozyumu, Kayseri, Türkiye, 24 Nisan 2014, ss.415-424

  • Yayın Türü: Bildiri / Tam Metin Bildiri
  • Basıldığı Şehir: Kayseri
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.415-424
  • Kayseri Üniversitesi Adresli: Hayır

Özet

Gelişen haberleşme teknolojileri beraberinde firmaları büyük veri yığınlarıyla karşı karşıya bırakmıştır. Bu veri yığınları, firmalar için hayati önem taşıyan bilgileri içinde barındırır. Karar vericiler, klasik tekniklerle bu verilerden çıkarımlarda bulunurken, önemli bilgileri gözden kaçırırlar. Veriyi doğru yönetemeyen firmalar ise işlerine yaramayan veri yığınlarında kaybolur. Bir işletmeye ait sayısal platformdaki bu verilerin %80’i metin formundadır. Dolayısıyla yapısal olmayan verileri de içeren büyük veri klasik istatistiksel tekniklerle analiz edilen veriler kadar kolay işlenemez. Ayrıca, klasik tekniklerin işleyeceği veri miktarı da sınırlıdır. Klasik teknikleri de içinde barındıran metin madenciliği, bilgi teknolojisi disiplini olan veri madenciliğinde kullanılan analiz yöntemleri, büyük verinin tamamını analize sokar.

Günümüzde veri madenciliği firmalar açısından çok önemli hale gelmiştir. Firmalar sektörde rekabet avantajı sağlayabilmek için veri madenciliği tekniklerini kullanarak büyük veriden işlerine yarayacak, daha önceden keşfedilmemiş, kullanılabilir örüntüler elde eder. Bu araştırma, Kayseri’de bir halı fabrikası kalite kontrol bölümünden elde edilen metin formatındaki verileri analiz etmektedir. Araştırmanın amacı, yapısal olmayan kalite kontrol dökümanlarından otomatik olarak anahtar kelimeleri tespit etmek ve dökümanlara benzerlik analizlerini uygulamaktır. Halı fabrikasından elde edilen metin formundaki dökümanlara kelimelere ayırma (tokenization), harf dönüştürme (transform cases),  dur-kelimelerini filtreleme, ve  kök bulma (stemming) gibi metin madenciliği önişleme yöntemleri uygulanmıştır. TD-IDF (Terim Frekansı- Ters Belge Frekansı) önişleme analiz tekniği kullanılmıştır.  Cosine benzerlik analizi sonucu benzer dökümanlar tespit edilmiş, grafikler elde edilmiştir. Kelime vektörü ve en önemli anahtar kelimelerin çıkarımları yapılmıştır. Böylece fabrikadaki hatalar başlıklar altında kategorilere ayrılmış olur. Bu durum, kalite control sürecinde otomatik standardizasyonu sağlar.

Huge amount of data are available in the digital platform of a firm’s database. In addition, these data has a strategic importance of competition and improvement of marketing and production. Nowadays, firms need to take big unstructured data and they need to analyze it seriously to have a competitive advantage in the sector. Data mining (DM) technology is used to extract patterns from well-structured data that exist in relational databases. In addition, 80% of this data exists as textual form. Data mining and text mining methods have to be used in order to find useful and previously unknown information instead of using only classical statistical techniques. There are less reported applications which use text mining in industrial contexts.

The aim of this research is to extract keywords from carpet manufacturing quality control text documents. Text and data mining methods are applied to these documents. Term frequency inverse document frequency (TD-IDF) technique is used in word processing process. Tokenization, transform cases, filtering stop-words and stemming text processing techniques are used. Cosine similarity analysis is also used to determine the similar documents. The word vector and the most important keywords are extracted.

In this research textual quality control data is analyzed and categorized by text mining techniques. The amount of unstructured data is converted to useful numerical knowledge to achieve a better understanding of the manufacturing system. Data is processed into a manageable standard format.