Data ScienceGeneral

AIForBusiness Data Labeling – Veri Etiketleme

Merhaba arkadaşlar Deep Learning Türkiye ekibi ile birlikte 4 – 5 Ocak 2020 de düzenlenen AIForBusiness etkinliğinde bende sunum yaptım veri etiketleme konusundan ve nasıl yapıldığından bahsettim. 2020 benim için çok güzel başladı birçok insanla tanışma fırsatı elde ettim. Bu tarz etkinliklerin bizlerin iş hayatında büyük etkisi olduğu kanaatindeyim. Sizlerde kendinize hitap eden etkinlikleri lütfen kaçırmayın buralarda tanıştığınız kişiler size ileride farklı kapılar açabilir, birlikte iş yapabilirsiniz veya birbirinizi yönlendirebilirsiniz. İlk gün etkinlikte daha çok yapay zeka terimlerinden veriden, verinin öneminden, nasıl modelleme yapıldığından bahsettik. Bende sizlere anlatmış olduğum konu ile ilgili biraz bilgi vermek istiyorum.

Data Labeling

Etiketli veriler, makine öğrenmesinde süreci tahmin etmeye yardımcı olan kalıplardır. Herhangi bir makine öğrenimi modelinin temelini oluşturduğundan veri oldukça önemlidir. Veriler üzerinde yaptığımız etiketleme işlemi öğrenme modellerini eğitmek için algoritmalara beslenen veri kümesi olarak işlev görmektedir. Bu etiketli veriler sayesinde yapay zeka uygulamaları çeşitli şekilleri, nesneleri, desenleri tarayıp öğrenebilir, örneğin bir bitki türünde hastalığın tespit edilmesi işlemi.

Şimdi sizlere basit bir örnek vererek konuya geçiş yapmak istiyorum. Geçen gün evde pancake yapmak istedim, Tam iç harcı hazırladım, her şey çok güzel ilerleri pancake lerin tamamını pişirip servis ettiğimde büyük bir hüsrana uğradım. İçerisine şeker yerine bolca tuz atmışım meğerse. Maalesef bu durumu yerken farkettim 🙁

pancake

Bu sizcede basit bir insan hatası değil mi ? Düzeltmemiz çok kolay olmalı. 

Kavanozları tuz ve şeker olarak etiketlemiş olsaydım böyle bir hata yaşamazdım değil mi ?

tuz şeker

Farkındaysanız sadece bir elementin yanlış olması tüm konsepti mahvetti ve her şeyi yeniden yapmak zorunda kaldım. 

Biz insanlar çok güçlü duyulara, (görme, anlama, analiz etme, tepki verme, yorumlama ve yargılama) sahibiz. Yaptığımız hatalar ya ihmal ya da farkındalık eksikliğinden kaynaklanmaktadır. 

aihuman

Ancak, makineler veya AI tabanlı modeller için durum böyle değil. Şimdi Veri Etiketlemenin neden AI tabanlı modeller için tabancanın tetiği durumunda olduğunu anlamışsınızdır.

AI tabanlı modeller, istenen çıktı ve bilişin üretilmesi için yüksek oranda doğru, temiz, iyi etiketlenmiş ve hazırlanmış verilere bağımlıdır. Bu modeller, işlevini akıllı ve insan zekası olarak yetenekli hale getirmek için bir dizi olasılık ve hesaplamayı kapsayan hantal veri kümeleriyle beslenirler.

Bir örnek verecek olursak

Sürücüsüz araçlar, önlerine çıkan nesneleri anlık ve hızlı bir şekilde algılayıp önüne çıkan insan, obje, işaret araç gibi nesnenelere karşı davranışını değiştirmelidir ve anlık tepki verebilmelidir. Biz insanlar bile muazzam yaratılmamıza rağmen hala daha küçük hatalar yaparak büyük kazalara sebebiyet verebilirken sürücüsüz araçların hatasız çalışması büyük emek istemektedir. Her nesneyi tıpkı bir insan gibi tespit edebilmesi için, 3 milyon mil canlı sürüş testi, 1 milyar mil simülasyon test sürüşü yapılmaktadır.

self driving car
self driving car

Veri Etiketleme Araçları

Veri etiketleme araçlarının önemine değinmek gerekirse, elimizde binlerce metin verisi varsa bu metinlerin bir dosyada açılıp teker teker karşısına ilgili etiketinin (ekonomi, spor, sanat, vb. ) yazılması yerine, test çözer gibi hızlıca makale için uygun etiketi tıklayarak seçip bu işi çok daha kısa sürede tamamlayabiliriz.

Ayrıca bu veri setinin etiketlenmesi işi bir ekip tarafından yapılacaksa verilerin web tabanlı bir ortamda otomatik olarak dağıtılması dosyaların manuel olarak bölünüp daha sonra bir araya getirilmesinden çok daha hızlı olacaktır. Bazı durumlarda etiketleme için birden fazla uzman görüşü gerekebilir, örneğin ciltteki bir hastalık türünü tespit etmek istiyorsak bu noktada tıp bilgisi gerektiği için bir uzman görüşüne danışılmalıdır. Bu veri etiketleme araçları ile aynı veri elementinin birden fazla kişiye sorulması sağlanabilir.

DataTurks

Görüntü, ses, video ve metinlerin etiketlenmesi ve onlara açıklayıcı bilgilerin eklenmesini sağlayan Web tabanlı bir veri etiketleme aracıdır. Gerçi zamanlı nesne takip etme, bünyesinde bulunan binlerce kişi ile ortak çalışma alanı üretilip hızlıca veri etiketleme işlemi tamamlanmaktadır. Binden fazla şirket ile ortak çalışmaları devam etmektedir. Uygulamanın belirli bir kısmı tüm kullanıcılara açıktır. Diğer uygulamalara örnek; LinkedAI , LabelImg, RectLabel , LabelBox, LabelMe … verilebilir.

etiketli cv
Etiketli Cv örneği

Veri Etiketleme Neden Önemli ve Nelere Dikkat Etmeliyiz?

  • Modelin başarısını artırmak için verilerin doğru bir şekilde etiketlendiğinden emin olunmalı.
  • Modeli daha güvenilir kılmak için alanında uzman kişilere verilerin etiketlendirilmesi işlemi yapılmalıdır. Bu sayede daha güvenli bir model ortaya konulacaktır.
  • Modelin gerçekliğini, kalitesini ve tutarlılığını artırmaktadır. Bu yüzden veriler gerçeğe yakın doğrulukta olmalı.
  • Makine öğrenmesinin temelini oluşturuyor.
  • Etiketleme yapacak kişi konuya hakim olmalı, ( Bir cilt hastalığını sınıflandırmak, doktor  tanımlaması)
  • Şirket içi veri etiketleme kabiliyeti, iş yükü çok fazla, satın almaktan daha çok maliyet gerektiriyor.
  • Performanslı bir model için ne kadar veri gerektiğini bilmeliyiz.

Veri Etiketlemenin Dezavantajları?

Eğer verilerimizi şirket içerisinde etiketleyecekseniz zaman ve maliyet kaybı hat safada olacaktır. Basit bir örnek ile hesaplama yaparsak;

  • Müşterilerin firma ile ilgili duygu analizini yapmak isteyelim ve sosyal medyada yazdıkları yorumları mutlu, mutsuz, memnun vb. şekilde etiketlemek isteyelim.
  • En az etiketli 90K dataset (yorum) kullanacak olalım.
  • Tek bir yorum 30 sn de etiketlendiğini düşünürsek.
  • Bu görev içn 750 saat 90 iş günü gerekmektedir.
  • Bu da yaklaşık 30 bin tl’ye mal olmaktadır, yurt dışında  ise yaklaşık 27K$ şirkete masraf olacaktır.

Eğer bu işlemi veri etiketleme yapan araçlardan yardım alarak gerçekleştirisek daha az maliyetle kurtulmuş olacağız. Ayrıca bu ürünler dışında veri etiketlemeyi belirli bir ücret karşılığında kendine meslek edinmiş bir sürü kişi bulunmaktadır örn: 1 etiket 0.05$ gibi.

  • Etiketleme işlemi oldukça zor ve zahmetlidir.
  • İnsan gücü – uzman bilgisi gerektirmektedir.
  • Yüksek doğruluk elde etmek oldukça zor.
  • Başarılı modellemeler için büyük veri kümelerinin etiketlenmesi gerekmektedir.
  • Yanlış etiketleme modeli bozmaktadır.
  • Tıbbi görüntülemeler ve hukuki dava dosyalarında güvenlik-gizlilik öne plandadır. Bu yüzden verilerimizi dış ortamlar ile paylaşmamamalıyız.

3 Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Back to top button