Data Science

Makine Öğrenmesinin Üç Temel Bileşeni

Makine öğrenmesinin temel amacı gelen verilerden yola çıkarak anlamlı bir sonuç üretmek ve aksiyon almaktır. Elimizdeki bilgiler ne kadar çeşitli olursa başarılı bir sonuç elde etmek o kadar kolay olacaktır. Bu nedenle, makine öğrenmesi yapabilmek için 3 temel bileşine ihtiyacımız olacaktır.

Data

Spam emailleri tespit etmek ister misiniz? O zaman spam mesaj örneklerine ihtiyacınız olacak. Bir hisse senedini tahmin etmek ister misiniz? Fiyat geçmişlerinin olduğu bir dataya ihtiyacınız olacak. Kullanıcıların tercihlerinden yola çıkarak ona uygun bir ürün önermek ister misiniz ? O zaman sosyal medyada faaliyetlerini ve paylaşımlarını toplamanız gerekecek. İşte gördüğünüz gibi her problem için farklı bir veri setine ihtiyaç duyuyoruz ve bu veri çeşitliliği ile sonucumuz daha başarılı oluyor.

Bu verileri elde etmenin 2 yolu bulunmaktadır. İlki manuel olarak yani yaptığımız anketler veya formlar üzerinden elle veri toplamak olacaktır. Bu yöntem çok daha temiz, hatasız bir veri seti toplamamızı sağlarken oldukça uzun ve maliyetli bir süreçtir. İkinci olarak otomatik veri toplama yöntemi bulunmaktadır. Google, twitter veya diğer sosyal platformlardan veri toplayabiliriz bu daha az maliyetli ve oldukça kolay bir yoldur. Bir çok şirket içinde veri oldukça önemlidir bu yüzden onlar algoritmalarını paylaşmayı göze alabilirler ama verilerini asla veri şirketler için oldukça önemli ve kendi içlerinde bile bir veriye erişmek için oldukça fazla gizlilik prosedürleri bulunmaktadır.

Features, Değişkenler

Parametreler veya değişkenler olarak nitelendirilmektedir. Örneğin bir makine öğrenmesi modeli kurarken modelin bakması ve öğrenmesi gereken değişkenlerdir, örneğin; müşterinin yaş bilgisi, cinsiyeti, araç kilometre bilgisi, en son satın aldığı aracın fiyatı, bir metinde geçen kelimenin sıklık bilgisi, bir hisse senedinin fiyatı … veri kümelerinin içerisinde bulunan değişkenlere örnek verilebilir. Eğer verilerimiz veri tabanlarında tablolarda tutuluyorsa işimiz oldukça kolaydır. Sütun isimleri bizim değişkenlerimiz oluşturmaktadır. Ama elimizde özellikleri belli olmayan 200 GB’lık köpek resminden oluşan bir veri seti var ise bunları depolamak ve karar vermek oldukça zordur her pikseli bir özellik olarak düşünemeyiz buna kara vermek oldukça zordur ve makine öğrenmesi yöntemi karar vermektedir, bu gibi durumlarda biz insanların duyguları daha ön plana çıkmakta bu yüzden algoritmalar bu noktada karar vermede daha başarılıdır.

Algoritmalar

Her problem için farklı bir makine öğrenmesi algoritma yaklaşımı bulunmaktadır. Bu yüzden farklı yöntemler uygulanmaktadır. Seçtiğimiz algoritma modelin, hassasiyetini, sonucunu, boyutunu, performansını etkilemektedir. Değinmek istediğim diğer önemli nokta ise verilerinizin düzgün olması eğer elinizde işe yaramaz kirli bir veri var ise algoritmasınız mükemmel bile olsa işe yaramayacaktır. Bu durumda garbage in – garbage out a örnek olabilir. Bu yüzden sadece modelin doğruluk değerine dikkat etmeyin verilerin çok olmasına ve temiz olmasına dikkat edin.


3 Comments

  1. Makine öğrenmesi hakkında sizi hem sitenizden hem de instagramdan takip ediyorum. Şuan Bilgisayar mühendisliği 3. sınıf öğrencisiyim. Umarım sizin kadar ben de başarılı olurum. Yaptığınız şeyler beni de çok motive ediyor. Başarılarınızın devamını dilerim.

  2. Yazınız ,oldukça derin olan bir konuyu anlaşılır duruma getirmiş çok teşekkürler kaleminize sağlık..

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Back to top button