Skip to main content

Kümeleme Başarı Değerlendirme Yöntemleri

Kümeleme analizinde genel amaç birbirine benzer olan bireylerin aynı grup­ larda toplanmasıdır. Kümelerin başarısını değerlendirmek için sınıflara atanan veriler arasındaki benzerliklere ve kümeler arasındaki farklılığa bakılmaktadır. Bu bakımdan kümeler arasın­ daki benzerliği ölçmede hangi ölçünün kullanılacağı kümeleme analizinin en önemli sorunlarından birini teşkil eder. Kümeleme yapan bir model ortaya konduktan sonra bu modelin başarısının ölçülmesi […]

Devamını Oku

Cross-Validation Nedir?

Literatürde k-fold cross validation (k katlamalı Çapraz doğrulama) olarak geçmektedir, makine öğrenme modellerinin başarılarının değerlendirilmesi için kullanılan bir yöntemdir. Bu yöntemde veri seti eğitim ve test seti olarak ayrılmaktadır bu işlem için seçilen yöntem modelin başarısını önemli ölçüde etkilemektedir. Bu yöntemlere örnek verecek olursak örneğin data setinin %70’i train %30’u test için kullanılsın, veya data […]

Devamını Oku

Kitap Önerileri (Sizden Gelenler)

Merhabalar arkadaşlar 2019 başlarken kitap okumayı alışkanlık haline getirmek adına bir karar aldım… Artık kitap okumaya zaman bulamıyorum klişesinin arkasına saklanmak istemiyorum bu yüzden vakit kaybetmeden elimde olan bir kitapla başladım okumaya ne kadar da zihnim anlamayı yorum yapmayı unutmuş meğerse, artık öğle araları yemekten sonra arta kalan 20 dk da, uyumadan önceki son 20 […]

Devamını Oku

Basit Doğrusal Regresyon / Linear Regresyon

Simple linear regresyon, 2 nicel veri arasındaki ilişkiyi özetleyen istatiksel bir metoddur. Bağımsız değişkenlerin (X) değerlerini temel alarak bağımlı değişkeni (Y) tahmin etmenin bir yöntemidir. İki değişkenin doğrusal olarak birbirleri ile ilişkili olduğu varsayılmaktadır. Basit doğrusal regresyon bize normal dağılmış, belirli bir oranda  veri toplanmış iki değişken arasında doğrusal ilişki olup olmadığını test etme olanağı […]

Devamını Oku

Veri Ön İşleme / Python

Adım 1 :  Gerekli Kütüphaneyi İçe Aktarma (import) Python da makine öğrenmesi işlemlerinin yaparken her zaman import  edeceğimiz iki kütüphanemiz vardır bunlar Numpy ve Pandas. Numpy, Matematiksel fonksiyonları içeren bir kütüphanedir. Pandas, Veri setlerini içeri aktarmak ve yönetmek için kullanılan kütüphanedir.   import numpy as np import pandas as pd Adım 2 :  Veri Setini […]

Devamını Oku

KAFKA – FLINK – STORM PLATFORMLARI

Flink Apache Flink, veri akışları üzerinden dağıtılmış hesaplama için olanaklar sağlamayı amaçlayan çekirdeği java ve scala dili ile yazılmış olan bir veri akış motorudur. Toplu iş süreçlerini özel bir veri akışı durumu olarak ele alan Flink, hem toplu işler hem de gerçek zamanlı bir işlem çerçevesi olarak etkilidir, Büyük ölçekli  verileri işleyebilir. Flink ayrıca FlinkML […]

Devamını Oku

Imputatıon – Eksik Verilerin Tamamlanması

Araştırmacılar, her ne kadar eksiksiz veri elde etmek isteselerde veriler bazı dış kaynaklı veya yazılımsal nedenlerden dolayı istenildiği gibi eksiksiz bir şekilde toplanamayabilir. Özellikle büyük veri çalışmaları üzerinde yapılan işlerde  eksiksiz veri setlerinin elde edilmesi neredeyse imkansızdır. Bu yüzden eksik verilerin tamamlanması için değişik yöntemler ortaya atılmıştır.  Genelde verinin hatalı okunması, veri kaynağında yaşanan bozulma,  bazı […]

Devamını Oku