MAKİNE ÖĞRENMESİ

ChatGPT isimli yeni bir yapay zekâ uygulamasından Mart sayımızda bahsetmiştik.  ChatGPT’nin yeni bir versiyonu geçenlerde kullanıma açıldı. Bu versiyon GPT4 üstüne kurulmuş ve eski versiyondan çok daha yetenekli olduğu söyleniyor.

ChatGPT makine öğrenmesi teknolojisine dayanan yetenekleri çok geniş bir sohbet robotu. Peki nedir bu makine öğrenmesi?

Makine öğrenmesi, yapay zekâ alanının bir alt başlığı. Bilgisayarların, istatistiksel algoritmalar yardımıyla yüklenen verilerin değerlendirilmesi ile öğrenme işlemini tamamlaması ve daha sonra ek bir programlamaya gerek kalmadan tahminler yapabilmesi, kararlar alabilme yeteneğine sahip olmasıdır. Makine öğrenmesinde kullanılacak algoritmalar, yapılmak istenen işe göre çeşitlilik gösterir, bazı algoritmalar bazı işler için daha uygun olabilir, ama genellikle birden fazla algoritma aynı anda kullanılır, böylece değerlendirmenin doğruluğu, birçok algoritma ile desteklenmiş olur.

Makine öğrenmesinin kullanıldığı alanlar üretilen veri miktarı ile paralel olarak artıyor, veri miktarı arttıkça bu verilerden anlamlı sonuçlar çıkarmak için bilgisayarların veri işleme güçleri vazgeçilmez hale geliyor. Makine öğrenmesi özellikle finans, sağlık, ulaşım, e-ticaret ve üretim sektöründe her geçen gün daha fazla kullanım alanı buluyor. Makine öğrenmesi algoritmaları, görüntü ve konuşma tanıma, doğal dil işleme, dolandırıcılık tespiti gibi insan müdahalesini gerektirecek tüm alanlarda kullanılıyor ve kararlar otomatik olarak verilebiliyor. Makine öğrenmesinin en güçlü olduğu alanlardan biri de işletmelerin, finansal kuruluşların daha iyi kararlar almasına yardımcı olacak geçmiş verilere dayalı olarak sonuçları ve eğilimleri, çok yüksek bir doğrulukla oranıyla tahmin edebilmesidir. Günümüzde çok revaçta olan otonom araçlar, sanal asistanlar makine öğrenmesi teknikleri olmasaydı mümkün olamazdı. Bilgisayarlar makine öğrenmesi teknikleri ile insanların akciğer MR’larına bakarak çok hassas ve hızlı bir şekilde kanser teşhisi yapma konusunda çok büyük başarı gösteriyorlar.

Temel olarak birkaç çeşit makine öğrenmesi yöntemi var, bunlar:

  1. Denetimli Öğrenme (Supervised Learning): Bu tür öğrenme kullanılan algoritmalara etiketli bir veri kümesi sağlanmasıyla gerçekleştirilir. Algoritma ile veri kümelerindeki kalıplar tanımlanır ve bu kalıplar daha sonra yeni tahminler yapmakta kullanılır. Etiketli veri, her ikili veya daha çok veri karşılığında bir sonuç verisinin olması demektir. Algoritma etiketli verileri değerlendirip bir ilişki kalıbı çıkarır ve yeni bir tahmin yapması gerektiğinde bu kalıptan yararlanır.
  2. Denetimsiz Öğrenme (Unsupervised Learning): Bu tür öğrenmede ise algoritmalar etiketlenmemiş veri kümelerini girdi olarak alırlar ve önceden tanımlanmış herhangi bir etiket veya kategori olmadan veri kümelerindeki kalıpları algoritmalar kendileri bulurlar.
  3. Yarı Denetimli Öğrenme (Semi Supervised Learning): Bu tür öğrenmede ise hem denetimli hem de denetimsiz öğrenme algoritmaları birlikte kullanılır.
  4. Takviyeli Öğrenme (Reinforced Learning): Bugünlerde ChatGPT nin de kullandığı makine öğrenmesi yöntemi olduğundan oldukça popüler olan takviyeli öğrenmede ise algoritma, tahminlerinde ödül veya ceza şeklinde geri bildirim alarak öğrenir ve normal olarak ödüllerini en üst seviyeye çıkarmak için uğraşır.

Makine öğrenmesi algoritmaları değişik işleri gerçekleştirmek için kullanılırlar, bunlar:

  1. Sınıflandırma: Bu belirli bir verinin kategorisini tahmin etmek için kullanılır. Mesela bir e-postanın spam olup olmadığının tespiti gibi.
  2. Regresyon: Belirli bir veri için sürekli bir değerin tahmin edilmesidir. Mesela özelliklerine göre bir arabanın fiyatının tahmin edilmesi gibi.
  3. Kümeleme: Benzer öğelere sahip olan veri gruplarını ayrıştırmaktır. Mesela müşterileri satın alma davranışlarına göre ayrıştırmak kümeleme işlemidir.
  4. Tahmin: Çeşitli şekillerde analiz edilip değerlendirilen veriler ışığında yeni tahminler yapabilme özelliğidir ki makine öğrenmesinin de esas amacı budur.

Bu işlemleri yapabilmek için her işlem ve yöntem için çok sayıda algoritma mevcut. Her gün de yenileri ortaya çıkıyor. Bu tür algoritmaların temelinde istatistiksel matematik var, bu yüzden algoritmaların geçmişi 1940, 1950’lere dayanıyor. Her biri bir doktora tezi olacak kadar geniş bir araştırma ve çalışma gerektiriyor. Genellikle üniversitelerin matematik veya istatistik bölümlerinden çıkıyor bu algoritmalar, son dönemde ise Google, OpenAI, IBM, Meta ve Microsoft gibi belli başlı büyük şirketlerde de bu tür çalışmalar için bütçe ayrılıyor. Bizim ülkemizde geliştirilmiş bir makine öğrenmesi algoritması ben duymadım. Ama yurtdışında bu alanda çalışan bazı Türk akademisyenler ve bilişimciler mevcut. Biz ise birçok diğer ülke bilişimcileri gibi daha çok yapmak istediğimiz işe göre doğru algoritmaları bulup kullanma konusunda know how geliştirme ile uğraşıyoruz, bu da yabana atılmayacak oldukça ciddi bir uğraş.

Algoritmalara veri sağlamak ise işin başarılmasında en kritik faktör. Bu algoritmalar çok büyük veriler üzerinde çalışıyorlar, bir algoritmadan kabul edilebilir sonuç almak için en az 2 senelik veriye gereksinim var, daha fazla varsa daha iyi tabii. Bu veri kümelerinin temizliği ve kalitesi ise makine öğrenmesindeki eğitim kalitesini doğrudan etkiliyor. Bu yüzden veri kümeleri makine öğrenmesinde doğrudan kullanılmadan bazı işlemlerden geçirilerek iyileştiriliyor.

Makine öğrenmesi konusunda da açık ara lider programlama dili Python ve kütüphaneleri. Performans gerektiren bazı algoritmalar ise C ve Fortran dillerinde yazılıp Python’a ekleniyor.