Gürkan Özsoy Blog
Tamamen Kişisel
Esnek istatistiksel yöntem sağlık, iklim ve finansal veriler üzerine araştırmalara güç veriyor
Makine öğrenimi ve yapay zeka, analitik yeteneklerinin temelini oluşturan istatistiksel modeller olmadan mümkün olamazdı. Cornell’den bir istatistikçi ve meslektaşı, karmaşık veri kümelerini analiz etmek için daha esnek, doğru ve kullanımı kolay, devrim niteliğinde yeni bir yöntem geliştirdi.
Cornell Ann S. Bowers College of Computing and Information Science ile Tarım ve Yaşam Bilimleri Fakültesi’nin ortak bölümü olan istatistik ve veri bilimi alanında doçent olan Dan Kowal, 1 Ekim’de Journal of the American Statistical Association’da yayınlanan “Monte Carlo Inference for Semiparametric Bayesian Regression” başlıklı makalenin baş yazarı. Eş yazar ise şu anda Columbia Üniversitesi’nde doktora öğrencisi olan Bohan Wu. Kowal, “Bu yöntem, dağınık verilerle çalışırken ve çeşitli etkilerin karmaşıklığını çözmeye çalışırken insanlara daha fazla güç veriyor” dedi. “İnsanların güvenilir modeller kullanmasını istiyorum, böylece sinyali gürültüden gerçekten ayırabilirler. Bu yöntemin çok çeşitli veri türleri, dağılımları ve ortamlarında bunu yapabildiğini deneysel olarak gördük. Bu tam da bir istatistikçi olarak beni heyecanlandıran türden bir katkı.”
Bayesian regresyon analizi, araştırmacıların tek bir tahmin yerine bir dizi sonucu tahmin etmelerini sağlar. Kowal’ın modeli, çan eğrisine tam olarak uymayan “daha karmaşık verileri” analiz etmek için özel olarak tasarlandı. Sağlık hizmetleri kullanımı, aile gelirleri, finansal piyasalar ve iklim olayları da dahil olmak üzere çok çeşitli konularda analiz ve tahminler yapabiliyor. Örneğin, doktorlar bazen hastalarından “Son 30 gün içinde kaç gün ruh sağlığınız iyi değildi?” gibi sorularla ruh sağlıkları hakkında kendi kendilerine rapor vermelerini isterler. Kowal, insanların büyük bir kısmının “0”, bir diğer büyük kısmının ise “30” cevabını verdiğini, geri kalanların ise genellikle 5 veya 7’lik artışlarla cevap vererek tahminlerde bulunduğunu söyledi.
“Bu gibi verilerde, verinin kendisinden çok kişinin kendini raporlamasıyla ilgili olan yanıtlarda bu ani artışları elde edersiniz” dedi.
Kowal’ın yeni yöntemi araştırmacılar için de kullanımı daha kolay. Bayesian regresyon analizleri tipik olarak, algoritmanın kendisinin bozulmadığından emin olmak için büyük miktarda hesaplama gücü ve çoklu tanılama gerektiren karmaşık bir algoritmanın (Markov zinciri Monte Carlo olarak adlandırılır) kullanılmasını gerektirir. Kowal’ın yöntemi bu algoritmadan kaçınıyor. “İnsanlar Markov zinciri Monte Carlo’yu kullandıklarında, işlerin yolunda gittiğinden emin olmak için her türlü tanılamayı yapmak zorunda kalıyorlar. Algoritma, modelden ve gerçekten önemsediğiniz verilerden bağımsız olarak kendi çabasını gerektirir” dedi. “Bu makalede, aslında bunu tamamen atlatıyoruz ama yine de model esnekliğini ve sonuçları tahmin etmedeki doğruluğu koruyoruz.”
Kowal, yeni yönteminin nasıl kullanılacağına dair belgeler ve örnekler içeren bir web sitesi kurdu ve istatistiksel hesaplama için açık kaynaklı programlama için önde gelen web sitesi olan CRAN’da ücretsiz, indirilebilir bir yazılım yayınladı.
Daha fazla bilgi: Daniel R. Kowal et al, Monte Carlo Inference for Semiparametric Bayesian Regression, Journal of the American Statistical Association (2024). DOI: 10.1080/01621459.2024.2395586