sayfa_afişi

haberler

Büyük Dil Modeli (LLM), hızlı kelimelere dayalı ikna edici makaleler yazabilir, mesleki yeterlilik sınavlarını geçebilir ve hasta dostu ve empatik bilgiler sunabilir. Ancak, LLM'deki kurgu, kırılganlık ve yanlış bilgiler gibi bilinen risklere ek olarak, yaratım ve kullanımlarında potansiyel olarak ayrımcı "insan değerleri" içeren yapay zeka modelleri gibi çözülmemiş diğer sorunlar da giderek odak noktası haline geliyor. LLM artık içerik üretmese ve açıkça zararlı çıktıları ortadan kaldırsa bile, "LLM değerleri" insan değerlerinden sapmaya devam edebilir.

 

Sayısız örnek, yapay zeka modellerini eğitmek için kullanılan verilerin bireysel ve toplumsal değerleri nasıl kodladığını ve bunların model içinde nasıl somutlaşabileceğini göstermektedir. Bu örnekler, göğüs röntgenlerinin otomatik yorumlanması, cilt hastalıklarının sınıflandırılması ve tıbbi kaynak tahsisine ilişkin algoritmik karar alma gibi bir dizi uygulamayı kapsamaktadır. Dergimizde yakın zamanda yayınlanan bir makalede belirtildiği gibi, önyargılı eğitim verileri toplumdaki değerleri ve önyargıları güçlendirebilir ve ortaya çıkarabilir. Aksine, araştırmalar yapay zekanın önyargıyı azaltmak için de kullanılabileceğini göstermiştir. Örneğin, araştırmacılar diz röntgen filmlerine derin öğrenme modelleri uyguladılar ve diz eklemindeki standart şiddet göstergelerinin (radyologlar tarafından derecelendirilen) gözden kaçırdığı faktörleri keşfederek siyah ve beyaz hastalar arasındaki açıklanamayan ağrı farklılıklarını azalttılar.

Yapay zeka modellerindeki, özellikle eğitim verileri açısından, önyargıların giderek daha fazla kişi tarafından fark edilmesine rağmen, yapay zeka modellerinin geliştirilmesi ve devreye alınması sürecinde insan değerlerinin birçok başka giriş noktasına yeterince önem verilmiyor. Tıbbi yapay zeka son zamanlarda etkileyici sonuçlar elde etmiş olsa da, büyük ölçüde insan değerlerini ve bunların risk değerlendirmesi ve olasılıksal akıl yürütmeyle etkileşimini açıkça dikkate almamış ve modellenmemiştir.

 

Bu soyut kavramları somutlaştırmak için, yaşının 3. persentilinin altında olan 8 yaşında bir erkek çocuğa rekombinant insan büyüme hormonu reçete etmesi gereken bir endokrinolog olduğunuzu düşünün. Çocuğun uyarılmış insan büyüme hormonu seviyesi 2 ng/mL'nin altındadır (referans değeri >10 ng/mL, Amerika Birleşik Devletleri dışındaki birçok ülke için referans değeri >7 ng/mL'dir) ve insan büyüme hormonu kodlayan geninde nadir görülen inaktivasyon mutasyonları tespit edilmiştir. Bu klinik ortamda insan büyüme hormonu tedavisinin uygulanmasının açık ve tartışılmaz olduğuna inanıyoruz.

Aşağıdaki senaryolarda insan büyüme hormonu tedavisinin uygulanması tartışmalara yol açabilir: 14 yaşında bir çocuğun boyu her zaman akranlarının 10. persentilinde olmuştur ve uyarıdan sonra insan büyüme hormonunun zirvesi 8 ng/mL'dir. Boyu etkileyebilecek bilinen fonksiyonel mutasyon veya kısa boyun bilinen başka nedenleri yoktur ve kemik yaşı 15 yaşındadır (yani gelişimsel gecikme yoktur). Tartışmanın sadece bir kısmı, izole büyüme hormonu eksikliğinin teşhisinde kullanılan insan büyüme hormonu seviyeleri ile ilgili onlarca çalışmaya dayanarak uzmanlar tarafından belirlenen eşik değerlerdeki farklılıklardan kaynaklanmaktadır. En az bir o kadar tartışma, hastalar, hasta ebeveynleri, sağlık profesyonelleri, ilaç şirketleri ve ödeyicilerin bakış açılarından insan büyüme hormonu tedavisinin risk-fayda dengesinden kaynaklanmaktadır. Pediatrik endokrinologlar, 2 yıl boyunca günlük büyüme hormonu enjeksiyonlarının nadir görülen yan etkilerini, yetişkin vücut boyutunda şimdiye kıyasla hiç veya çok az büyüme olasılığı ile karşılaştırabilirler. Erkek çocukları, boylarının sadece 2 cm uzamasının bile büyüme hormonu enjeksiyonuna değeceğini düşünebilir, ancak ödeyici ve ilaç şirketinin görüşleri farklı olabilir.

 

Örnek olarak, kronik böbrek hastalığının teşhis ve evrelemesinde, böbrek nakli veya bağışı koşullarının belirlenmesinde ve birçok reçeteli ilaç için redüksiyon kriterlerinin ve kontrendikasyonların belirlenmesinde yaygın olarak kullanılan bir böbrek fonksiyonu göstergesi olan kreatinin bazlı eGFR'yi ele alalım. EGFR, bir referans standardı olan ölçülen glomerüler filtrasyon hızını (mGFR) tahmin etmek için kullanılan basit bir regresyon denklemidir, ancak değerlendirme yöntemi nispeten zahmetlidir. Bu regresyon denklemi bir yapay zekâ modeli olarak kabul edilemez, ancak insan değerleri ve olasılıksal akıl yürütme hakkında birçok ilkeyi örneklendirir.

İnsan değerlerinin eGFR'ye girmesi için ilk giriş noktası, denklemleri uydurmak için veri seçerken ortaya çıkar. eGFR formülünü tasarlamak için kullanılan orijinal kuyruk çoğunlukla siyah ve beyaz katılımcılardan oluşmaktadır ve diğer birçok etnik gruba uygulanabilirliği net değildir. İnsan değerlerinin bu formüle girmesi için sonraki noktalar şunlardır: böbrek fonksiyonunu değerlendirmek için birincil hedef olarak mGFR doğruluğunun seçilmesi, kabul edilebilir doğruluk düzeyinin ne olduğu, doğruluğun nasıl ölçüleceği ve eGFR'nin klinik karar alma süreçlerini (böbrek nakli için koşulların belirlenmesi veya ilaç reçete edilmesi gibi) tetiklemek için bir eşik olarak kullanılması. Son olarak, girdi modelinin içeriği seçilirken, insan değerleri de bu formüle dahil edilecektir.

Örneğin, 2021'den önce kılavuzlar, eGFR formülündeki kreatinin düzeylerinin hasta yaşı, cinsiyeti ve ırkına (sadece siyah veya siyah olmayan bireyler olarak sınıflandırılan) göre ayarlanmasını öneriyordu. Irka dayalı ayarlama, mGFR formülünün doğruluğunu artırmayı amaçlıyordu, ancak 2020'de büyük hastaneler, hastanın nakil uygunluğunu geciktirmek ve ırkı biyolojik bir kavram olarak somutlaştırmak gibi nedenlerle ırka dayalı eGFR kullanımını sorgulamaya başladı. Araştırmalar, eGFR modellerini ırk açısından tasarlamanın doğruluk ve klinik sonuçlar üzerinde derin ve değişken etkileri olabileceğini göstermiştir; bu nedenle, seçici bir şekilde doğruluğa odaklanmak veya sonuçların bir kısmına odaklanmak değer yargılarını yansıtır ve şeffaf karar almayı maskeleyebilir. Son olarak, ulusal çalışma grubu, performans ve adalet sorunlarını dengelemek için ırkı dikkate almadan yeniden düzenlenen yeni bir formül önerdi. Bu örnek, basit bir klinik formülün bile insan değerlerine birçok giriş noktası olduğunu göstermektedir.

Hastanedeki ameliyathanede sanal gerçeklik kullanan doktor. Cerrah, teknolojik dijital fütüristik sanal arayüz, dijital holografik, bilim ve tıpta yenilikçi konsept üzerinde hasta kalp testi sonucunu ve insan anatomisini analiz ediyor.

Klinik formüllerle karşılaştırıldığında, LLM milyarlarca ila yüz milyarlarca parametreden (model ağırlıkları) veya daha fazlasından oluşabilir ve bu da anlaşılmasını zorlaştırır. "Anlaşılması zor" dememizin nedeni, çoğu LLM'de soru sorma yoluyla yanıtları almanın tam yolunun haritalanamamasıdır. GPT-4 için parametre sayısı henüz açıklanmadı; selefi GPT-3'ün 175 milyar parametresi vardı. Daha fazla parametre, daha güçlü yetenekler anlamına gelmez, çünkü daha fazla hesaplama döngüsü içeren daha küçük modeller (LLaMA [Büyük Dil Modeli Meta AI] model serisi gibi) veya insan geri bildirimine göre ince ayarlanmış modeller daha büyük modellerden daha iyi performans gösterecektir. Örneğin, insan değerlendiricilere göre, InstrumentGPT modeli (1,3 milyar parametreli bir model), model çıktı sonuçlarını optimize etmede GPT-3'ten daha iyi performans göstermektedir.

GPT-4'ün spesifik eğitim detayları henüz açıklanmadı, ancak GPT-3, InstrumentGPT ve diğer birçok açık kaynaklı LLM programı dahil olmak üzere önceki nesil modellerin detayları açıklandı. Günümüzde birçok yapay zeka modeli model kartlarıyla birlikte geliyor; GPT-4'ün değerlendirme ve güvenlik verileri, model oluşturma şirketi OpenAI tarafından sağlanan benzer bir sistem kartında yayınlandı. LLM programı oluşturma süreci kabaca iki aşamaya ayrılabilir: ilk ön eğitim aşaması ve model çıktı sonuçlarını optimize etmeyi amaçlayan ince ayar aşaması. Ön eğitim aşamasında, modele bir sonraki kelimeyi tahmin etmesi için eğitilmesi amacıyla orijinal internet metnini de içeren geniş bir metin sağlanır. Bu görünüşte basit "otomatik tamamlama" süreci güçlü bir temel model oluşturur, ancak aynı zamanda zararlı davranışlara da yol açabilir. İnsan değerleri, GPT-4 için ön eğitim verilerinin seçilmesi ve ön eğitim verilerinden pornografik içerik gibi uygunsuz içeriklerin kaldırılmasına karar verilmesi de dahil olmak üzere ön eğitim aşamasına dahil olacaktır. Bu çabalara rağmen, temel model hala ne yararlı olabilir ne de zararlı çıktı sonuçlarını içerebilecek kapasitede olabilir. İnce ayarın bir sonraki aşamasında pek çok yararlı ve zararsız davranış ortaya çıkacaktır.

İnce ayar aşamasında, dil modellerinin davranışı genellikle insan geri bildirimine dayalı gözetimli ince ayar ve pekiştirmeli öğrenme yoluyla derinlemesine değiştirilir. Gözetimli ince ayar aşamasında, işe alınan yüklenici personel, istemli kelimeler için yanıt örnekleri yazacak ve modeli doğrudan eğitecektir. İnsan geri bildirimine dayalı pekiştirmeli öğrenme aşamasında, insan değerlendiriciler model çıktı sonuçlarını girdi içeriği örnekleri olarak sıralayacaktır. Ardından, yukarıdaki karşılaştırma sonuçlarını "ödül modelini" öğrenmek ve pekiştirmeli öğrenme yoluyla modeli daha da geliştirmek için uygulayacaktır. İnanılmaz derecede düşük seviyeli insan katılımı, bu büyük modelleri ince ayarlayabilir. Örneğin, InstrumentGPT modeli, kitle kaynaklı web sitelerinden işe alınan yaklaşık 40 yüklenici personelden oluşan bir ekip kullanmış ve farklı nüfus gruplarının tercihlerine duyarlı bir grup açıklayıcı seçmeyi amaçlayan bir tarama testini geçmiştir.

Bu iki uç örnek, yani basit klinik formül [eGFR] ve güçlü LLM [GPT-4], insan karar alma ve insan değerlerinin model çıktı sonuçlarını şekillendirmede vazgeçilmez bir rol oynadığını göstermektedir. Bu yapay zekâ modelleri, çeşitli hasta ve hekim değerlerini yakalayabilir mi? Yapay zekânın tıpta uygulanmasına kamuoyunda nasıl rehberlik edilebilir? Aşağıda belirtildiği gibi, tıbbi karar analizinin yeniden incelenmesi, bu sorunlara ilkesel bir çözüm sağlayabilir.

 

Tıbbi karar analizi birçok klinisyene aşina değildir, ancak olasılıksal akıl yürütme (Şekil 1'de gösterilen tartışmalı klinik senaryoda insan büyüme hormonu verilip verilmemesi gibi karar vermeyle ilgili belirsiz sonuçlar için) ile değerlendirme faktörleri (bu sonuçlara bağlı öznel değerler için, değeri "fayda" olarak ölçülen, örneğin erkek boyunda 2 cm'lik bir artış değeri gibi) arasında ayrım yapabilir ve karmaşık tıbbi kararlar için sistematik çözümler sunar. Karar analizinde, klinisyenler öncelikle her bir sonuçla ilişkili tüm olası kararları ve olasılıkları belirlemeli ve ardından en uygun seçeneği seçmek için her bir sonuçla ilişkili hasta (veya diğer taraf) faydasını dahil etmelidir. Bu nedenle, karar analizinin geçerliliği, sonuç ortamının kapsamlı olup olmadığına ve fayda ölçümünün ve olasılık tahmininin doğru olup olmadığına bağlıdır. İdeal olarak, bu yaklaşım kararların kanıta dayalı ve hasta tercihleriyle uyumlu olmasını sağlayarak nesnel veriler ile kişisel değerler arasındaki boşluğu daraltır. Bu yöntem, onlarca yıl önce tıp alanına tanıtılmış ve genel nüfusa kolorektal kanser taraması için öneriler sunmak gibi, bireysel hasta karar alma ve toplum sağlığı değerlendirmesinde uygulanmıştır.

 

Tıbbi karar analizinde, fayda elde etmek için çeşitli yöntemler geliştirilmiştir. Çoğu geleneksel yöntem, değeri doğrudan bireysel hastalardan türetir. En basit yöntem, hastaların belirli bir sonuç için tercih düzeylerini dijital bir ölçek (1'den 10'a kadar değişen doğrusal bir ölçek gibi) üzerinde değerlendirdikleri bir derecelendirme ölçeği kullanmaktır; en uç sağlık sonuçları (tamamen iyileşme ve ölüm gibi) her iki uçta yer alır. Zaman değişimi yöntemi de yaygın olarak kullanılan bir diğer yöntemdir. Bu yöntemde, hastaların kötü sağlık dönemi karşılığında ne kadar sağlıklı zaman geçirmeye istekli olduklarına karar vermeleri gerekir. Standart kumar yöntemi, faydayı belirlemek için yaygın olarak kullanılan bir diğer yöntemdir. Bu yöntemde, hastalara iki seçenekten hangisini tercih ettikleri sorulur: ya belirli bir olasılıkla (p) (t) normal sağlıkta belirli sayıda yıl yaşamak ve 1-p olasılıkla ölüm riskini üstlenmek; ya da çapraz sağlık koşulları altında t yıl yaşamak. Hastalara, herhangi bir seçenek için tercihlerini göstermeyene kadar farklı p değerlerinde birkaç kez sorun, böylece hasta yanıtlarına göre fayda hesaplanabilir.
Bireysel hasta tercihlerini ortaya çıkarmak için kullanılan yöntemlere ek olarak, hasta popülasyonu için fayda sağlayacak yöntemler de geliştirilmiştir. Özellikle odak grup tartışmaları (hastaları belirli deneyimleri tartışmak üzere bir araya getirmek), hastaların bakış açılarını anlamaya yardımcı olabilir. Grup faydasını etkili bir şekilde bir araya getirmek için çeşitli yapılandırılmış grup tartışma teknikleri önerilmiştir.
Uygulamada, klinik tanı ve tedavi sürecinde faydanın doğrudan devreye alınması oldukça zaman alıcıdır. Çözüm olarak, anket soruları genellikle popülasyon düzeyinde fayda puanları elde etmek için rastgele seçilen popülasyonlara dağıtılır. Bazı örnekler arasında EuroQol 5 boyutlu anketi, 6 boyutlu fayda ağırlık kısa formu, Sağlık Fayda Endeksi ve Kansere Özgü Avrupa Kanser Araştırma ve Tedavi Örgütü Yaşam Kalitesi Anketi Çekirdek 30 aracı yer alır.


Gönderi zamanı: 01-06-2024