Protein protein etkileşimlerini ve varyantların 3 boyutlu protein yapısındaki etkilerini esas alan varyant patojenite tahmini


ABDULLAH ALPER BÜLBÜL

Tez Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: İstanbul Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü, Moleküler Biyoloji-Genetik ve Biyoteknoloji, Türkiye

Tez Danışmanı: Eda Tahir Turanlı

Tezin Onay Tarihi: 2021

Tezin Dili: İngilizce

Özet:

Nadir hastalıklar populasyonlar arasında farklı sıklıkları vardır. Örneğin kistik fibroz Uzak Doğu populasyonunda az görülürken Avrupa populasyonunda daha yüksek görülmektedir. Genel olarak 2,000 kişide bir görülen hastalıklara nadir hastalıklar denir. Dünya genelinde 300 milyon kişi bilinen 7000 nadir hastalıktan bir tanesinin hastasıdır. Bu 7000 hastalığın çoğunluğu genetik tabanlı ve erken yaşta ortaya çıkmaktadır. Bu gruptaki birçok hastalıkların prognosis ve genetik yatkınlığı tam olarak aydınlatılamamıştır. Örneğin Ailesel Akdeniz Ateşi hastalığı ile MEFV genini ilişkilendirilmektedir. Fakat hastaların %20'sinde bilinen FMF ilişkili MEFV mutasyonu bulunmamaktadır. Önemi bilinmeyen varyantların teşisi büyük önem arz etmektedir. Bunun için SAID hastalıklarına spesifik geliştirdiğimiz mutasyon tahmin aracının yararlı olacağını ön görmekteyiz. Variant of unknown significange (VUS) lar complex hastalıklarda veya genetik hastalıklarda tam olarak benign veya pathojenik sınıflandırmaya girememiş fakat hastalıkla ilişkili olduğu bilinen mutasyonlardır. Bu mutasyonların hastalıkla nasıl ilişkili olduklarını incelemek için expresyon analizleri (RNA-seq, RT-PCR), hücre içi lokasyonlarının değişimi gözlemlenmesi (in situ Proximity Ligation Assay (PLA)) protein protein etkileşimlerinin incelenmesi (Yeast-two-hibrid, imminopresipitation base methods(Tandem affinity purification)) gerekmektedir. Bunun yanında komputasyonal olarak mutasyonların benign veya pathojenik olduklarını tahmin etmek için geliştirilen tahmin araçları kullanılmaktadır. Monogenik otoinflamatuar hastalıklardaki mutasyonları içeren Infevers database ine baktığımız zaman toplamda 2502 mutasyon bulunmaktadır. Bu mutasyonlardan missense bening olanların sayısı 137 dir. Pathojenik missense mutasyonaların sayısı ise 589 dur. Bununla birlikte toplam VUS ların sayısı 471 dir. 471 VUS mutasyonun 420 si missense VUS dur. Bu sonuçtan da anlaşıldığı gibi missense mutasyonların hastalıklara etkisini belirlemek indel, çerçeve kayması veya nonsense mutasyonlara görece daha zordur. Monogenic hastalıklardaki missense mutasyonları belirlemek için geliştirdiğimiz mutasyon tahmin aracı da missense mutasyonların pathojenik veya benign durum tahmini yapmaktayız. İnsan genomunun referans dizisindeki değişikliklerin fenotipe etkileri çeşitli yollarla olmaktadır. Örneğin DNA üzerindeki metilasyon bölgeleri olan CpG adalarındaki değişiklik o locusun promoter olarak görev aldığı genin ürünlerinin miktarını etkilemektedir. Mutasyonların başka bir etkiside exonic bölgedeki değişimlere neden olmalarıdır. Ekzonik bölgedeki bu varyasyonlar organizmaların fonksiyonel ve yapısal birimi olan proteinlerde yapısal değişikliğe neden olmaktadır. Bu varyasyonlar proteinlerin görevlerini yapmak için gerekli olan protein - protein etkileşim özelliklerini değiştirebilmektedirler. Bu tez çalışmasında etkileşim özelliklerinin değişikliklerini göz önünde bulundurarak varyant patojenite testi geliştirmek hedeflenmiştir. Proteinlerin doğal olarak gerçekleştirdikleri interaksiyonlar intact ve STRING veri tabanlarından alınmıştır. Proteinlerin 3 boyutlu modelleri trRosetta ab-initio, şablonsuz modelleme aracı ile elde edilmiştir. Bu çalışmayı diğer mutasyon tahmin araçlarından ayıran bir diğer özellik ise yapısal ve dizi temelli özelliklerin (delta delta G (ddG), SPRINT score, ZDOCK skoru) ağırlıklandırılmasında HGPEC gen-hastalık önceliklendirme aracı kullanılmıştır. Hastalıklara özel mutasyon tahmin aracında model hastalık grubu olarak sistemic Otoinflamatuar hastalıklar seçilmiştir. Infevers veri tabanından elde edilen bening ve pathojenik mutasyonların elde edilen ZDOCK, SPRINT, ve ddG değerleri ikili sınıflandırma makina öğrenmesi methodları kullanılarak modeller oluşturulmuştur. Bu modellerden en yüksek skora sahip model Random Forest modeli olmuştur. ROCAUC değeri (kfold=20) %93 dir. Tahminlerde ZDOCK, ddG, SPRINT verilerinin kullanılmasının anlamlı olup olmadığını incelemek için diğer yapay zeka yöntemleriyle modeller oluşturulmuştur. Bu modeller Doğrusal Destek Vektör Makinesi, Stokastik Gradyan İniş, Lojistik Regresyon ve Sinir Ağıdır. Bu yöntemlerin ROCAUC değerleri sırasıyla %75, %73, %74 ve %85 şeklindedir. Bu durum ZDOCK, ddG, SPRINT değerlerinin patojenik ve iyi huylu mutasyonları ayırt etmede kullanılabileceğini göstermektedir. Çünkü diğer yöntemlerdeki ROCAUC değerleri küçük olmasına rağmen yine de benzer ve ayırt edici sonuçlar vermiştir. Infevers veri tabanında bulunan mutasyonların yapısal pdb dosyalarında pyrosetta aracı ile üretildikten sonra mutasyonların yapanıl olarak yaptıkları etkileşimlerin mutasyonlu residuelere uzaklıkları 10 Angstrom uzunluğunda kesim noktası ile incelenmiştir. Bu kritere uygun 284 mutasyon bulunmuştur. Bu mutasyonların 41 tanesi bening mutasyonlardır. Geri kalan mutasyonlar ise patojenik mutasyonlardır. Benign mutasyonların %10 ve patojenik mutasyonların %20'si test verisi olarak ayrılmıştır ve geri kalan mutasyonlarla seçilen yöntemlerle test edilmiştir. Random Forest modelinde yine en yüksek sonuçlar elde edilmiştir. Bu modelin ROCAUC değeri %94 dür. Son olarak Infevers veri tabanındaki missense VUS ların ZDOCK, ddG, ve SPRINT değerleri hesaplandıktan sonra oluşturulan RandomForest modeline göre tahminleri websitesi üzerinden yayınlanabilir. Bunun yanında monogenic autoinflammatory hastalıklardaki genlerdeki mutasyonların incelenmesi için ZDOCK, SPRINT ve ddG değerlerini hesaplayan bir sunucu ile web sitesi üzerinden mutasyon tahminleri yapılmasına olanak sağlanabilir. İleriki çalışmalarda hastalıkların gen ve semptome benzerliklerine göre benzerlik ağı oluşturulabilir. Bu sayede mutasyon tahmini yapılacağı zaman hastanın semptomlarına göre mutasyon değerlerinin yeniden ağırlıklandırılmasına olanak sağlayabilecektir. Bu sayede dolaylı olarak mutasyonların semptom ilişkisi tahmin edilebilecektir. Aynı zamanda farklı hastalık gruplarının ilişkiside anlaşılabilecektir. Oluşturduğumuz tahmin aracı tüm exonic varyasyonları tahmin etme kapasitesine ulaşacaktır. Ayrıca geliştirilecek olan tahmin aracının veriseti artacağı için oluşturulacak modellerin doğruluk değerleri artacaktır. Protein 3 boyutlu yapısının oluşturulmasında kullanılacak yöntemlerin doğruluk değerleri zaman geçtikçe artmaktadır. Ve zaman geçtikçe X-ray crystallography, NMR, ve cyro elektron mikroskobu yontemleri ile elde edilen proteinlerin 3 boyutlu yapılarıda kullanılabilecektir. Bu sayede daha gerçekçi sonuçlar elde edilebilecektir. Aynı zamanda sadece missense mutasyonların dışında insersiyonlar, delesyonlar, ve çerçeve kayması mutasyonlarınında proteinin 3 boyutlu yapısına etkisi incelenebilecektir. Proteinlerin birbirleri ile etkileşimlerinin hücre mekanizmalarında en önemli etken olmasının yanında proteinin işleyişine etki eden kimyasallar ve post-transtripsiyonel modifikasyonlarda bulunmaktadır. Bu etkileşimlerin de proteinin 3 boyutlu yapısındaki etkileri ve protein kimyasal etkileşiminin ortalama değişimide göz önüne alınabilir.