Model linear teritlak

kelas model statistik

Dalam perangkaan, model linear teritlak (MLT) ialah generalisasi fleksibel bagi regresi linear biasa. MLT membuat generalisasi regresi linear dengan membenarkan model linear dikaitkan dengan pemboleh ubah tindak balas melalui fungsi pautan dan dengan membenarkan magnitud varians setiap ukuran menjadi fungsi nilai ramalannya.

Model linear teritlak telah dirumuskan oleh John Nelder dan Robert Wedderburn sebagai cara menyatukan pelbagai model statistik lain, termasuk regresi linear, regresi logistik dan regresi Poisson.[1] Mereka mencadangkan kaedah kuasa dua terkecil ditimbang semula secara berulang untuk anggaran kemungkinan maksimum bagi parameter model. Anggaran kemungkinan maksimum kekal popular dan merupakan kaedah pratetap pada banyak pakej pengkomputeran statistik. Pendekatan lain, termasuk pendekatan Bayesian dan kuasa dua terkecil yang padan dengan respons varian distabilkan, telah dibangunkan.

Intuisi

sunting

Regresi linear biasa meramalkan nilai jangkaan untuk kuantiti yang tidak diketahui (pemboleh ubah bergerak balas, pemboleh ubah rawak) sebagai gabungan linear bagi satu set nilai yang diperhatikan (peramal). Ini menunjukkan bahawa perubahan yang berterusan dalam peramal membawa kepada perubahan yang berterusan dalam pemboleh ubah bergerak balas tersebut (iaitu model tindak balas linear). Ini sesuai apabila pemboleh ubah bergerak balas boleh berbeza-beza, kepada anggaran yang baik, selama-lamanya dalam mana-mana arah, atau lebih umum untuk sebarang kuantiti yang hanya berbeza dengan jumlah yang agak kecil berbanding dengan variasi dalam pemboleh ubah ramalan, cth. ketinggian manusia.

Walau bagaimanapun, andaian ini tidak sesuai untuk beberapa jenis pemboleh ubah bergerak balas. Sebagai contoh, dalam kes di mana pemboleh ubah bergerak balas dijangka sentiasa positif dan berbeza-beza dalam julat yang luas, perubahan input berterusan membawa kepada perubahan keluaran secara geometri (iaitu eksponen), dan bukannya berubah secara berterusan. Sebagai contoh, katakan model ramalan linear belajar daripada beberapa data (mungkin terutamanya diambil dari pantai yang besar) bahawa penurunan suhu 10 darjah akan menyebabkan 1,000 lebih sedikit orang melawat pantai. Model ini tidak mungkin digeneralisasikan dengan baik ke atas saiz pantai yang berbeza. Lebih khusus lagi, masalahnya ialah jika anda menggunakan model tersebut untuk meramalkan kehadiran baharu dengan penurunan suhu 10 untuk pantai yang kerap menerima 50 pengunjung pantai, anda akan meramalkan nilai kehadiran yang mustahil iaitu sebanyak -950. Secara logiknya, model yang lebih realistik sebaliknya akan meramalkan "kadar" yang berterusan bagi peningkatan kehadiran pantai (cth. peningkatan dalam 10 darjah membawa kepada dua kali ganda dalam kehadiran pantai, dan penurunan dalam 10 darjah membawa kepada separuh kehadiran). Model sedemikian disebut sebagai model tindak balas eksponen (atau model log-linear, kerana logaritma respons tersebut diramalkan berubah secara linear).

Begitu juga, model yang meramalkan kebarangkalian untuk membuat pilihan ya/tidak (pemboleh ubah Bernoulli) adalah kurang sesuai sebagai model tindak balas linear, kerana kebarangkalian dihadkan pada kedua-dua hujung (ia mestilah antara 0 dan 1). Bayangkan, sebagai contoh, model yang meramalkan kemungkinan orang tertentu pergi ke pantai sebagai fungsi suhu. Model yang munasabah mungkin meramalkan, sebagai contoh, bahawa perubahan dalam 10 darjah menjadikan seseorang dua kali lebih atau kurang berkemungkinan pergi ke pantai. Tetapi apakah maksud "dua kali lebih mungkin" dari segi kebarangkalian? Ia tidak boleh bermakna menggandakan nilai kebarangkalian (cth. 50% menjadi 100%, 75% menjadi 150%, dsb.). Sebaliknya, ia ialah kemungkinan yang digandakan: daripada kemungkinan 2:1, kepada kemungkinan 4:1, kepada kemungkinan 8:1, dsb. Model sedemikian ialah log-kemungkinan atau model logistik.

Model linear teritlak merangkumi semua situasi ini dengan membenarkan pemboleh ubah bergerak balas yang mempunyai taburan arbitrari (bukan sekadar taburan normal), dan untuk fungsi arbitrari untuk pemboleh ubah bergerak balas tersebut (fungsi pautan) untuk berubah secara linear dengan peramalnya (daripada menganggap bahawa tindak balas itu sendiri mesti berbeza secara linear). Sebagai contoh, kes ramalan bilangan pengunjung pantai di atas biasanya akan dimodelkan dengan taburan Poisson dan pautan log, manakala kes ramalan kebarangkalian kehadiran pantai biasanya akan dimodelkan dengan taburan Bernoulli (atau taburan binomial, bergantung pada bagaimana masalah itu diungkapkan) dan fungsi pautan log-kemungkinan (atau logit).

Gambaran keseluruhan

sunting

Dalam model linear teritlak (MLT), setiap hasil Y bagi pemboleh ubah bersandar diandaikan dijana daripada taburan tertentu dalam keluarga eksponen, satu kelas besar daripada taburan kebarangkalian yang merangkumi taburan normal, binomial, Poisson dan gamma, dalam kalangan yang lain. Min untuk taburan, μ, bergantung pada pemboleh ubah tidak bersandar, X, melalui:

 

dengan E(Y|X) ialah nilai jangkaan bagi Y bersyarat pada X; Xβ ialah peramal linear, gabungan linear parameter yang tidak diketahui β; g ialah fungsi pautan.

Dalam rangka kerja ini, varians lazimnya ialah fungsi, V, daripada min:

 

Adalah mudah jika V mengikut daripada keluarga eksponen untuk taburan tersebut, tetapi mungkin varians itu hanyalah fungsi nilai yang diramalkan.

Parameter yang tidak diketahui, β, biasanya dianggarkan dengan teknik kemungkinan maksimum, kemungkinan seakan maksimum atau Bayesian.

Komponen model

sunting

MLT terdiri daripada tiga elemen:

1. Keluarga eksponen bagi taburan kebarangkalian.
2. Peramal linear  
3. Fungsi pautan   seperti  

Rujukan

sunting

Petikan

sunting
  1. ^ Nelder, John; Wedderburn, Robert (1972). "Generalized Linear Models". Journal of the Royal Statistical Society. Series A (General). Blackwell Publishing. 135 (3): 370–384. doi:10.2307/2344614. JSTOR 2344614. S2CID 14154576.

Bibliografi

sunting

Bacaan lanjut

sunting

Pautan luar

sunting