Kita sudah membicarakan tentang Pengertian data kualitatif dan kuantitatif serta Jenis Skala Pengukuran, selanjutnya kita akan melihat tentang pengertian regresi serta regresi linear berganda.
Pengertian Regresi dan Regresi Linear Berganda
Dalam kebanyakan fenomena alam, menaksir rerata populasi, atau menguji perbedaan dua rerata dengan teknik uji statistika, baik yang memerlukan asumsi sebaran khusus (parametrik) maupun yang tidak ketat asumsi sebarannya (nonparametrik) menjadi tidak efisien dan tidak efektif lagi. Hal ini disebabkan oleh banyaknya peubah yang berhubungan dan saling menjelaskan antara yang satu dengan yang lainnya. Misalnya, kita akan memperkirakan nilai jual sebuah rumah di suatu daerah tertentu. . Kita dapat mengambil sampel acak dari ratusan rumah yang ada dalam daerah tersebut, kemudian kita menghitung rerata harga jualnya. Tetapi, menggunakan metode ini, kita mengabaikan informasi yang mudah diamati, misalnya luas lantai, banyaknya kamar tidur, banyaknya kamar mandi, dan umur rumah tersebut. Informasi ini akan lebih bermanfaat kalau digunakan menaksir nilai jual rumah yang bersangkutan.
Dari latar belakang yang kita perhatikan di atas, metode atau analisis regresi merupakan topik penting untuk dibicarakan. Metode regresi sudah menjadi bagian integral dari setiap analisis data yang memperhatikan hubungan antara satu peubah respons
(response variable) dengan satu atau lebih peubah penjelas (explanatory variables). Istilah peubah respons kadang-kadang juga disebut peubah terikat (dependent variable), dan peubah penjelas disebut peubah penaksir (predictor variable) atau peubah bebas (independent variable). Penggunaan istilah ini biasanya disesuaikan dengan situasi peubah-peubah yang dipelajari hubungannya, dan juga selera penggunanya.
Pertama-tama kita akan membicarakan masalah yang berkaitan dengan nilai rerata suatu peubah terikat Y (katakanlah harga jual rumah) terhadap suatu peubah bebas X (misalnya luas lantai rumah) dengan menggunakan hubungan linear, yaitu secara matematis ditulis dengan:
Y = ?0 + ?1X +?
Parameter (?0 (baca; beta nol) dan (?1 (baca; beta satu) pada umumnya tidak diketahui dan merupakan besaran yang akan ditaksir. Kemudian, c adalah kesalahan acak (random error). Taksiran ?0 merupakan konstanta yang biasa disebut penggalan (intercept), sedangkan (?1 disebut tanjakan (slope) untuk X. Model ini disebut model linear karena semua peubah yang muncul dalam model itu berpangkat satu. Kalau dilihat dari banyaknya peubah bebas dalam model, model itu disebut model linear sederhana, karena hanya mempunyai satu peubah bebas.
Dalam hal mempelajari hubungan antarpeubah, regresi linear bukan satu-satunya model yang harus digunakan, kita juga dapat menggunakan model tidak linear (nonlinear model), seperti model kuadratik, kubik, eksponen, logaritma, dan lain-1ain. Penentuan model tergantung pada sifat peubah atau populasi tempat data diambil. k belum menentukan model pilihan, kita perlu mengadakan suatu diagnosis terhadap data yang diperoleh. Diagram pencar (scatter plot) adalah salah satu alat diagnosis untuk mendapatkan gambaran tentang hubungan antara peubah bebas dan peubah terikat. Dari diagram pencar itu, kita dapat memperkirakan bahwa rnodel yang relevan adalah linear atau tidak linear.
Selanjutnya, kalau kita memasukkan lebih dari satu peubah bebas dalam model, kita memperoleh model regresi ganda (multiple regression model). Seperti model sederhana, model regresi ganda dapat juga dibedakan atas model regresi linear ganda dan model regresi tidak linear ganda. Dalam hal ini, kita dapat membangun model satu peubah terikat Y (katakanlah nilai jual rumah) sebagai fungsi dari peubah-peubah kuantitatif (seperti luas lantai, umur rumah, luas pekarangan, dan banyaknya kamar), atau sebagai fungsi dari peubah-peubah kualitatif (seperti jenis konstruksi dan lokasi).
Pada kesempatan ini, kita masih membatasi diri untuk tidak berbicara lebih terperinci tentang model dan analisisnya. Andaikan ada dua peubah bebas X1 dan X2yang kita asumsikan mempunyai hubungan linear dengan satu peubah terikat Y, model dapat ditulis dengan:
Y = ?0 + ?1X1 + ?2X2+?
Simbol-simbol (?0, ?1, dan ?2 menyatakan koefisien regresi atau parameter yang akan ditaksir, sedangkan s (baca; epsilon) disebut komponen acak yang memiliki sifat-sifat sebaran tertentu. Pada umumnya, s diasumsikan tersebar normal dengan nilai harapan atau rerata sama dengan nol, dan variansi terhingga, serta sigma kuadrat. Model seperti ini masih dapat dikembangkan untuk tiga atau lebih peubah bebas. Model regresi ganda seperti ini dibangun dengan mempertimbangkan hubungan antarpeubah.