Korpus Linguistik
Rosemary | 25 Mei 2014
[pic]

1.0 Pengenalan
Apakah itu korpus linguistik?
Corpus linguistik adalah satu kajian bahasa dan kaedah analisis linguistik
yang menggunakan koleksi teks asli atau "sebenar perkataan" yang dikenali
sebagai corpus. Corpus linguistik digunakan untuk menganalisis dan
penyelidikan beberapa soalan linguistik dan menawarkan wawasan yang unik ke
dalam dinamik bahasa yang telah menjadikan ia salah satu daripada
metodologi linguistik yang paling banyak digunakan.
Sejak corpus linguistik melibatkan penggunaan korpora besar yang terdiri
daripada berjuta-juta atau kadangkala bilion kata-kata, ia banyak
bergantung kepada penggunaan komputer untuk menentukan apa kaedah-kaedah
mengawal bahasa dan apa patters (tatabahasa atau leksikal misalnya)
berlaku. Oleh itu, ia tidak menghairankan bahawa linguistik korpus muncul
dalam bentuk moden hanya selepas revolusi komputer pada 1980-an. The Brown
Corpus, corpus moden dan boleh dibaca secara elektronik yang pertama,
bagaimanapun, telah dicipta oleh Henry Kucera dan W. Nelson Francis seawal
tahun 1960-an.
2.0 Kaedah korpus lingustik
Corpus Linguistik telah menjana beberapa kaedah penyelidikan, cuba untuk
mengesan laluan dari data teori. Wallis dan Nelson (2001) mula
diperkenalkan apa yang mereka dipanggil perspektif 3A: Anotasi,
Pengekstrakan dan Analisis.
. Anotasi terdiri daripada permohonan skim untuk teks.
. Pengekstrakan terdiri daripada terjemahan (pemetaan) istilah di dalam
skim ini kepada terma dalam model didorong secara teori atau
dataset. Pengekstrakan biasanya termasuk ahli bahasa-diarahkan carian
tetapi mungkin termasuk contohnya, memerintah-pembelajaran untuk parsers.
. Analisis terdiri daripada statistik menyelesaikan sesuatu, memanipulasi
dan generalising dari dataset itu. Analisis mungkin termasuk penilaian
statistik, pengoptimuman peraturan asas atau kaedah penemuan pengetahuan.
Kebanyakan korpora leksikal hari ini adalah sebahagian-of-ucapan-tagged
(POS-tagged). Walau bagaimanapun juga ahli bahasa corpus yang bekerja
dengan 'teks biasa unannotated' tidak dapat tidak memohon kaedah untuk
mengasingkan beberapa terma-terma penting. Dalam situasi ini anotasi dan
abstraksi digabungkan dalam carian leksikal.
Kelebihan menerbitkan corpus beranotasi ialah pengguna lain boleh melakukan
uji kaji ke atas korpus. Ahli bahasa dengan kepentingan-kepentingan lain
dan perspektif berbeza daripada ciptaan asal boleh mengeksploitasi kerja
ini. Dengan berkongsi data, ahli bahasa corpus dapat merawat korpus sebagai
lokus perdebatan linguistik, dan bukannya sebagai satu bentuk huruf lengkap
pengetahuan.
3.0 Kelebihan korpus linguistik
. Memberi akses kepada maklumat linguistik naturalistik. Seperti yang
dinyatakan sebelum ini, korpora terdiri daripada "perkataan yang benar"
teks yang kebanyakannya hasil daripada situasi kehidupan sebenar.Ini
menjadikan korpora sumber kajian yang berharga untuk Dialektologi,
sosiolinguistik dan gaya bahasa.
. Memudahkan penyelidikan linguistik. Korpora boleh dibaca secara
elektronik telah dikurangkan secara mendadak masa yang diperlukan untuk
mencari perkataan atau frasa tertentu. Satu penyelidikan yang akan
mengambil hari atau tahun untuk disiapkan secara manual boleh dilakukan
dalam masa beberapa saat dengan tahap tertinggi ketepatan.
. Membolehkan kajian pola yang lebih luas dan penempatan bersama kata-
kata.Sebelum kemunculan komputer, linguistik korpus belajar hanya kata-
kata tunggal dan kekerapan mereka. Teknologi moden dibenarkan kajian
patters lebih luas dan penempatan bersama kata-kata.
. Membolehkan analisis pelbagai parameter pada masa yang sama. Pelbagai
program perisian linguistik korpus, pemasaran online dan alat-alat
analitikal membenarkan penyelidik untuk menganalisis bilangan yang lebih
besar daripada parameter serentak. Selain itu, banyak korpora diperkaya
dengan pelbagai maklumat linguistik seperti anotasi.
. Memudahkan kajian bahasa kedua. Kajian bahasa kedua dengan penggunaan
bahasa semula jadi membolehkan pelajar untuk mendapatkan "perasaan" lebih
baik untuk bahasa dan belajar bahasa seperti ia digunakan dalam sebenar
dan bukannya "mencipta" situasi.
4.0 Kelemahan korpus lingustik
. Tidak menjelaskan mengapa. Kajian korpora memberitahu kita apa dan
bagaimana berlaku tetapi ia tidak memberitahu kami mengapa kekerapan
perkataan tertentu telah meningkat dari masa ke masa misalnya.
. Tidak mewakili keseluruhan bahasa. Korpus linguistik mengkaji bahasa
dengan menggunakan korpora dipilih secara rawak atau sistematik. Mereka
biasanya terdiri daripada sebilangan besar yang berlaku secara semulajadi
teks, bagaimanapun, ia tidak mewakili keseluruhan bahasa. Analisis
linguistik yang menggunakan kaedah dan alat linguistik korpus itu tidak
mewakili keseluruhan bahasa.





Deny Arnos Kwary dan Linguistik Korpus
02 March 2016
Dosen merupakan seseorang yang memiliki posisi terpenting dalam
kelangsungan sistem pendidikan di setiap universitas seluruh dunia. Dosen
akan selalu diharapkan agar dapat memberikan sebuah perkembangan besar dan
signifikan dalam dunia akademik itu sendiri.
Seakan membuktikan pernyataan tersebut, tahun ini salah seorang dosen
sekaligus kepala Departemen Sastra Inggris Universitas Airlangga, Bapak
Deny Arnos Kwary, tengah mengumumkan rencana penelitian besarnya yang
harapannya akan menciptakan sebuah perkembangan besar dalam bidang yang
beliau geluti, yaitu linguistik korpus. Penelitian tersebut berjudul
Formulasi Klasifikasi Kosakata, Jenis Pemarkah Waktu, dan Bentuk Kalimat di
Artikel Ilmiah Jurnal Internasional. Penelitian ini mendapatkan dana hibah
dari Universitas Airlangga sebagai bentuk usaha universitas untuk
meningkatkan publikasi ilmiah bagi tenaga-tenaga akademiknya.
Dosen di Indonesia terus didorong untuk menggiatkan publikasi di tataran
internasional. Akan tetapi, seringkali dosen kesulitan dalam mengumpulkan
hasil penelitiannya ke jurnal-jurnal kelas