Aplikasi Machine Learning di Bidang Riset Keuangan  

Salah satu terobosan teknologi gelombang industri 4.0 adalah Machine Learning (ML). Menurut Financial Stability Board (FSB; 2017), suatu forum think tank stabilitas keuangan global, ML adalah suatu disiplin keilmuan yang lahir dari “persilangan” antara artificial intelligence dan big data analytics. Kecerdasan buatan (Artificial Intelligence-AI) adalah disiplin ilmu yang mempelajari bagaimana cara mengembangkan kemampuan “kognisi” yang dapat dilakukan oleh komputer. Sedangkan big data analytics adalah suatu metoda untuk secara sistematis menarik insight dari suatu struktur data yang super kompleks. Dengan demikian ML sebagai suatu displin hybrid bertujuan untuk mengembangkan kemampuan mesin dalam mempelajari struktur data yang kompleks serta menghasilkan insight yang bermanfaat.

Terdapat suatu kesalah pahaman konsepsi yang umum terjadi mengenai machine learning. ML bukan mengajarkan mesin untuk dapat “menyerupai” kemampuan kognisi manusia. Sebaliknya dalam ML; manusia belajar bagaimana mesin itu sebenarnya dapat “diminta” untuk berpikir tentu dengan caranya sendiri: system, algoritma dan coding (Buchanan, 2019). Dengan perkembangan teknologi komputasi terkini; kapasitas “berpikir” mesin sudah sangat berkembang. Mesin dalam derajat tertentu sudah dapat diminta untuk memiliki “inisiatif” untuk mempelajari data yang ada; mengambil kesimpulan dan melakukan follow up yang relevan.

Saat ini kita dapat dikatakan berada dalam dunia yang hyper informed. Minimnya data untuk mengambil kesimpulan tidak lagi merupakan isu; melainkan bagaimana memilih dari ribuan bahkan jutaan atribut data yang relevan. Sederhananya adalah bagaimana kita dapat mengapung ditengah “lautan data”.

Menurut Ahrens (2019), terdapat tiga karakter struktur data kompleks yakni (a) high dimensionality, (b) tall data dan  (c) big data. High dimension data adalah suatu struktur data dimana atributnya sangat banyak dan (dapat) melampaui jumlah observasinya. Di era internet dan social media saat ini; kita dapat memperoleh sangat banyak atribut dari seorang individu. Sepuluh tahun yang lalu untuk suatu studi, katakan pemasaran, kita mungkin membutuhkan informasi seperti usia, jenis kelamin, penghasilan, estimasi kekayaan dan strata sosial. Sekarang dari individu yang sama kita dapat memperoleh informasi aktivitas ecommerce, aktivitas efinance, social media, interest (hobby, politics, religion) dan sebagainya. Sangat mungkin atribut-atribut ini memberikan pengaruh perilaku belanja. Dengan demikian studi akan memiliki katakan sejumlah 1000 responden dengan atribut yang lebih dari 1000!.

Tall data adalah data yang memiliki jumlah observasi sangat banyak. Di pasar modal; data vendor seperti Bloomberg dan Refinitive memberikan akses data (hampir) dari detik ke detik. Sehingga untuk 1 instrumen finansial dan 1 tahun saja; kita dapat memperoleh 31.536.000 observasi detik. Bayangkan jika kita melakukan observasi sebagai suatu bentuk panel: 10 instrumen untuk jangka waktu 5 tahun; itu berarti lebih dari 160 juta observasi!

Akhirnya bentuk yang paling kompleks adalah Big Data; yang merupakan gabungan dari dua jenis yang telah disebutkan diatas. Kita melakukan analisa dampak perilaku suatu atribut (misalnya komentar di twitter) terhadap keputusan membeli saham. Tidak heran dalam situasi ini; kita akan bekerja dengan jutaan bahkan milyaran observasi. Lebih menantang lagi; hasil analisa harus dapat diperoleh dalam waktu yang singkat: real time. Untuk karakter data semacam ini tentu spreadsheet seperti MS Excel sudah tidak lagi memadai. Diperlukan teknik khusus untuk mengakuisisi; menyimpan, menampilkan dan mempersiapkan (untuk analisa) yang dikenal dengan cabang ilmu Big Data Analytics.

Begitu banyak atribut yang dapat mempengaruhi suatu perilaku juga dapat diartikan pengembangan teori secara deduktif mengalami suatu tantangan berat. Kembali, dahulu kita terbiasa dengan melakukan abstraksi pemikiran yang sistematis dan logis untuk menurunkan hubungan sebab akibat diantara variabel: X dan Y. Sekarang dengan begitu banyaknya atribut; cara pengembangan keilmuan seperti ini akan sangat sulit dilakukan. Dunia keilmuan bergeser kepada pendekatan yang terbalik (reverse) dan pragmatis (Mulianathan and Spies, 2017). Jika data menunjukkan pola hubungan antara variabel; maka aktifitas konseptual baru dikerahkan untuk mejustifikasikan fenomena tersebut.

Pola pengembangan keilmuan seperti ini bertopang kepada ML (Athey and Imbens, 2019). Sebenarnya ML bukan suatu hal yang baru; Arthur Samuel memperkenalkan istilah ML dalam suatu publikasi ilmiahnya pada tahun 1959. Pengembangan dibidang komputasi: hardware, software, network, internet dan cloud computing telah “melahirkan kembali” antusiasme terhadap penggunaan metoda ini.

Fokus keilmuan dengan pendekatan ML adalah pengembangan metodologi analisa data dengan kemampuan prediksi yang reliable. Reliabilitas ini ditunjukkan oleh kemampuan suatu model untuk memprediksi hubungan diantara variabel diluar dari data yang digunakan untuk mengestimasi model (disebut validating/testing data). Data yang digunakan untuk mengestimasi model disebut dengan training data. Dengan demikian para data scientist sekarang berlomba-lomba menemukan metoda yang paling superior dalam hal ini. Keunggulan dalam prediksi yang konsisten dan tahan lama; membuka jalan bagi pemikiran filosofis-abstraksi apa yang sebenarnya terjadi diantara set variabel tersebut. Intinya menjawab pertanyaan mengapa sampai ditemukan fenomena kemampuan prediksi suatu set variabel terhadap suatu (sejumlah) variabel yang lain.

Cara pengembangan keilmuan yang diuraikan diatas adalah gaya ML; yang sangat berbeda dengan pendekatan konvensional; statistical modelling. Dalam pemodelan statistic; periset berangkat dari pertanyaan riset atau hipotesis yang disintesakan dari sejumlah teori-literatur. Dari sana suatu model statistik dibangun dengan harapan memiliki kemampuan terbaik serta paling relevan untuk  menjawab permasalah riset tersebut. Untuk menilainya akan digunakan berbagai kriteria mulai dari yang paling sederhana seperti signifikansi individual (t test); signifikansi model, R Square hingga yang paling komprehensif seperti endogenitas dan non stationaritas (jika data merupakan time series).

Pendekatan seperti ini terjadi diberbagai disiplin ilmu tidak hanya finance. Tentu saja hanya karena sekelompok variabel dapat memprediksi dengan baik perilaku suatu variabel yang lain; tidak berarti ada suatu yang fundamental diantaranya. Franses (2018) mengatakan bahwa ketika melihat perilaku hubungan diantara variabel (X dan Y) selalu ada 5 kemungkinan: (a) X mempengaruhi Y, (b) Y mempengaruhi X, (c) X dan Y saling mempengaruhi, (d) Y dan X dipengaruhi oleh variabel lain Z dan (e) X dan Y tidak ada hubungan.  Pola a sampai dengan e semuanya akan memberikan nilai kemampuan prediksi untuk model. Namun demikian secara teori; biasanya akan ada restriksi misalnya X mempengaruhi Y adalah logis tetapi tidak sebaliknya.

Uraian ringkas ini diharapkan dapat memberikan gambaran atas nilai penting yang dibawa ML. Ini adalah bidang yang “dilahirkan kembali” dan sangat menjanjikan sebagai suatu alternatif pengembangan keilmuan. Pengakuan yang baik telah diperoleh dikalangan dunia ilmiah (terlebih lagi para praktisi) berarti karya-karya monumental berpotensi memberikan reward yang luar biasa bagi mereka yang menghasilkannya.