Cara menggunakan kompresi untuk mendeteksi halaman berkualitas rendah - Beragampengetahuan

Konsep kompresibilitas sebagai sinyal kualitas belum diketahui secara luas, namun SEO harus mewaspadainya. Mesin pencari dapat menggunakan kompresibilitas halaman web untuk mengidentifikasi halaman duplikat, halaman doorway dengan konten serupa, dan halaman dengan kata kunci berulang, yang merupakan pengetahuan berguna untuk SEO.

Meskipun makalah penelitian berikut menunjukkan keberhasilan penggunaan fitur halaman untuk mendeteksi spam, kurangnya transparansi dari mesin pencari membuat sulit untuk menentukan apakah mesin pencari menerapkan teknik ini atau yang serupa.

Contents

Apa itu kompresibilitas?

Dalam komputasi, kompresibilitas mengacu pada seberapa besar ukuran file (data) dapat dikurangi dengan tetap mempertahankan informasi penting, biasanya untuk memaksimalkan ruang penyimpanan atau memungkinkan lebih banyak data ditransfer melalui Internet.

TL/DR terkompresi

Kompresi menggantikan kata dan frasa yang berulang dengan tanda kutip yang lebih pendek, sehingga mengurangi ukuran file secara signifikan. Mesin pencari sering kali memampatkan halaman web yang diindeks untuk memaksimalkan ruang penyimpanan, mengurangi bandwidth, meningkatkan kecepatan pengambilan, dll.

Berikut penjelasan sederhana tentang cara kerja kompresi:

Modus pengenalan:
Algoritme kompresi memindai teks untuk mencari kata, pola, dan frasa yang berulang
Kode yang lebih pendek membutuhkan lebih sedikit ruang:
Kode dan simbol menggunakan lebih sedikit ruang penyimpanan dibandingkan kata dan frasa asli, sehingga ukuran file lebih kecil.
Referensi yang lebih pendek menggunakan bit yang lebih sedikit:
“Kode” yang pada dasarnya melambangkan kata dan frasa yang diganti menggunakan lebih sedikit data dibandingkan kode aslinya.

Efek tambahan dari penggunaan kompresi adalah dapat juga digunakan untuk mengidentifikasi halaman duplikat, halaman doorway dengan konten serupa, dan halaman dengan kata kunci duplikat.

Makalah penelitian tentang mendeteksi spam

Makalah penelitian ini penting karena ditulis oleh seorang ilmuwan komputer terkemuka yang terkenal dengan terobosan dalam kecerdasan buatan, komputasi terdistribusi, pengambilan informasi, dan bidang lainnya.

Mark Nayok

Salah satu penulis makalah penelitian ini adalah Marc Najork, seorang ilmuwan riset terkenal yang saat ini menyandang gelar Distinguished Research Scientist di Google DeepMind. Dia adalah salah satu penulis makalah TW-BERT, berkontribusi dalam meningkatkan akurasi menggunakan umpan balik pengguna implisit (seperti klik), dan berupaya menciptakan pengambilan informasi berbasis AI yang lebih baik (DSI++: Perbarui memori Transformer dengan dokumen baru), dan banyak lagi. terobosan besar lainnya dalam pencarian informasi.

Dennis Fetterley

Rekan penulis lainnya adalah Dennis Fetterly, yang saat ini menjadi insinyur perangkat lunak di Google. Dia terdaftar sebagai salah satu penemu paten algoritma pemeringkatan menggunakan tautan dan dikenal karena penelitiannya dalam komputasi terdistribusi dan pengambilan informasi.

Ini hanyalah dua peneliti terkemuka yang merupakan salah satu penulis makalah penelitian Microsoft tahun 2006 tentang mengidentifikasi spam melalui kemampuan konten halaman. Salah satu dari beberapa karakteristik konten halaman yang dianalisis dalam makalah penelitian ini adalah kompresibilitas, dan mereka menemukan bahwa kompresibilitas dapat digunakan sebagai pengklasifikasi untuk menunjukkan apakah suatu halaman web adalah spam.

Deteksi spam melalui analisis konten

Meskipun makalah penelitian ini ditulis pada tahun 2006, temuannya masih relevan hingga saat ini.

Dulu, seperti sekarang, orang-orang mencoba memberi peringkat pada ratusan atau ribuan halaman web berbasis lokasi yang pada dasarnya merupakan konten duplikat kecuali nama kota, wilayah, atau negara bagian. Dulu, seperti sekarang, SEO sering kali membuat halaman web untuk mesin pencari dengan mengulang kata kunci secara berlebihan pada judul, deskripsi meta, heading, teks jangkar internal, dan konten untuk meningkatkan peringkat.

Bagian 4.6 dari makalah penelitian menjelaskan:

“Beberapa mesin pencari memberikan bobot lebih tinggi pada halaman yang berisi kata kunci kueri beberapa kali. Misalnya, untuk istilah kueri tertentu, halaman yang memuatnya sepuluh kali mungkin mendapat peringkat lebih tinggi daripada halaman yang hanya berisi kata kunci satu kali. Untuk memanfaatkan hal tersebut mesin, beberapa halaman spam akan menyalin kontennya beberapa kali dalam upaya untuk mendapatkan peringkat yang lebih tinggi.”

Makalah penelitian menjelaskan bahwa mesin pencari mengompresi halaman web dan menggunakan versi terkompresi untuk merujuk ke halaman web asli. Mereka menunjukkan bahwa terlalu banyak kata yang berlebihan menyebabkan tingkat kompresibilitas yang lebih tinggi. Jadi mereka mulai menguji apakah ada korelasi antara tingkat kompresibilitas yang tinggi dan spam.

Mereka menulis:

“Cara kami menemukan konten yang berlebihan dalam halaman di bagian ini adalah dengan mengompresi halaman; untuk menghemat ruang dan waktu disk, mesin pencari biasanya mengompres halaman web setelah diindeks tetapi sebelum ditambahkan ke cache halaman.

…Kami mengukur redundansi halaman web berdasarkan rasio kompresinya, yaitu ukuran halaman yang tidak dikompresi dibagi dengan ukuran halaman yang dikompresi. Kami menggunakan GZIP… untuk mengompresi halaman, yang merupakan algoritma kompresi yang cepat dan efisien. “

Tingkat kompresi yang tinggi dikaitkan dengan spam

Hasil penelitian menunjukkan bahwa halaman web dengan rasio kompresi minimal 4,0 cenderung merupakan halaman web berkualitas rendah dan spam. Namun, rasio kompresi teratas menjadi kurang konsisten karena titik datanya lebih sedikit sehingga lebih sulit untuk diinterpretasikan.

Gambar 9: Prevalensi spam sebagai fungsi kompresibilitas halaman.

Grafik ini menunjukkan hubungan antara tingkat kompresi yang tinggi dan kemungkinan bahwa halaman tersebut adalah spam.

Para peneliti menyimpulkan:

“70% dari semua halaman sampel dengan rasio kompresi minimal 4,0 dinilai sebagai spam.”

Namun mereka juga menemukan bahwa penggunaan rasio kompresi saja masih menghasilkan kesalahan positif, yaitu halaman non-spam salah diidentifikasi sebagai spam:

“Heuristik rasio kompresi yang dijelaskan di Bagian 4.6 memiliki kinerja terbaik, dengan benar mengidentifikasi 660 halaman spam dalam koleksi kami (27,9%), sementara salah mengidentifikasi 2.068 dari seluruh halaman yang dinilai (12,0%) .

Dengan menggunakan semua fitur di atas, keakuratan klasifikasi setelah proses validasi silang sepuluh kali lipat cukup menggembirakan:

95,4% halaman yang kami nilai diklasifikasikan dengan benar, sedangkan 4,6% diklasifikasikan salah.

Lebih khusus lagi, untuk kategori spam 1, 2, 940 halaman dari 364 halaman diklasifikasikan dengan benar. Untuk kategori non-spam, 14.440 halaman dari 14.804 halaman diklasifikasikan dengan benar. Oleh karena itu, 788 halaman salah klasifikasi. “

Bagian selanjutnya menjelaskan temuan menarik mengenai cara meningkatkan akurasi penggunaan sinyal halaman untuk mengidentifikasi spam.

Peringkat kualitas wawasan

Makalah penelitian ini memeriksa beberapa sinyal halaman, termasuk kompresibilitas. Mereka menemukan bahwa setiap sinyal individu (pengklasifikasi) mampu menemukan beberapa spam, namun mengandalkan satu sinyal saja mengakibatkan halaman non-spam ditandai sebagai spam, yang sering disebut positif palsu.

Para peneliti membuat penemuan penting yang harus diketahui oleh semua orang yang tertarik dengan SEO, yaitu bahwa penggunaan beberapa pengklasifikasi meningkatkan akurasi pendeteksian spam dan mengurangi kemungkinan kesalahan positif. Penting juga untuk diperhatikan bahwa sinyal kompresibilitas hanya mengidentifikasi satu jenis spam, tidak semua jenis spam.

Kesimpulannya adalah kompresibilitas adalah cara yang baik untuk mengidentifikasi satu jenis spam, namun ada jenis spam lain yang tidak dapat ditangkap dengan sinyal ini. Jenis spam lainnya tidak tertangkap oleh sinyal kompresi.

Ini adalah bagian yang harus diperhatikan oleh setiap SEO dan penerbit:

“Pada bagian sebelumnya, kami memperkenalkan beberapa heuristik untuk menganalisis halaman web spam. Artinya, kami mengukur beberapa fitur halaman web dan menemukan rentang fitur tersebut relevan dengan halaman spam. Namun, jika digunakan sendiri, tidak ada teknik yang dapat mendeteksi mayoritas spam dalam kumpulan data tanpa menandai banyak halaman non-spam sebagai spam.

Misalnya, dengan mempertimbangkan heuristik rasio kompresi yang dijelaskan di Bagian 4.6 (salah satu metode kami yang paling menjanjikan), kemungkinan rata-rata spam dengan rasio 4.2 dan lebih tinggi adalah 72%. Namun hanya sekitar 1,5% halaman yang termasuk dalam kisaran ini. Jumlah ini jauh lebih rendah dibandingkan 13,8% halaman spam yang kami temukan di kumpulan data kami. “

Jadi, meskipun kompresibilitas adalah salah satu sinyal yang lebih baik untuk mengidentifikasi spam, kompresibilitas tetap tidak mengungkapkan semua spam dalam kumpulan data yang digunakan peneliti untuk menguji sinyal tersebut.

Gabungkan beberapa sinyal

Hasil di atas menunjukkan bahwa sinyal individu berkualitas rendah kurang akurat. Jadi mereka menggunakan banyak sinyal untuk pengujian. Mereka menemukan bahwa menggabungkan beberapa sinyal halaman untuk mendeteksi spam meningkatkan akurasi sekaligus mengurangi jumlah halaman yang salah diklasifikasikan sebagai spam.

Para peneliti menjelaskan bahwa mereka menguji penggunaan beberapa sinyal:

“Salah satu cara untuk menggabungkan heuristik kami adalah dengan menganggap masalah deteksi spam sebagai masalah klasifikasi. Dalam hal ini, kami ingin membuat model klasifikasi (atau pengklasifikasi) yang, pada halaman web, secara bersama-sama menggunakan karakteristik dari halaman untuk (kami harap benar) mengklasifikasikannya ke dalam salah satu dari dua kategori: spam dan bukan spam.”

Inilah kesimpulan mereka tentang penggunaan banyak sinyal:

“Kami mempelajari berbagai aspek spam berbasis konten di web menggunakan kumpulan data dunia nyata dari perayap MSNSearch. Kami mengusulkan sejumlah heuristik untuk mendeteksi spam berbasis konten. Beberapa metode deteksi spam kami lebih baik daripada yang lain. Lebih efektif, tapi bila digunakan sendiri, metode kami mungkin tidak mengidentifikasi semua halaman spam. Oleh karena itu, kami menggabungkan metode deteksi spam untuk membuat pengklasifikasi C4.5 yang sangat akurat yang mengidentifikasi 86,2% halaman spam dengan benar sambil menandai sangat sedikit halaman sah sebagai spam.”

Wawasan utama:

Mengira “sejumlah kecil halaman sah sebagai spam” adalah sebuah terobosan besar. Wawasan penting yang harus diambil oleh setiap orang yang terlibat dalam SEO adalah bahwa sinyal saja dapat menyebabkan kesalahan positif. Menggunakan banyak sinyal meningkatkan akurasi.

Artinya, pengujian SEO yang mengisolasi sinyal peringkat atau kualitas tidak akan memberikan hasil yang andal dan dapat dipercaya untuk membuat keputusan strategis atau bisnis.

Poin utama

Kami tidak yakin apakah mesin pencari menggunakan kompresi, tapi ini adalah sinyal yang mudah digunakan yang dapat digunakan bersama dengan sinyal lain untuk menangkap jenis spam sederhana, seperti ribuan halaman doorway nama kota dengan konten serupa. Namun, meskipun mesin pencari tidak menggunakan sinyal ini, hal ini menunjukkan betapa mudahnya menangkap manipulasi mesin pencari semacam ini, dan bahwa mesin pencari menangani hal ini dengan sangat baik saat ini.

Berikut adalah poin-poin penting yang perlu diingat dari artikel ini:

Halaman doorway dengan konten duplikat mudah ditangkap karena kecepatan kompresinya lebih tinggi dibandingkan halaman web biasa.
Grup halaman web dengan rasio kompresi lebih tinggi dari 4,0 sebagian besar adalah spam.
Sinyal berkualitas negatif yang digunakan sendiri untuk menangkap spam dapat menghasilkan positif palsu.
Dalam pengujian khusus ini, mereka menemukan bahwa sinyal berkualitas negatif pada laman hanya menangkap jenis spam tertentu.
Jika digunakan sendiri, sinyal kompresibilitas hanya menangkap spam yang berlebihan dan tidak dapat mendeteksi bentuk spam lainnya, sehingga menghasilkan positif palsu.
Menggabungkan sinyal berkualitas meningkatkan akurasi deteksi spam dan mengurangi kesalahan positif.
Saat ini, dengan menggunakan kecerdasan buatan seperti Spam Brain, mesin pencari dapat mendeteksi spam dengan lebih akurat.

Baca makalah penelitian yang ditautkan ke halaman Google Cendekia Marc Najork:

Deteksi spam melalui analisis konten

Gambar unggulan milik Shutterstock/pathdoc

strategi pemasaran

marketing

pemasaran, manajemen pemasaran, kantor pemasaran
, digital marketing, konsep pemasaran, marketing mix, apa itu marketing

#Cara #menggunakan #kompresi #untuk #mendeteksi #halaman #berkualitas #rendah

Cara menggunakan kompresi untuk mendeteksi halaman berkualitas rendah – Beragampengetahuan