Web Archiving


Nama Kelompok 6:
M. Ardi Yudha Prawir (54411766)
Ali Akbar (50411593)
Venessa Arie (58411861)
Amanda Tribuana Mentari P (50411661)
Charles Simanjuntak (51411618)

Web Archiving

Web Archiving adalah proses mengumpulkan bagian dari WWW dan memastikan koleksi tersebut diawetkan dalam suatu arsip, misalnya situs arsip, untuk diakses peneliti, sejarawan, dan masyarakat umum pada masa datang. Besarnya ukuran Web membuat arsiparis web umumnya menggunakan web crawlers untuk pengumpulan secara otomatis. Organisasi pengarsip web terbesar yang menggunakan ancangan perangkak web ini adalah Internet Archive yang berupaya memelihara arsip dari seluruh Web. Perpustakaan nasional, arsip nasional, dan berbagai konsorsium organisasi lain juga terlibat dalam upaya pengarsipan konten Web yang memiliki nilai penting bagi mereka. Perangkat lunak dan layanan komersial juga tersedia bagi organisasi yang ingin mengarsipkan konten web mereka sendiri untuk berbagai keperluan.
Arsiparis web umumnya mengumpulkan berbagai jenis konten web termasuk halaman HTML Web, style sheet, JavaScript, gambar, dan video. Arsiparsi web menggunakan archive metadata untuk sumber daya yang dikumpulkan seperti access time, MIME type, dan content length. Metadata ini berguna dalam memjaga keaslian dan asal dari koleksi arsip.

Cara kerja Web Archiving :

a. Remote Harvesting
Merupakan cara yang plaing umum dalam web archiving dengan menggunkana teknik web crawlers yang secara otomatis melakukan proses pengumpulan halaman web. Metode yang digunakan web crawler untuk mengakses halaman web sama semeprti user mengakses halaman web menggunakan wob browser. Contoh web crawler yang digunakan dalam web archiving seperti :
Heritrix
HTTrack
Wget

b. On-Demand
Ada banyak layanan yang dapat digunakan sebagai sumber archive web “on-demand”, menggunakan teknik web crawling. Contohnya seperti :
Aleph Archives
archive.is
Archive-It
Archivethe.net
Compliance WatchDog by SiteQuest Technologies
freezePAGE snapshots
Hanzo Archives
Iterasi
Nextpoint
Patrina 
PageFreezer
Reed Archives
Smarsh Web Archiving 
The Web Archiving Service 
webEchoFS
WebCite
Website-Archive.com

c. Database Archiving
Databasa Archiving mengacu pada metode untuk menarsipkan konten database-driven websites. Hal ini biasanya memerlukan ekstraksi konten database ke standard schema, sering menggunakan XML. Setelah disimpan dalam format standar, konten yang diarsipkan dari beberapa databse dapat tersedia untuk diakses dengan menggunakan single access system. Motode ini digunkanan seprti pada DeepArc dan Xinq masiing masing dikembangkan oleh Bibliothèque nationale de France dan National Library of Australia.

d. Transactional archiving
Transactional archiving merupakan event-driven yang mengumpulkan transaksi yang berlangsung antara web server dan web browser. Hal ini terutama digunakan untuk menjamin keaslian dari isi suatu website, pada tanggal tertentu. Hal ini sangatlah penting untuk organisasi atau perusahaan yang perlu mematuhi persyaratan hukum atau peraturan untuk mengungkapkan dan mempertahankan informasi.
Sistem yang digunakan pada transactional archiving biasanya beroperasi dengan memeriksa setiap permintaan HTTP dan respon dari web server, menyaring setiap aktifitas untuk menghilangkan konten yang duklikat dan secara permanen disimpan sebagai bitstreams. Sebuah sistem transactional archiving membutuhkan instalasi perangkat lunak pada web server, dan karena hal itu maka metode ini tidka dapat mengumpulkan konten dari remote website.

Web archiving beralih ke halaman ini. Untuk web.archive.org, lihat Wayback Machine. Untuk format file Safari, lihat webarchive. Untuk format file Sun Microsystems, lihat WAR (Sun format file).
Artikel ini berisi daftar referensi, namun tetap tidak jelas sumber karena memiliki inline citations cukup. Harap membantu memperbaiki artikel ini dengan memperkenalkan kutipan lebih tepat. (Januari 2010)
Web pengarsipan adalah proses pengumpulan bagian dari World Wide Web untuk memastikan informasi tersebut diawetkan dalam arsip bagi para peneliti di masa depan, sejarawan, dan masyarakat umum. Arsiparis web biasanya menggunakan web crawler untuk menangkap otomatis karena ukuran besar dan jumlah informasi di Web. Organisasi web terbesar pengarsipan berdasarkan pendekatan merangkak massal adalah Internet Archive yang berusaha untuk memelihara arsip dari seluruh Web. Perpustakaan nasional, arsip nasional dan konsorsium berbagai organisasi yang juga terlibat dalam pengarsipan konten Web budaya penting. Web komersial pengarsipan perangkat lunak dan layanan juga tersedia bagi organisasi yang perlu arsip konten web mereka sendiri untuk warisan perusahaan, peraturan, atau tujuan hukum.

Arsiparis web jenis arsip umum berbagai konten web termasuk halaman web HTML, style sheet, JavaScript, gambar, dan video. Mereka juga arsip metadata tentang sumber daya dikumpulkan seperti waktu akses, tipe MIME, dan panjang konten. Metadata ini berguna dalam membangun keaslian dan asal dari koleksi arsip.

Metode pengumpulan

panen Jarak Jauh
Web yang paling umum pengarsipan teknik menggunakan web crawler untuk mengotomatisasi proses pengumpulan halaman web. Web crawler biasanya mengakses halaman web dengan cara yang sama bahwa pengguna dengan browser Web melihat, dan karena itu memberikan metode yang relatif sederhana dari konten web panen jarak jauh. Contoh web crawler yang digunakan untuk web pengarsipan meliputi:
1. Heritrix
2. HTTrack
3. Wget
4. On-demand
Ada banyak layanan yang dapat digunakan untuk sumber daya arsip web “on-demand”, menggunakan teknik web merangkak.
Aleph Arsip, menawarkan layanan web pengarsipan untuk kepatuhan peraturan dan eDiscovery bertujuan untuk perusahaan (pasar Global 500), industri hukum dan pemerintah.
archive.is, sebuah layanan gratis yang menghemat halaman dan semua gambar nya. Hal ini dapat menyimpan halaman Web 2.0.
Arsip-It, sebuah layanan berlangganan yang memungkinkan lembaga-lembaga untuk membangun, mengelola dan mencari arsip web mereka sendiri.

Archivethe.net, sebuah shared web-platform pengarsipan dioperasikan oleh Internet Research Memory, spin-off dari dasar memori internet (sebelumnya Eropa Arsip Yayasan). IM Situs
Kepatuhan Watchdog oleh SiteQuest Technologies, sebuah layanan berlangganan yang arsip website dan memungkinkan pengguna untuk menelusuri situs tersebut seperti yang muncul di masa lalu. Hal ini juga memonitor situs untuk perubahan dan personil kepatuhan peringatan jika perubahan terdeteksi.

freezePAGE snapshot, sebuah layanan gratis / langganan. Untuk melestarikan snapshot, membutuhkan login setiap hari tiga puluh untuk pengguna terdaftar, enam puluh hari untuk pengguna terdaftar.
Hanzo Arsip, menyediakan web pengarsipan, awan pengarsipan, dan media sosial pengarsipan perangkat lunak dan layanan untuk e-discovery, manajemen informasi, konten perusahaan sosial, Financial Industry Regulatory Authority, Amerika Serikat Securities and Exchange Commission, dan kepatuhan Food and Drug Administration, dan perusahaan warisan. Hanzo digunakan oleh organisasi terkemuka di banyak industri, dan lembaga pemerintah nasional. Web akses arsip adalah on-demand dalam format asli, dan termasuk pencarian teks lengkap, penjelasan, redaksi, kebijakan arsip dan browsing temporal. Hanzo terintegrasi dengan aplikasi terkemuka penemuan elektronik dan jasa.

Iterasi, Menyediakan web perusahaan pengarsipan untuk kepatuhan, litigasi, e-discovery perlindungan dan warisan merek. Bagi perusahaan perusahaan, organisasi keuangan, lembaga pemerintah dan banyak lagi.

NextPoint, menawarkan berbasis cloud otomatis, SaaS untuk kebutuhan pemasaran, kepatuhan dan litigasi terkait termasuk penemuan elektronik.

PageFreezer, berlangganan layanan SaaS untuk arsip, replay dan situs pencari, blog, web 2.0, Flash & media sosial untuk memenuhi pemasaran, eDiscovery dan peraturan dengan US Food and Drug Administration (FDA), Keuangan Industri Regulatory Authority (FINRA), US Securities and Exchange Commission, Sarbanes-Oxley Act federal Aturan Bukti dan hukum catatan manajemen. Arsip dapat digunakan sebagai bukti hukum.

Reed Arsip, menawarkan perlindungan litigasi, kepatuhan terhadap peraturan & eDiscovery dalam, industri perusahaan hukum dan pemerintah.

Smarsh Web Pengarsipan dirancang untuk menangkap, memelihara dan menciptakan kembali pengalaman web seperti ada setiap saat dalam waktu untuk kewajiban kepatuhan e-discovery dan peraturan. (Smarsh diperoleh menerus Mei 2012).

The Web Pengarsipan Layanan adalah layanan berlangganan dioptimalkan untuk lingkungan akademik dipandu oleh masukan dari pustakawan, arsiparis dan peneliti. WS menyediakan penjelajahan topikal, perbandingan perubahan dan situs-by-lokasi kontrol pengaturan penangkapan dan frekuensi. Dikembangkan dan diselenggarakan oleh University of California Pusat Kurasi di Perpustakaan Digital California.
webEchoFS, menawarkan layanan berlangganan yang diciptakan khusus untuk memenuhi kebutuhan perusahaan Jasa Keuangan peraturan periklanan subjek yang berhubungan dengan FINRA dan Investasi Act Advisors.

WebCite, sebuah layanan gratis khusus untuk penulis ilmiah, editor jurnal, dan penerbit untuk secara permanen arsip dan mengambil referensi dikutip Internet.

Situs-Archive.com, layanan berlangganan. Captures layar-tembakan halaman, transaksi dan perjalanan pengguna menggunakan “browser yang sebenarnya”. Layar-tembakan dapat dilihat secara online atau download dalam arsip bulanan. Menggunakan teknologi Cloud Pengujian.

database pengarsipan
Database pengarsipan mengacu pada metode untuk pengarsipan konten mendasari database-driven website. Hal ini biasanya memerlukan ekstraksi dari isi database ke skema standar, sering menggunakan XML. Setelah disimpan dalam format standar, isi arsip dari beberapa database kemudian dapat dibuat tersedia dengan menggunakan sistem akses tunggal. Pendekatan ini dicontohkan oleh alat DeepArc dan Xinq dikembangkan oleh Bibliothèque nationale de France dan Perpustakaan Nasional Australia masing-masing. DeepArc memungkinkan struktur database relasional yang akan dipetakan ke skema XML, dan konten diekspor ke dokumen XML. Xinq kemudian memungkinkan konten yang akan disampaikan secara online. Meskipun tata letak asli dan perilaku website tidak dapat dipertahankan dengan tepat, Xinq tidak memungkinkan query dasar dan fungsi pengambilan dapat direplikasi.

Transaksional pengarsipan
Transaksional pengarsipan adalah sebuah pendekatan event-driven, yang mengumpulkan transaksi yang sebenarnya yang terjadi antara web server dan browser web. Hal ini terutama digunakan sebagai sarana melestarikan bukti isi yang sebenarnya dilihat di situs web tertentu, pada tanggal tertentu. Hal ini mungkin sangat penting bagi organisasi yang perlu mematuhi persyaratan hukum atau peraturan untuk mengungkapkan dan mempertahankan informasi.
Sebuah sistem pengarsipan transaksional biasanya beroperasi dengan mencegat setiap permintaan HTTP untuk, dan tanggapan dari, server web, penyaringan setiap respon untuk menghilangkan duplikat konten, dan secara permanen menyimpan tanggapan sebagai bitstreams. Sebuah sistem pengarsipan transaksional memerlukan instalasi software pada server web, dan karenanya tidak dapat digunakan untuk mengumpulkan konten dari situs remote.

Kesulitan dan keterbatasan

Crawlers
Web arsip yang mengandalkan web merangkak sebagai sarana utama mereka mengumpulkan Web dipengaruhi oleh kesulitan merangkak web:
Protokol pengecualian robot dapat meminta crawler tidak dapat mengakses bagian dari sebuah situs web. Beberapa arsiparis web dapat mengabaikan permintaan dan merangkak bagian-bagian pula.
Sebagian besar dari sebuah situs web mungkin tersembunyi di dalam Web. Misalnya, halaman hasil balik formulir web terletak pada Web dalam karena crawler paling tidak bisa mengikuti link ke halaman hasil.
Crawler perangkap (misalnya, kalender) dapat menyebabkan crawler untuk men-download jumlah tak terbatas halaman, sehingga crawler biasanya dikonfigurasi untuk membatasi jumlah halaman dinamis mereka merangkak.

Namun, penting untuk dicatat bahwa web arsip format asli, yaitu, web arsip dibrowse penuh, dengan link bekerja, media, dll, hanya benar-benar mungkin menggunakan teknologi crawler.
Web adalah begitu besar sehingga merangkak sebagian besar dibutuhkan sejumlah besar sumber daya teknis. Web ini berubah begitu cepat sehingga bagian dari sebuah situs web dapat berubah sebelum crawler bahkan telah selesai merangkak itu.

Umum keterbatasan
Beberapa server web yang dikonfigurasi untuk mengembalikan halaman yang berbeda untuk permintaan Pengarsip web dari mereka akan dalam menanggapi permintaan browser biasa. Hal ini biasanya dilakukan untuk mengelabui mesin pencari ke mengarahkan lalu lintas pengguna ke situs Web, dan sering dilakukan untuk menghindari akuntabilitas, atau untuk menyediakan konten ditingkatkan hanya kepada browser yang dapat menampilkannya.

Tidak hanya harus web arsiparis menghadapi tantangan teknis web pengarsipan, mereka juga harus bersaing dengan hukum kekayaan intelektual. Peter Lyman menyatakan bahwa “meskipun Web yang populer dianggap sebagai sumber daya domain publik, itu hak cipta, dengan demikian, arsiparis tidak memiliki hak hukum untuk menyalin Web”. Namun perpustakaan nasional di banyak negara memiliki hak legal untuk menyalin bagian dari web di bawah perpanjangan deposit hukum.

Beberapa arsip web pribadi non-profit yang dibuat dapat diakses publik seperti WebCite, Internet Archive atau memori internet memungkinkan pemilik konten untuk menyembunyikan atau menghapus konten diarsipkan bahwa mereka tidak ingin publik memiliki akses ke. Arsip web lainnya hanya dapat diakses dari lokasi tertentu atau memiliki penggunaan diatur. WebCite mengutip gugatan baru-baru ini terhadap caching Google, Google yang memenangkan .
Aspek kurasi web

Kurasi web, seperti kurasi digital, memerlukan:
Sertifikasi dari kepercayaan dan integritas dari isi koleksi
Mengumpulkan aset Web diverifikasi
Menyediakan Web pencarian aset dan pengambilan
Semantik dan ontologis kontinuitas dan komparatif dari isi koleksi
Dengan demikian, di samping membahas metode pengumpulan Web, yang menyediakan akses, sertifikasi, dan pengorganisasian harus disertakan. Ada seperangkat alat populer yang membahas langkah-langkah penanggulangan :
Sebuah suite alat untuk Kurasi Web oleh Konsorsium Pelestarian Internet International :
Heritrix 
- situs resmi 
- mengumpulkan aset Web NutchWAX 
- pencarian Web arsip koleksi Wayback (Sumber Wayback Machine Terbuka) 
- pencarian dan navigasi koleksi arsip Web menggunakan NutchWax Web Kurator Alat 
- Seleksi dan Pengelolaan Koleksi Web

Lain sumber Peralatan terbuka untuk memanipulasi web arsip:
- WARC Tools 
- untuk membuat, membaca, parsing dan memanipulasi, web arsip pemrograman Pencarian 
- untuk mengindeks dan mencari teks lengkap dan metadata dalam web arsip.


Referensi:

2 comments

ga terbayang, gimana besarnya tuh Database yang dimiliki Web Archiving tersebut.. waaww.. :P

Reply

MAKASIH artikelnya sangat bermanfaat kunjungi blog saya ya http://blogjadiduit.blogspot.com/

Reply

Posting Komentar