首頁>生活 >
裁判文書網(wǎng)數(shù)據(jù)竟被商家標價售賣 曾致正常用戶無法訪問 2019-08-02 14:33:20  來源: 北京青年報

販賣數(shù)據(jù)商家的推銷頁面

昨天,北京青年報從某網(wǎng)購商城看到,最高人民法院裁判文書網(wǎng)的數(shù)據(jù)被標價0.1元到1元不等出售。裁判文書網(wǎng)發(fā)布的判決書都是公開的,為什么會被售賣?獲取裁判文書網(wǎng)數(shù)據(jù)的手段對于網(wǎng)站是否有危害呢?

網(wǎng)售數(shù)據(jù)

價格需“私聊”獲取

北青報記者在某網(wǎng)絡商城中看到,有標注來自湖南、廣東、山東等多地的商家均聲稱出售裁判文書網(wǎng)的數(shù)據(jù),其中不少商家聲稱其數(shù)據(jù)量超6000萬條。而據(jù)裁判文書網(wǎng)公開數(shù)據(jù)顯示,目前裁判文書網(wǎng)上公開的文書總量為7395萬多篇,如果商家所稱的數(shù)量屬實,則商家能夠提供絕大多數(shù)已經(jīng)公開的文書數(shù)據(jù)。

不少聲稱能夠出售裁判文書網(wǎng)數(shù)據(jù)的商家在商品文字描述中稱,其數(shù)據(jù)是通過“網(wǎng)絡爬蟲”的方式獲取的。所謂“網(wǎng)絡爬蟲”,又稱網(wǎng)頁蜘蛛、網(wǎng)頁機器人,是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。相當于一個自動訪問網(wǎng)頁并進行相關操作的小機器人。

北青報記者注意到,盡管每名商家均在商品頁面標示稱,其數(shù)據(jù)售價為0.1元至1元,但每名商家均在文字描述中表示,數(shù)據(jù)的售價并不以標示為準,而是需要“私聊”獲取。

一名售賣裁判文書數(shù)據(jù)的商家說,購買裁判文書數(shù)據(jù)的買家所需要的數(shù)據(jù)量從幾千篇到幾千萬篇不等,有的買家是因為無法打開裁判文書網(wǎng)而不得不來求助于數(shù)據(jù)賣家,“還有很多學生買數(shù)據(jù)用于論文寫作,這種情況幾千條就夠了,商用的話可能需要幾百萬條甚至上千萬條。”商家還稱,每個月他們能接到四五個文書數(shù)據(jù)采集的訂單,而價格和買家需要的數(shù)據(jù)量有關,“幾百萬條數(shù)據(jù)大概要幾千塊錢,現(xiàn)在加密技術很嚴格,所以要貴一些。”

“爬蟲”系統(tǒng)

曾致正常用戶無法訪問

北青報記者了解到,部分技術機構(gòu)通過網(wǎng)絡爬蟲系統(tǒng)獲取裁判文書網(wǎng)數(shù)據(jù)的行為,已經(jīng)給裁判文書網(wǎng)正常用戶的訪問帶來了不便。不少網(wǎng)友曾在網(wǎng)上發(fā)帖稱,自己搜索裁判文書時,常常遭遇裁判文書網(wǎng)網(wǎng)站顯示因為系統(tǒng)原因,無法查詢的情況。

對此,最高人民法院在其官網(wǎng)回應網(wǎng)友對于裁判文書網(wǎng)運行慢、故障頻繁等情況時表示,由于中國裁判文書網(wǎng)公開文書數(shù)量和影響力不斷增加,訪問用戶數(shù)不斷增長。同時,2018年5月初以來,大量技術公司通過爬蟲系統(tǒng)無限制并發(fā)訪問非法獲取裁判文書數(shù)據(jù),造成網(wǎng)站負荷過大,大量正常用戶請求堵塞,訪問出現(xiàn)速度慢或部分頁面無法顯示等現(xiàn)象。

今年5月,最高人民法院信息中心主任許建峰在接受媒體采訪時表示:“中國裁判文書網(wǎng)目前每天的訪問量可以達到幾千萬的量級,其中還包括數(shù)據(jù)爬蟲的攻擊,我們的中心服務器承受著巨大壓力。”

“我們每時每刻都在監(jiān)控著它的應用情況,希望遇到問題立即采取措施,但是的確還不能完全跟得上步子,所以會出現(xiàn)停網(wǎng)維護運營的情況。”許建峰說,最高法已成立了專門的運維保障團隊去維護管理中國裁判文書網(wǎng),也將在技術與人力上投入更多的力量。

相關機構(gòu)

已采用多種方式“反爬”

北青報記者獲悉,此前,相關方面已采取多種方式,對抗“爬蟲技術”。最高人民法院曾發(fā)文稱,為更好地確保正常用戶訪問性能,相關方面以驗證碼的方式上線系統(tǒng)軟件防爬功能。“驗證碼技術是防爬蟲的一種有效措施,當瀏覽量在某段時間內(nèi)達到一定數(shù)量后,將啟用驗證碼機制進行核驗。后續(xù),我們將不定期更新防爬蟲技術,加強網(wǎng)站維護,提高網(wǎng)站運行效率和穩(wěn)定性。”

此外,針對網(wǎng)友提問,為何不能按照“公開時間”為檢索條件進行裁判文書檢索時,最高人民法院方面表示,暫沒有設置“公開時間”為檢索條件的主要原因是爬蟲系統(tǒng)會根據(jù)“公開時間”項進行增量文書爬取,“待下一步防爬蟲系統(tǒng)穩(wěn)定、可靠運行一段時間后,我們將適時考慮增加‘公開時間’檢索項。”

此外,最高人民法院方面稱:“由于前期爬蟲行為過于猖獗,無限制暴力訪問大幅降低正常用戶訪問性能,我們采取了通過限制列表頁面翻頁數(shù)量來防止爬蟲系統(tǒng)的措施。”

律師分析

強行突破“反爬”技術或構(gòu)成犯罪

金杜律師事務所從事IP類法律業(yè)務的律師瞿淼曾發(fā)文闡述了網(wǎng)絡爬蟲所涉及的法律問題。瞿淼稱,從技術中立的角度而言,爬蟲技術本身并無違法違規(guī)之處。但是,隨著數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,數(shù)據(jù)爬取帶來的各種問題和顧慮日漸增加。過于野蠻的爬蟲可能造成網(wǎng)站負荷過大,從而導致網(wǎng)站癱瘓、不能訪問等。

“由于爬蟲的批量訪問會給網(wǎng)站帶來巨大的壓力和負擔,因此許多網(wǎng)站經(jīng)營者會采取技術手段,以阻止爬蟲批量獲取自己網(wǎng)站信息。而針對這些技術手段,爬蟲開發(fā)者可以通過優(yōu)化自己的代碼、使用IP池等多種方式規(guī)避上述技術措施,實現(xiàn)對網(wǎng)站信息的批量抓取和復制。”瞿淼說,由于網(wǎng)絡爬蟲會根據(jù)特定策略盡可能多地訪問頁面,因而爬蟲的使用將占用被訪問網(wǎng)站的網(wǎng)絡帶寬并增加網(wǎng)絡服務器的處理開銷,甚至無法正常提供服務。

瞿淼認為,根據(jù)《反不正當競爭法》關于網(wǎng)絡的相關條款,如果網(wǎng)站運營者已經(jīng)采取了一定的反爬蟲措施,而爬蟲控制者基于經(jīng)營目的、強行突破網(wǎng)站運營者采取的反爬蟲技術措施,并客觀導致被抓取網(wǎng)站無法正常運行,則可能構(gòu)成不正當競爭行為。此外,強行突破某些特定被爬方的技術措施,還可能構(gòu)成刑事犯罪行為。

針對此情況,北京市社會組織法律調(diào)解中心副理事長張新年律師認為,“這些裁判文書基于司法公開目的,是免費的公共資源,未經(jīng)最高人民法院授權(quán),商家售賣裁判文書網(wǎng)數(shù)據(jù)構(gòu)成侵權(quán)。”

關鍵詞: 裁判文書網(wǎng)

相關閱讀:
熱點
圖片 圖片