近年來,互聯(lián)網(wǎng)平臺經(jīng)濟迅猛發(fā)展,互聯(lián)網(wǎng)逐漸成為一種通用技術(shù),并延伸至社會各個行業(yè),比如互聯(lián)網(wǎng)經(jīng)濟、互聯(lián)網(wǎng)+、產(chǎn)業(yè)互聯(lián)網(wǎng)等。隨著這些經(jīng)濟的縱深發(fā)展,網(wǎng)絡(luò)的法律問題也日益凸顯。如關(guān)于互聯(lián)網(wǎng)平臺的競爭和壟斷,數(shù)據(jù)產(chǎn)權(quán)的界定和保護,個人隱私和數(shù)據(jù)使用之間的經(jīng)濟權(quán)衡和法律問題,網(wǎng)絡(luò)時代的知識產(chǎn)權(quán)保護等,對這些問題的研究和分析需要法學(xué)和經(jīng)濟學(xué)的結(jié)合。北大法學(xué)院知識產(chǎn)權(quán)學(xué)院主編的《網(wǎng)絡(luò)法律評論》,從平臺經(jīng)濟的上述方面展開理論、經(jīng)驗和政策研究。隨著互聯(lián)網(wǎng)經(jīng)濟的發(fā)展,這一領(lǐng)域的研究將越來越重要。
數(shù)字經(jīng)濟時代的規(guī)制難題與競爭政策 讓·梯若爾
多邊平臺反壟斷分析框架的基本原則 戴維·埃文斯
標準必要專利“劫持”的經(jīng)濟分析 魏德
網(wǎng)絡(luò)版權(quán)治理的算法技術(shù)與算法規(guī)則 吳漢東 李安
《著作權(quán)法》第三次修正評析與展望 劉家瑞
創(chuàng)新政策視野下的知識產(chǎn)權(quán)侵權(quán)損害賠償 朱冬
電子游戲直播中玩家的著作權(quán)地位探究 李亞蘭
掃碼:流動性治理的技術(shù)與法律 胡凌
算法“黑箱”背景下監(jiān)管算法的具體方法 楊曦
網(wǎng)絡(luò)爬蟲刑法規(guī)制的邊界 薛美琴
論個人信息主體同意的法律效力 鄔楊
發(fā)展視角下獎勵型眾籌支持者的主體地位探究 潘寧
網(wǎng)絡(luò)版權(quán)治理的算法技術(shù)與算法規(guī)則
吳漢東 李安
進入□1世紀,互聯(lián)網(wǎng)構(gòu)建了一個與物理世界并行的虛擬世界。截至□018年,全球網(wǎng)站數(shù)量超過150億個,其中處于活躍狀態(tài)的網(wǎng)站有近□億個;截至□0□0年3月,中國網(wǎng)民規(guī)模為9.04億,網(wǎng)絡(luò)普及率達64.5%。與此相應(yīng),人們的文化消費方式和文化生產(chǎn)活動也逐步從物理世界遷移至虛擬世界,數(shù)字成為作品的主要存在形態(tài),網(wǎng)絡(luò)成為作品創(chuàng)作、傳播和消費的主要場所。以錄制音樂為例,統(tǒng)計數(shù)據(jù)顯示,□018年全球錄制音樂數(shù)字收入達11□億美元,占全球錄制音樂收入總額的一半以上(58.9%)。
互聯(lián)網(wǎng)從Web 1.0發(fā)展為Web □.0,網(wǎng)絡(luò)用戶不僅是網(wǎng)絡(luò)內(nèi)容的消費群體,更是網(wǎng)絡(luò)內(nèi)容□為活躍的創(chuàng)作主體。不過,互聯(lián)網(wǎng)在給人們帶來文化消費和創(chuàng)作便利的同時,也極大地助長了作品盜版的猖獗。以國家版權(quán)局主辦的“劍網(wǎng)□019”專項行動為例,□019年5月至11月共移除盜版鏈接110萬條,打掉盜版影視網(wǎng)站418個,涉案金額達□.3億元。可以說,這些被查處的版權(quán)侵權(quán)行為僅是浩瀚網(wǎng)絡(luò)海洋中的冰山一角,學(xué)者在互聯(lián)網(wǎng)發(fā)展初期發(fā)出的“版權(quán)死亡”預(yù)言依然值得警醒,網(wǎng)絡(luò)版權(quán)環(huán)境的治理在今天以及未來仍然是一個重大問題。
在人工智能時代,網(wǎng)絡(luò)版權(quán)治理迎來了新的機遇。新一代科技革命,特別是人工智能技術(shù),對我們的社會生產(chǎn)、生活帶來了猛烈沖擊,從不同角度以不同方式對法律制度產(chǎn)生了意義深遠的影響?傮w而言,科技革命與法律發(fā)展的互動關(guān)系有兩個觀察角度:一是“供給主義”視角,致力于研究法律在制度供給側(cè)如何變革,以規(guī)范并促進新技術(shù)的發(fā)展;二是“工具主義”視角,側(cè)重于分析新技術(shù)如何應(yīng)用于法律事業(yè),以強化法律實施并提高法律運作效率。
簡言之,技術(shù)既是法律制度的規(guī)制對象,也是法律社會的治理工具。基于此,我們可以說,人工智能技術(shù),不僅給法律制度提出了新的挑戰(zhàn),也為法律實施提供了新的機遇。以“工具主義”視角審視人工智能技術(shù)對版權(quán)法的影響,提出的一個重要問題是,算法是否有助于版權(quán)法在網(wǎng)絡(luò)環(huán)境中的實施?答案是肯定的。
法律的算法實施(algorithmic law enforcement)活動已經(jīng)廣泛存在,尤其是在網(wǎng)絡(luò)版權(quán)領(lǐng)域。中國公司“冠勇科技”利用作品指紋特征比對算法為版權(quán)人提供網(wǎng)絡(luò)維權(quán)服務(wù),截至□019年11月已幫助版權(quán)人累計發(fā)出侵權(quán)刪除通知360多萬份。在美國Lenz訴University Music案中,被告口頭答辯階段稱涉案侵權(quán)刪除通知是由算法在巡查網(wǎng)絡(luò)時自動發(fā)出的。□□分享網(wǎng)站YouTube采用Content ID系統(tǒng),利用指紋比對算法對用戶上傳的□□內(nèi)容自動進行版權(quán)查驗?梢哉J為,在人工智能時代,網(wǎng)絡(luò)版權(quán)的環(huán)境治理將會越來越依靠于算法。本文旨在研究如何推動算法更有效地參與網(wǎng)絡(luò)版權(quán)環(huán)境治理。具體而言,本文將首先闡釋“算法即法律”命題,其次梳理有助于網(wǎng)絡(luò)版權(quán)治理的算法技術(shù),然后考察網(wǎng)絡(luò)版權(quán)算法治理的實踐與問題,□后探討網(wǎng)絡(luò)版權(quán)算法治理機制的完善措施。
二、網(wǎng)絡(luò)版權(quán)治理新機遇:算法即法律
在網(wǎng)絡(luò)法中,“技術(shù)架構(gòu)即法律”是一個較為成熟的理論共識。技術(shù)架構(gòu)即法律是一個隱喻表達,指網(wǎng)絡(luò)技術(shù)像法律一樣具有約束人們網(wǎng)絡(luò)行為的能力。技術(shù)架構(gòu)在不同時代有不同的具體表現(xiàn)。代碼是互聯(lián)網(wǎng)技術(shù)架構(gòu)的基本構(gòu)件,算法是人工智能技術(shù)架構(gòu)的基本構(gòu)件。算法,尤其是音□□指紋算法和文本相似度算法,正推動著網(wǎng)絡(luò)版權(quán)治理,從互聯(lián)網(wǎng)時代的“代碼即法律”走向人工智能時代的“算法即法律”。
(一)版權(quán)治理理念:從“代碼即法律”到“算法即法律”
談?wù)摼W(wǎng)絡(luò)治理,不得不提及學(xué)者雷登伯格(Reidenberg)和萊斯格(Lessig)以及他們的理論思想。1998年,學(xué)者雷登伯格在其論文《信息法》中指出,在網(wǎng)絡(luò)信息社會中,法律法規(guī)不是□□的行為規(guī)范,網(wǎng)絡(luò)技術(shù)的設(shè)計和選擇也可以對網(wǎng)絡(luò)主體的行為產(chǎn)生規(guī)制作用;網(wǎng)絡(luò)技術(shù)的設(shè)計和選擇形成的行為規(guī)則稱為“信息法”(lex informatica),與人類制定的法律體系(legal system)相對應(yīng)。無獨有偶,1999年,學(xué)者萊斯格在其著作《代碼》一書中也提出了類似的觀點。具體而言,萊斯格主張“法律、社會習(xí)俗、市場、物理架構(gòu)”是調(diào)整人類行為的四種形態(tài):法律和習(xí)俗對應(yīng)傳統(tǒng)意義上的正式和非正式社會行為規(guī)范,市場通過價格影響人們的行為,架構(gòu)則通過其自身物理形態(tài)規(guī)制人們的行為。物理架構(gòu)能夠調(diào)整人們的行為,例如在道路上設(shè)置減速帶可以促使人們降低車速,在草坪四周搭建圍欄或種植灌木可以減少行人對草坪的踩踏。虛擬世界的技術(shù)架構(gòu)如同現(xiàn)實世界的物理架構(gòu),也可以約束人們的具體行為?梢,雷登伯格和萊斯格有著一致的理論洞見:人們的網(wǎng)絡(luò)行為的規(guī)制資源,除了法律制度,還有技術(shù)架構(gòu);技術(shù)架構(gòu)可以像法律一樣有效地約束人們的網(wǎng)絡(luò)行為。在這個意義上,我們可以說“技術(shù)架構(gòu)即法律”。不同時代有不同的技術(shù)因子,大體而言,互聯(lián)網(wǎng)技術(shù)架構(gòu)的基本要素是代碼,人工智能技術(shù)架構(gòu)的基礎(chǔ)元素是算法。網(wǎng)絡(luò)版權(quán)治理步入人工智能時代,也就意味著網(wǎng)絡(luò)版權(quán)治理從“代碼即法律”走向“算法即法律”。
“代碼即法律”是萊斯格提出的一個著名命題。萊斯格認為,“代碼”可以像法律一樣(且比法律做得更好)有效地管控人們在互聯(lián)網(wǎng)中可以干什么以及不可以干什么,原因在于“代碼”是網(wǎng)絡(luò)技術(shù)架構(gòu)的基本構(gòu)件,能夠形塑我們的網(wǎng)絡(luò)空間。在版權(quán)領(lǐng)域中,“代碼即法律”主要體現(xiàn)為以“數(shù)字權(quán)限管理”系統(tǒng)為代表的各類版權(quán)技術(shù)保護措施。通過事先的代碼設(shè)計,版權(quán)人可以為版權(quán)作品加上電子鎖,設(shè)置數(shù)字作品的訪問權(quán)限,控制電子作品的□□次數(shù)等。版權(quán)人也可以在作品中插入電子簽名、電子水印等,以便識別他人對作品的擅自□□和非法改編。不過,以代碼為主要手段的版權(quán)技術(shù)保護措施,很容易被破解和規(guī)避。圍繞規(guī)避與反規(guī)避展開的無限技術(shù)競賽對版權(quán)人和社會整體都是一種無謂損失。對此,1996年締結(jié)的兩個互聯(lián)網(wǎng)版權(quán)國際條約,即《WIPO版權(quán)條約》(□□1條)和《WIPO表演與錄音制品條約》(□□8條),分別規(guī)定了禁止規(guī)避版權(quán)技術(shù)保護措施之條約義務(wù)。該條約義務(wù)在我國落實為《著作權(quán)法》第48條第6項。
“算法即法律”是對“代碼即法律”的繼承,是“技術(shù)架構(gòu)即法律”在人工智能時代的具體體現(xiàn),因為算法是人工智能技術(shù)架構(gòu)的基本構(gòu)件。通常而言,算法、算力、數(shù)據(jù),是新一代人工智能的三大要素:算法是人工智能的構(gòu)件,算力是人工智能的動力要素,數(shù)據(jù)是人工智能的生產(chǎn)要素。作為人工智能系統(tǒng)的基本構(gòu)件,算法如同一個□□□□,可以批量地識別和定位版權(quán)侵權(quán)內(nèi)容并發(fā)出侵權(quán)刪除通知,能夠自動地對用戶上傳的網(wǎng)絡(luò)內(nèi)容進行版權(quán)過濾。實際上,在計算機系統(tǒng)和網(wǎng)絡(luò)空間中運行的算法本身是代碼的集合,那么問題來了:我們有區(qū)分“代碼即法律”和“算法及法律”的必要嗎?答案是肯定的,因為作為一種技術(shù)治理工具,算法不同于代碼。代碼需要在作品上網(wǎng)之前植入代碼程序,是被動地防御他人侵犯版權(quán);而算法不依賴于事前的代碼植入,是事后主動地發(fā)現(xiàn)、糾察網(wǎng)絡(luò)上的版權(quán)侵權(quán)行為。除此之外,算法可以根據(jù)不同性質(zhì)的網(wǎng)絡(luò)內(nèi)容做出不同的判斷,提出不同的解決方案。總體而言,算法治理是代碼治理的升級版,前者比后者更為綿密、靈活和智能。
本文主張“算法即法律”,不是說法律要被算法取代。一種激進的觀點主張,在人工智能時代,法律將會消亡,取而代之的是算法為每個人量身定制的“微指令”(micro-directive)。
筆者認為,算法不會也不可能取代法律,算法趨向于效率而法律趨向于正義,算法無法完全勝任法律的價值判斷。算法和法律之間,不是相互取代的競爭關(guān)系,而是互為支撐的互補關(guān)系。本文主張“算法即法律”,旨在強調(diào)算法是人工智能時代網(wǎng)絡(luò)版權(quán)治理不可忽視的規(guī)制力量,政策制定者和版權(quán)權(quán)利人需要深入理解、承認、支持和引導(dǎo)網(wǎng)絡(luò)版權(quán)的算法治理。在人工智能時代,網(wǎng)絡(luò)版權(quán)的環(huán)境治理不僅需要版權(quán)法律法規(guī),還要重視算法這一技術(shù)工具,版權(quán)法律法規(guī)在網(wǎng)絡(luò)空間的落地實施將會越來越依靠算法。作為網(wǎng)絡(luò)版權(quán)治理的兩個重要工具,算法規(guī)制人們的網(wǎng)絡(luò)行為,法律監(jiān)管算法的設(shè)計和使用,因此,法律可以借助算法在網(wǎng)絡(luò)空間予以實施。法律的實施是法律從紙面文字轉(zhuǎn)化為社會行為的過程,是法律的具體化和現(xiàn)實化,主要包括守法、執(zhí)法、司法、法律監(jiān)督四個環(huán)節(jié),其中守法是自然人和法人等民事主體主要參與的環(huán)節(jié)。版權(quán)算法的主要使用者是版權(quán)人和網(wǎng)絡(luò)服務(wù)商,版權(quán)算法的被規(guī)制者是廣大的網(wǎng)絡(luò)用戶,也就是說,私人主體是版權(quán)算法治理關(guān)系的主要當事人。因此,網(wǎng)絡(luò)版權(quán)的算法治理主要是在“守法”環(huán)節(jié)促使網(wǎng)絡(luò)主體依法行使版權(quán)權(quán)利和依法履行版權(quán)義務(wù)。
(二)版權(quán)治理技術(shù):音□□指紋算法和文本相似度算法
算法,顧名思義,是一種計算方法,旨在將信息輸入轉(zhuǎn)換為特定的輸出結(jié)果。這是實質(zhì)意義上的算法釋義。在網(wǎng)絡(luò)社會和人工智能語境中,算法是一種在形式意義上被限縮和具體化的計算程序,即由計算機代碼表示,被計算機系統(tǒng)執(zhí)行,旨在解決某一具體問題的代碼序列。適用于網(wǎng)絡(luò)版權(quán)治理的算法有很多,如網(wǎng)絡(luò)爬蟲算法、文本撰寫算法等等。其中,音□□指紋算法和文本相似度算法,是網(wǎng)絡(luò)版權(quán)算法治理之所以可能的關(guān)鍵算法。兩種算法旨在實現(xiàn)“內(nèi)容自動識別”,常被用來監(jiān)測包括版權(quán)侵權(quán)在內(nèi)的非法網(wǎng)絡(luò)內(nèi)容。
音□□指紋算法,是識別并比對音頻□□(圖像)作品內(nèi)容的計算方法。音□□指紋算法,也被稱為多媒體感知哈希算法。哈希是“hash”的譯文,本意是把食物等切碎之后做混雜處理,后被用來指稱對較大數(shù)據(jù)集合進行壓縮映射的函數(shù),即哈希函數(shù),具體指通過一種散列算法將任意長度的信息數(shù)據(jù)集壓縮為某一固定長度的信息摘要。該信息摘要用一組字符串表示,稱為哈希值或電子指紋。哈希函數(shù)主要有傳統(tǒng)的加密哈希和新興的感知哈希兩類。感知哈!踉缬蓪W(xué)者考克(Kalker)提出,旨在通過哈希函數(shù)思想模擬人腦感知識別多媒體信息的認知過程。多媒體感知哈希算法的工作機制為:先從音□□作品內(nèi)容中提取人腦可以感知的特征信息,然后將提取的可感知特征信息通過哈希函數(shù)計算出一組較短的字符串,這就是音□□文件的感知哈希值(電子指紋)。待檢測網(wǎng)絡(luò)內(nèi)容,同樣以上述方法計算出感知哈希值。將待檢測網(wǎng)絡(luò)內(nèi)容的感知哈希值與版權(quán)作品的感知哈希值進行比對,兩個值越接近則兩個音□□內(nèi)容越相似。
文本相似度算法,是對比并量化文本類作品內(nèi)容相似度的計算程序。文本相似度算法是處理自然語言問題的一項基礎(chǔ)技術(shù),具體指通過一定的計算程序?qū)蓚或多個文本文件之間的相似程度量化為數(shù)值?傮w而言,文本相似分為字面匹配相似和語義相似;相應(yīng)地,文本相似度的計算方法有兩種,一是字面相似度計算方法,二是語義相似度計算方法。文本字符相似度算法直接針對原始文本中的字符串,以兩個文本的字符匹配程度或距離作為相似度的衡量標準。字符串匹配算法是文本字符相似度計算的一個重要算法,其中,以哈希函數(shù)為思想基礎(chǔ)的羅賓-卡普(Robin-Karp)算法是一種經(jīng)典的多模式匹配算法,常被應(yīng)用于檢測論文抄襲。
字面相似度算法僅僅是機械地比對字符的相似性,而不問語詞在文本上下文語境中的具體含義,因此計算出的文本相似度不夠精確。對此,語義相似度算法被提了出來,該算法基于語料庫和知識庫,對文本中出現(xiàn)的詞頻進行統(tǒng)計分析得出文本語義。
著重介紹并稱音□□指紋算法和文本相似度算法是網(wǎng)絡(luò)版權(quán)算法治理的關(guān)鍵算法,主要基于以下兩點:□□,音□□指紋算法和文本相似度算法涵蓋了作品的三種主要表達形態(tài):音頻、□□和文本。但依據(jù)思想表達二分原則,并非所有的作品內(nèi)容均受版權(quán)法保護,因此更準確地說,版權(quán)法保護的對象是作品的表達。我國《著作權(quán)法》第3條規(guī)定了8類具體的作品類型,總體而言,這些法定的作品類型可大致歸結(jié)為三類表達形態(tài):一是音頻類作品,包括音樂作品、戲劇作品、曲藝作品等;二是□□類作品,主要有美術(shù)作品、攝影作品、電影作品等;三是文本類作品,如文字作品、口述作品、計算機軟件作品等。第二,音□□指紋算法和文本相似度算法能夠勝任作品版權(quán)侵權(quán)認定的核心任務(wù):實質(zhì)性相似比對。作品版權(quán)的侵權(quán)認定遵循“接觸+實質(zhì)性相似”規(guī)則。在該規(guī)則中,證明作品使用者接觸版權(quán)作品較為容易,如果作品使用者有接觸版權(quán)作品的機會(證明版權(quán)作品在先發(fā)表即可)則推定接觸要件成立;而被使用作品與版權(quán)作品是否實質(zhì)性相似是一個較難的問題,也是作品版權(quán)侵權(quán)認定的關(guān)鍵。音□□指紋算法和文本相似度算法都是以判斷網(wǎng)絡(luò)內(nèi)容資源相似度為技術(shù)目標的算法。音□□指紋算法通過感知哈希值(電子指紋)的相似性判斷被感知音□□內(nèi)容的相似性,文本相似度算法以字面相似度計算和語義相似度計算為方法來計算兩個或多個文本內(nèi)容的相似性。綜上,對作品三種主要表達形態(tài)“音頻、□□、文本”的覆蓋,對版權(quán)侵權(quán)判斷的核心“實質(zhì)性相似”認定的勝任,表明音□□指紋算法和文本相似度算法是有效治理網(wǎng)絡(luò)版權(quán)環(huán)境的技術(shù)工具。能夠計算內(nèi)容相似程度的算法不僅可以應(yīng)用于網(wǎng)絡(luò)版權(quán)治理,還可以模擬人類的視覺認知和思維邏輯對商標近似做出判斷,為商標的自動評審和智能維權(quán)提供技術(shù)支持。