Welcome to Scribd. Sign in or start your free trial to enjoy unlimited e-books, audiobooks & documents.Find out more
Download
Standard view
Full view
of .
Look up keyword
Like this
3Activity
0 of .
Results for:
No results containing your search query
P. 1
論搜尋引擎以程式在網路上自動抓取資料時可能

論搜尋引擎以程式在網路上自動抓取資料時可能

Ratings:

4.0

(1)
|Views: 827|Likes:
Published by 陳鍾誠
【摘要】
搜尋引擎必須以crawler 程式(又稱spider
程式)來自動抓取網頁並建立索引,如果crawler
程式僅僅循著網頁所提供的超連結來搜尋網頁
並抓取內容,稱為一般性的crawler 程式;如果
不論網頁是否提供超連結,crawler 程式會自行計
算並找到網頁的所有內容並加以抓取,此種
crawler 則稱為深度crawler。而crawler 抓取網頁
內容的步驟可以細分為「取得資料」及「儲存並
建立索引」二大步驟。在「取得資料」階段中,
深度crawler 雖然是自行透過演算法來取得網頁
的所有內容,但本文認為仍不至於構成非法存取
(unauthorized access)。此外,不論是一般的
crawler 或是深度crawler,如果取得網頁內容時
會耗費網站資源而干擾網站的正常運作,就可能
構成如美國eBay 案中討論的財產侵害(trespass
to chattel)。在「儲存並建立索引」階段中,原則
上應該不會侵害網頁擁有者之重製權,然而、有
些搜尋引擎 (例如 Google) 將其取得的內容以
「庫存頁面」(cache)的方式允許使用者存取,
此時即有爭議發生,但本文以為,由於搜尋引擎
的主要目的是在使網路使用者更容易接觸網
頁,所以此種「重製」與「散布」行為原則上應
有著作權法「合理使用」原則的適用,故不會構
成侵害著作權,但仍應考慮搜尋引擎與原網站之
間是否處於競爭關係,以及所抓取之資料量佔原
網站之比例等因素綜合判斷。要解決搜尋引擎與
網站間可能發生的法律爭議,除可以強化現行的
robot exclusion 協定外,網站也可以考慮增強自
動過濾crawler 的功能,以杜絕爭議。
關鍵字:搜尋引擎、crawler、侵權行為、著作權
【摘要】
搜尋引擎必須以crawler 程式(又稱spider
程式)來自動抓取網頁並建立索引,如果crawler
程式僅僅循著網頁所提供的超連結來搜尋網頁
並抓取內容,稱為一般性的crawler 程式;如果
不論網頁是否提供超連結,crawler 程式會自行計
算並找到網頁的所有內容並加以抓取,此種
crawler 則稱為深度crawler。而crawler 抓取網頁
內容的步驟可以細分為「取得資料」及「儲存並
建立索引」二大步驟。在「取得資料」階段中,
深度crawler 雖然是自行透過演算法來取得網頁
的所有內容,但本文認為仍不至於構成非法存取
(unauthorized access)。此外,不論是一般的
crawler 或是深度crawler,如果取得網頁內容時
會耗費網站資源而干擾網站的正常運作,就可能
構成如美國eBay 案中討論的財產侵害(trespass
to chattel)。在「儲存並建立索引」階段中,原則
上應該不會侵害網頁擁有者之重製權,然而、有
些搜尋引擎 (例如 Google) 將其取得的內容以
「庫存頁面」(cache)的方式允許使用者存取,
此時即有爭議發生,但本文以為,由於搜尋引擎
的主要目的是在使網路使用者更容易接觸網
頁,所以此種「重製」與「散布」行為原則上應
有著作權法「合理使用」原則的適用,故不會構
成侵害著作權,但仍應考慮搜尋引擎與原網站之
間是否處於競爭關係,以及所抓取之資料量佔原
網站之比例等因素綜合判斷。要解決搜尋引擎與
網站間可能發生的法律爭議,除可以強化現行的
robot exclusion 協定外,網站也可以考慮增強自
動過濾crawler 的功能,以杜絕爭議。
關鍵字:搜尋引擎、crawler、侵權行為、著作權

More info:

Published by: 陳鍾誠 on Jun 20, 2008
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

08/09/2011

pdf

text

original

\u8ad6\u641c\u5c0b\u5f15\u64ce\u4ee5\u7a0b\u5f0f\u5728\u7db2\u8def\u4e0a\u81ea\u52d5\u6293\u53d6\u8cc7\u6599\u6642\u53ef\u80fd
\u8ad6\u641c\u5c0b\u5f15\u64ce\u4ee5\u7a0b\u5f0f\u5728\u7db2\u8def\u4e0a\u81ea\u52d5\u6293\u53d6\u8cc7\u6599\u6642\u53ef\u80fd
\u8ad6\u641c\u5c0b\u5f15\u64ce\u4ee5\u7a0b\u5f0f\u5728\u7db2\u8def\u4e0a\u81ea\u52d5\u6293\u53d6\u8cc7\u6599\u6642\u53ef\u80fd
\u8ad6\u641c\u5c0b\u5f15\u64ce\u4ee5\u7a0b\u5f0f\u5728\u7db2\u8def\u4e0a\u81ea\u52d5\u6293\u53d6\u8cc7\u6599\u6642\u53ef\u80fd
\u9762\u81e8\u4e4b\u6cd5\u5f8b\u554f\u984c
\u9762\u81e8\u4e4b\u6cd5\u5f8b\u554f\u984c
\u9762\u81e8\u4e4b\u6cd5\u5f8b\u554f\u984c
\u9762\u81e8\u4e4b\u6cd5\u5f8b\u554f\u984c\u53ca\u5176\u89e3\u6c7a\u4e4b\u9053
\u53ca\u5176\u89e3\u6c7a\u4e4b\u9053
\u53ca\u5176\u89e3\u6c7a\u4e4b\u9053
\u53ca\u5176\u89e3\u6c7a\u4e4b\u9053
\u5ed6\u5148\u5fd7
\u570b\u7acb\u4ea4\u901a\u5927\u5b78\u8cc7\u8a0a\u7ba1\u7406\u7814\u7a76\u6240\u535a\u58eb\u73ed\u7814\u7a76\u751f/ \u53f0\u7063\u6843\u5712\u5730\u65b9\u6cd5\u9662\u6aa2\u5bdf\u7f72\u6aa2\u5bdf\u5b98
Hsien-Jyh Liao
Email : hjliao1@mail.moj.gov.tw
\u9673\u937e\u8aa0
\u570b\u7acb\u91d1\u9580\u6280\u8853\u5b78\u9662\u8cc7\u8a0a\u7ba1\u7406\u7cfb\u52a9\u7406\u6559\u6388

Assistant Professor, Information Management Department, Nation Kinmen Institute of
Technology
Email : ccc@kmit.edu.tw

\u3010\u6458\u8981\u3011

\u641c\u5c0b\u5f15\u64ce\u5fc5\u9808\u4ee5crawler \u7a0b\u5f0f\uff08\u53c8\u7a31spider \u7a0b\u5f0f\uff09\u4f86\u81ea\u52d5\u6293\u53d6\u7db2\u9801\u4e26\u5efa\u7acb\u7d22\u5f15\uff0c\u5982\u679ccrawler \u7a0b\u5f0f\u50c5\u50c5\u5faa\u8457\u7db2\u9801\u6240\u63d0\u4f9b\u7684\u8d85\u9023\u7d50\u4f86\u641c\u5c0b\u7db2\u9801 \u4e26\u6293\u53d6\u5167\u5bb9\uff0c\u7a31\u70ba\u4e00\u822c\u6027\u7684crawler \u7a0b\u5f0f\uff1b\u5982\u679c \u4e0d\u8ad6\u7db2\u9801\u662f\u5426\u63d0\u4f9b\u8d85\u9023\u7d50\uff0ccrawler \u7a0b\u5f0f\u6703\u81ea\u884c\u8a08 \u7b97\u4e26 \u627e\u5230 \u7db2\u9801 \u7684\u6240 \u6709\u5167 \u5bb9\u4e26 \u52a0\u4ee5 \u6293\u53d6 \uff0c\u6b64 \u7a2e

crawler\u5247\u7a31\u70ba\u6df1\u5ea6 crawler\u3002\u800c crawler\u6293\u53d6\u7db2\u9801

\u5167\u5bb9\u7684\u6b65\u9a5f\u53ef\u4ee5\u7d30\u5206\u70ba\u300c\u53d6\u5f97\u8cc7\u6599\u300d\u53ca\u300c\u5132\u5b58\u4e26 \u5efa\u7acb\u7d22\u5f15\u300d\u4e8c\u5927\u6b65\u9a5f\u3002\u5728\u300c\u53d6\u5f97\u8cc7\u6599\u300d\u968e\u6bb5\u4e2d\uff0c \u6df1\u5ea6crawler \u96d6\u7136\u662f\u81ea\u884c\u900f\u904e\u6f14\u7b97\u6cd5\u4f86\u53d6\u5f97\u7db2\u9801 \u7684\u6240\u6709\u5167\u5bb9\uff0c\u4f46\u672c\u6587\u8a8d\u70ba\u4ecd\u4e0d\u81f3\u65bc\u69cb\u6210\u975e\u6cd5\u5b58\u53d6 \uff08unauthorized access \uff09\u3002 \u6b64\u5916 \uff0c\u4e0d \u8ad6\u662f \u4e00\u822c \u7684

crawler\u6216\u662f\u6df1\u5ea6 crawler\uff0c\u5982\u679c\u53d6\u5f97\u7db2\u9801\u5167\u5bb9\u6642
\u6703\u8017\u8cbb\u7db2\u7ad9\u8cc7\u6e90\u800c\u5e72\u64fe\u7db2\u7ad9\u7684\u6b63\u5e38\u904b\u4f5c\uff0c\u5c31\u53ef\u80fd
\u69cb\u6210\u5982\u7f8e\u570beBay \u6848\u4e2d\u8a0e\u8ad6\u7684\u8ca1\u7522\u4fb5\u5bb3\uff08trespass
to chattel\uff09\u3002\u5728\u300c\u5132\u5b58\u4e26\u5efa\u7acb\u7d22\u5f15\u300d\u968e\u6bb5\u4e2d\uff0c\u539f\u5247

\u4e0a\u61c9\u8a72\u4e0d\u6703\u4fb5\u5bb3\u7db2\u9801\u64c1\u6709\u8005\u4e4b\u91cd\u88fd\u6b0a\uff0c\u7136\u800c\u3001\u6709 \u4e9b\u641c\u5c0b\u5f15\u64ce(\u4f8b\u5982 Go o gl e ) \u5c07\u5176\u53d6\u5f97\u7684\u5167\u5bb9\u4ee5 \u300c\u5eab\u5b58\u9801\u9762\u300d\uff08cache\uff09\u7684\u65b9\u5f0f\u5141\u8a31\u4f7f\u7528\u8005\u5b58\u53d6\uff0c \u6b64\u6642\u5373\u6709\u722d\u8b70\u767c\u751f\uff0c\u4f46\u672c\u6587\u4ee5\u70ba\uff0c\u7531\u65bc\u641c\u5c0b\u5f15\u64ce \u7684\u4e3b \u8981\u76ee \u7684\u662f \u5728\u4f7f \u7db2\u8def \u4f7f\u7528 \u8005\u66f4 \u5bb9\u6613 \u63a5\u89f8 \u7db2 \u9801\uff0c\u6240\u4ee5\u6b64\u7a2e\u300c\u91cd\u88fd\u300d\u8207\u300c\u6563\u5e03\u300d\u884c\u70ba\u539f\u5247\u4e0a\u61c9 \u6709\u8457\u4f5c\u6b0a\u6cd5\u300c\u5408\u7406\u4f7f\u7528\u300d\u539f\u5247\u7684\u9069\u7528\uff0c\u6545\u4e0d\u6703\u69cb \u6210\u4fb5\u5bb3\u8457\u4f5c\u6b0a\uff0c\u4f46\u4ecd\u61c9\u8003\u616e\u641c\u5c0b\u5f15\u64ce\u8207\u539f\u7db2\u7ad9\u4e4b \u9593\u662f\u5426\u8655\u65bc\u7af6\u722d\u95dc\u4fc2\uff0c\u4ee5\u53ca\u6240\u6293\u53d6\u4e4b\u8cc7\u6599\u91cf\u4f54\u539f \u7db2\u7ad9\u4e4b\u6bd4\u4f8b\u7b49\u56e0\u7d20\u7d9c\u5408\u5224\u65b7\u3002\u8981\u89e3\u6c7a\u641c\u5c0b\u5f15\u64ce\u8207 \u7db2\u7ad9\u9593\u53ef\u80fd\u767c\u751f\u7684\u6cd5\u5f8b\u722d\u8b70\uff0c\u9664\u53ef\u4ee5\u5f37\u5316\u73fe\u884c\u7684

robot exclusion\u5354\u5b9a\u5916\uff0c\u7db2\u7ad9\u4e5f\u53ef\u4ee5\u8003\u616e\u589e\u5f37\u81ea
\u52d5\u904e\u6ffecrawler \u7684\u529f\u80fd\uff0c\u4ee5\u675c\u7d55\u722d\u8b70\u3002
\u95dc\u9375\u5b57\uff1a\u641c\u5c0b\u5f15\u64ce\u3001crawler\u3001\u4fb5\u6b0a\u884c\u70ba\u3001\u8457\u4f5c\u6b0a
\u6cd5
1
\u58f9\u3001\u5f15\u8ad6

\u81ea1991 \u5e74\u5168\u7403\u8cc7\u8a0a\u7db2\u51fa\u73fe\u4e4b\u5f8c\uff0c\u7db2\u8def\u4e0a\u7684 \u8cc7\u6599\u91cf\u51fa\u73fe\u7206\u70b8\u6027\u7684\u6210\u9577\uff0c\u751a\u81f3\u7522\u751f\u4e86\u8cc7\u8a0a\u904e\u591a \u7684\u554f\u984c\uff0cYahoo \u8207AltaVista \u7b49\u5165\u53e3\u7db2\u7ad9\u65bc1994 \u5e74\u958b\u59cb\u51fa\u73fe\uff0c\u9019\u985e\u7db2\u7ad9\u6709\u7cfb\u7d71\u7684\u8490\u96c6\u7db2\u9801\u4e26\u52a0\u4ee5 \u5206\u985e\u3001\u904e\u6ffe\uff0c\u4ee5\u4f9b\u4f7f\u7528\u8005\u67e5\u8a62\uff0c\u57fa\u65bc\u9019\u6a23\u7684\u529f\u80fd\uff0c \u9019\u985e\u7db2\u7ad9\u88ab\u7d71\u7a31\u70ba\u300c\u641c\u5c0b\u5f15\u64ce\u300d\uff08search engine\uff09\u3002 \u6642\u81f3\u4eca\u65e5\uff0c\u641c\u5c0b\u5f15\u64ce\u8490\u96c6\u7684\u8cc7\u6599\u8d8a\u4f86\u8d8a\u591a\uff0c\u5728\u7db2 \u8def\u4e16\u754c\u4e2d\u7684\u5f71\u97ff\u4e5f\u8d8a\u4f86\u8d8a\u5927\uff0c\u4ee5Google \u70ba\u4f8b\uff0c \u81f32004 \u5e74\u5e95\u70ba\u6b62\uff0c\u5b83\u7684\u8cc7\u6599\u5eab\u4e2d\u5c31\u670980 \u51045 \u5343

8\u767e\u842c\u500b\u7db2\u9801\uff0c11\u5104 8\u5343 7\u767e\u842c\u5f35\u5716\u7247\uff0c10\u5104\u500b

\u65b0\u805e\u7d44\u8a0a\u606f\uff0c6 \u53436 \u767e\u500b\u5217\u5370\u76ee\u9304\uff0c4 \u53435 \u767e\u500b \u65b0\u805e\u8a0a\u606f1\u3002\u540c\u6642\uff0c Go o gle \u548cYahoo \u751a\u81f3\u96d9\u96d9\u5165 \u9078\u70ba15 \u500b\u5f71\u97ff\u4eba\u985e\u7684\u7db2\u7ad92\u3002

\u641c\u5c0b\u5f15\u64ce\u7684\u4e00\u500b\u975e\u5e38\u91cd\u8981\u7684\u7d44\u6210\u90e8\u5206\uff0c\u5c31\u662f \u5148\u884c\u5229\u7528crawler \u5728\u7db2\u8def\u4e0a\u53d6\u5f97\u7db2\u9801\u5167\u5bb93\uff0c\u800c\u53d6 \u5f97\u5c0d \u8c61\u662f \u5e0c\u671b \u5c07\u6240 \u6709\u7db2 \u8def\u4e0a \u7684\u8cc7 \u6599\u90fd \u5305\u542b \u9032 \u4f86\uff0c\u6240\u4ee5\u6211\u5011\u751a\u81f3\u53ef\u4ee5\u8aaa\u53ea\u8981\u66fe\u7d93\u5728\u7db2\u8def\u4e0a\u64b0\u5beb \u904e\u7684\u8cc7\u6599\uff0c\u5e7e\u4e4e\u90fd\u6709\u53ef\u80fd\u88ab\u641c\u5c0b\u5f15\u64ce\u6293\u4e0b\uff0c\u641c\u5c0b \u5f15\u64ce\u5728\u53d6\u5f97\u5167\u5bb9\u5f8c\uff0c\u6703\u5c0d\u9019\u4e9b\u8cc7\u6599\u5efa\u7acb\u7d22\u5f15\uff0c\u4ee5 \u65b9\u4fbf\u67e5\u8a62\u3002\u800c\u5728\u9019\u6a23\u7684\u300c\u53d6\u5f97\u8cc7\u6599\u2014\u5132\u5b58\u2014\u5efa\u7acb \u7d22\u5f15\u300d\u7684\u904e\u7a0b\u4e2d\uff0c\u641c\u5c0b\u5f15\u64ce\u5fc5\u9808\u5927\u91cf\u7684\u5411\u7db2\u7ad9\u6293 \u53d6\u8cc7\u6599\uff0c\u53d6\u7528\u7db2\u9801\u7684\u5167\u5bb9\u5f8c\u5132\u5b58\u4e0b\u4f86\uff0c\u9019\u4e9b\u52d5\u4f5c \u5f15\u767c\u4e86\u8a31\u591a\u7684\u6cd5\u5f8b\u722d\u8b70\u3002\u672c\u6587\u7684\u76ee\u6a19\u5728\u91d0\u6e05\u9019\u4e9b \u6cd5\u5f8b\u722d\u8b70\uff0c\u9019\u4e0d\u4f46\u5c0d\u65bc\u641c\u5c0b\u5f15\u64ce\u7684\u7d93\u71df\u8005\u975e\u5e38\u91cd \u8981\uff0c\u540c\u6642\u5c0d\u7db2\u7ad9\u7684\u7ba1\u7406\u8005\uff0c\u751a\u81f3\u662f\u66fe\u7d93\u5728\u7db2\u8def\u4e0a \u767c\u8868\u8cc7\u6599\u7684\u4eba\u4f86\u8aaa\uff0c\u90fd\u5fc5\u9808\u77ad\u89e3\u9019\u500b\u554f\u984c\uff0c\u5982\u6b64

1\u898bhttp://zh.wikipedia.org/wiki/Google\uff08last visited Sep.
30 2006\uff09
2\u898b\u82f1\u570b\u89c0\u5bdf\u5bb6\u5831\uff0c
http://observer.guardian.co.uk/review/story/0,,18432
63,00.html\uff08last visited Sep. 30 2006\uff09
3\u9019\u4e9b\u5167\u5bb9\u5305\u542b\u8a0e\u8ad6 \u5340\u3001BBS\u3001\u8ad6\u6587 \u3001\u500b\u4eba\u7684\u7db2\u8def \u65e5

\u8a18(\u53c8\u7a31\u90e8\u843d\u683c)\u7b49\u8cc7\u6599\u3002\u53e6\u5916\uff0c\u6b64\u8655\u7684\u5167\u5bb9\uff0c\u66ab\u6642\u5148 \u9650\u5b9a\u70ba\u6587\u5b57\u5167\u5bb9\uff0c\u4e5f\u4e0d\u5305\u542b\u4ee5\u7e2e\u5716\u65b9\u5f0f\u5448\u73fe\u7684\u300c\u5716\u5f62 \u641c\u5c0b\u300d\uff0c\u56e0\u70ba\u4ee5\u7e2e\u5716\u5efa\u7acb\u7d22\u5f15\u6642\uff0c\u6240\u61c9\u8003\u616e\u7684\u6280\u8853\u554f\u984c \u96d6\u7136\u8207\u8655\u7406\u6587\u5b57\u5167\u5bb9\u7684\u6280\u8853\u985e\u4f3c\uff0c\u4f46\u63d0\u4f9b\u4f7f\u7528\u8005\u641c\u5c0b \u7d50\u679c\u7684\u8868\u793a\u65b9\u5f0f\u5247\u5927\u4e0d\u76f8\u540c\uff0c\u800c\u7f8e\u570b\u6cd5\u9662\u4e5f\u5728Kelly v.

Arriba Soft Corporation (280 F.3d 934 (CA9 2002)\u53ca 2006\u5e74\u7684 Perfect 10 v. Google Inc. et al. (CASE NO. CV 04-9484 AHM (SHx))\u4e8c\u500b\u6848\u4ef6\u4e2d\u8868\u793a\u4e0d\u540c\u7684\u7d50

\u8ad6\uff0c\u6545\u6b64\u90e8\u5206\u5c07\u7559\u5f85\u5c07\u4f86\u5c08\u6587\u8a0e\u8ad6\u3002
\u624d\u80fd\u5728\u500b\u4eba\u8cc7\u6599\u88ab\u641c\u5c0b\u5f15\u64ce\u53d6\u7528\u5f8c\uff0c\u4e3b\u5f35\u4e26\u7dad\u8b77
\u81ea\u5df1\u7684\u6b0a\u5229\u3002

\u5728\u9019\u500b\u6cd5\u5f8b\u8b70\u984c\u4e0a\uff0c\u76ee\u524d\u7684\u6587\u737b\u5927\u90fd\u662f\u91dd\u5c0d \u767c\u751f\u5f8c\u7684\u500b\u68484\uff0c\u6216\u662f\u91dd\u5c0d\u55ae\u4e00\u6cd5\u5f8b\u554f\u984c\u4f86\u9032\u884c\u8a0e \u8ad65\uff0c\u800c\u7f3a\u4e4f\u4ee5\u641c\u5c0b\u5f15\u64ce\u70ba\u51fa\u767c\u9ede\u7684\u5b8c\u6574\u5206\u6790\u3002\u56e0 \u6b64\uff0c\u672c\u6587\u5c07\u5148\u4ecb\u7d39\u641c\u5c0b\u5f15\u64ce\u7684\u67b6\u69cb\u8207\u57fa\u672c\u529f\u80fd\uff0c \u5340\u5206\u51fa\u7d44\u6210\u55ae\u5143\u8207\u6b65\u9a5f\uff0c\u7136\u5f8c\u5206\u6790\u5404\u500b\u6b65\u9a5f\u4e2d\u53ef \u80fd\u7522\u751f\u7684\u6cd5\u5f8b\u554f\u984c\u53ca\u907f\u514d\u65b9\u5f0f\u3002\u63a5\u8457\uff0c\u518d\u5217\u8209\u7db2 \u7ad9\u6240\u53ef\u80fd\u63a1\u53d6\u7684\u5e7e\u7a2e\u9632\u6b62crawler \u4e4b\u65b9\u5f0f\uff0c\u4e26\u5206 \u6790\u5176\u6cd5\u5f8b\u610f\u6db5\u3002\u6700\u5f8c\uff0c\u6211\u5011\u63d0\u51fa\u7d50\u8ad6\u8207\u672a\u4f86\u7684\u7814 \u7a76\u65b9\u5411\u3002

\u8cb3\u3001\u641c\u5c0b\u5f15\u64ce\u8207crawler \u7c21\u4ecb
2.1\u80cc\u666f

\u641c\u5c0b\u5f15\u64ce\u662f\u7531\u4e00\u7d44\u5177\u6709\u7db2\u9801\u8490\u96c6\u3001\u5132\u5b58\u3001\u7d22 \u5f15\u3001\u67e5\u8a62\u7b49\u529f\u80fd\u7684\u7a0b\u5f0f\u6240\u96c6\u5408\u800c\u6210\u76846\uff0c\u5176\u4e2d\u7db2 \u9801\u8490\u96c6\u7684\u7a0b\u5f0f\u7a31\u70ba cr a wler \u6216spi der\uff0ccrawler \u7a0b \u5f0f\u7684\u8a2d\u8a08\u539f\u7406\u662f\u5229\u7528\u8ffd\u8e64\u7db2\u9801\u4e0a\u7684\u8d85\u9023\u7d50\u4ee5\u4e0d \u65b7\u5c0b\u627e\u65b0\u7db2\u9801\uff0c\u9019\u4e9b\u88ab\u8490\u96c6\u5230\u7684\u7db2\u9801\u7d93\u7d44\u7e54\u5f8c\u6703 \u6709\u7cfb\u7d71\u7684\u5b58\u5728\u786c\u789f\u4e2d\uff0c\u63a5\u8457\u4e00\u500b\u7a31\u70ba In d e x e r \u7684 \u7a0b\u5f0f\u6703\u5c0d\u9019\u4e9b\u6a94\u6848\u4e2d\u51fa\u73fe\u7684\u6bcf\u500b\u5b57\u8a5e\u90fd\u5efa\u7acb\u7d22 \u5f15\uff0c\u4ee5\u4fbf\u67e5\u8a62\u3002\u5982\u6b64\u7576\u4f7f\u7528\u8005\u5728\u641c\u5c0b\u5f15\u64ce\u7684\u9996\u9801 \u4e2d\u8f38\u5165\u67e5\u8a62\u5b57\u8a5e\u6642\uff0c\u641c\u5c0b\u5f15\u64ce\u5c31\u6703\u6839\u64da\u7d22\u5f15\uff0c\u627e \u51fa\u6240\u6709\u66fe\u7d93\u51fa\u73fe\u904e\u8a72\u5b57\u8a5e\u7684\u6a94\u6848\uff0c\u4e26\u50b3\u56de\u67e5\u8a62\u7d50 \u679c\u7d66\u4f7f\u7528\u8005\uff0c\u4e0b\u5716\u986f\u793a\u4e86\u641c\u5c0b\u5f15\u64ce\u7684\u57fa\u672c\u67b6\u69cb\u3002

4\u6797\u767c\u7acb\uff0c\u201d Internet \u7684\u512a\u52e2\u8207\u554f\u984c--\u5f9e
TicketmasterCorp. v. Tickets.com Inc.\u300c\u6df1\u5165\u9023\u7d50\u300d\u4e00\u6848
\u8ac7\u8d77\u201d\uff0c \u842c\u570b\u6cd5\u5f8b\uff0c\u7b2c112 \u671f\uff0c\u980149-52\uff0c2000 \u5e74\u3002

Pamela Samuelson, \u201cUnsolicited Communications as
Trespass?\u201d, Comm. ACM, Vol. 46 No. 10, P15-20, Oct.
2003\u3002Kevin Emerson Collins, \u201dCybertrespass and
Trepass to Documents\u201d, Clev. St. L. Rev., Vol. 54,
P41-66, 2006\u3002

5\u90ed\u5bf6\u660e\uff0c\u201d\u7f51\u7ad9\u641c\u7d22 \u5f15\u64ce\u63d0\u4f9b\u8005\u8457\u4f5c \u6743\u4fb5\u6743\u98ce\u9669\u7684 \u6cd5
\u5f8b\u5206\u6790\u201d\uff0cwww.law-lib.com/lw/lw_view.asp?no= 1397
\uff08last visited Sep. 30 2006\uff09
6 \u53c3\u674e\u66c9\u660e\u3001\u95bb\u5b8f\u98db\u3001\u738b\u7e7c\u6c11, \u201c\u641c\u5c0b\u5f15\u64ce\u2013 \u539f\u7406\u3001\u6280
\u8853\u8207\u7cfb\u7d71\u201d , \u79d1\u5b78\u51fa\u7248\u793e, 2004 (\u7c21\u9ad4) \u53caBrin S, Page
L. \u201cThe anatomy of large-scale hypertextual Web search
engine\u201d, In Proceedings of the 7th International World
Wide Web conference/ComputerNetworks, Amsterdam,
1998.
2
Crawler
Web Pages
Database
Reverse
Index
Indexer
Web Server
+
Retriever
+
Interface
Internet
Internet
Web Server
Web Server
Web Server
Browser
Search Engine
Crawler
Web Pages
Database
Reverse
Index
Indexer
Web Server
+
Retriever
+
Interface
Internet
Internet
Web Server
Web Server
Web Server
Browser
Search Engine
\u57161 \u641c\u5c0b\u5f15\u64ce\u7684\u57fa\u672c\u67b6\u69cb\u5716

\u4e0a\u8ff0\u67b6\u69cb\u4e43\u662f\u4e00\u500b\u7c21\u5316\u7684\u7d50\u679c\uff0c\u67d0\u4e9b\u641c \u5c0b\u5f15\u64ce\u7684\u8a2d\u8a08\u9084\u52a0\u4e0a\u4e86\u5176\u4ed6\u7684\u5143\u4ef6\u4ee5\u589e\u9032 \u641c\u5c0b\u6548\u80fd\uff0c\u4f8b\u5982\uff1a\u6392\u5e8f7\u3001\u58d3\u7e2e\u3001\u5206\u6563\u8cc7\u6599 \u7b49\u7b49\uff0c\u7136\u800c\u5c31\u672c\u6587\u7684\u6cd5\u5f8b\u5206\u6790\u800c\u8a00\uff0c\u4e0a\u8ff0\u7684 \u67b6\u69cb\u5df2\u7d93\u8db3\u5920\uff0c\u4ee5\u4e0b\u5c07\u4f9d\u7167\u4e0a\u8ff0\u7684\u9019\u500b\u67b6\u69cb \u7c21\u4ecb\u641c\u5c0b\u5f15\u64ce\u7684\u5404\u500b\u7d44\u6210\u90e8\u5206\u3002

2.2\u7db2\u9801\u6293\u53d6\u7a0b\u5f0f

\u57161 \u4e2d\u7684\u7db2\u9801\u6293\u53d6\u7a0b\u5f0fcrawler \u662f\u4e00\u500b \u8ffd\u8e64\u7db2\u5740\u4ee5\u53d6\u5f97\u7db2\u9801\u7684\u7a0b\u5f0f\uff0c\u8a73\u7d30\u7684\u505a\u6cd5\u5927 \u81f4\u4e0a\u53ef\u5206\u70ba\u4e0b\u5217\u5e7e\u500b\u6b65\u9a5f\uff1a

1.\u4e8b\u5148 \u5728\u7db2 \u5740\u8cc7 \u6599\u5eab \u4e2d\u653e \u5165\u4e00 \u4e9b\u7db2 \u5740\uff0c\u7a31
\u70ba\u8d77\u59cb\u7db2\u5740\u3002(\u6b64\u90e8\u5206\u901a\u5e38\u70ba\u624b\u52d5\u800c\u975e\u81ea
\u52d5)
2. Crawler\u5f9e\u7db2\u5740\u8cc7\u6599\u5eab\u4e2d\u53d6\u5f97\u4e00\u500b\u5f85\u5b58
\u53d6\u7684\u7db2\u5740 ( URL)8\u3002
7Google\u7684\u6392\u5e8f\u65b9\u6cd5\u8acb\u53c3\u8003 Page L, et al. \u201cThe

PageRank Citation Ranking : Brining Orderto the Web\u201d,
Stanford Digital Library Technologies Project, 1998.
(http://citeseer.ist.psu.edu/page98pagerank.html last
visited Sep. 30 2006)

8\u6240\u8b02\u7684URL\uff0c\u662fUniversal Resource Locator \u7684\u7e2e\u5beb\uff0c

\u76f4\u8b6f\u6210\u4e2d\u6587\u53ef\u4ee5\u53eb\u300c\u5168\u7403\u8cc7\u6e90\u5b9a\u5740\u5668\u300d\uff0cURL \u5be6\u969b\u4e0a
\u5c31\u662f\u4e00\u500b\u4f4d\u5740\uff0c\u9019\u500b\u4f4d\u5740\u53ef\u4ee5\u5f15\u5c0e\u700f\u89bd\u5668\u6216crawler
\u5b58\u53d6\u5230URL \u6240\u6307\u5411\u7684\u5167\u5bb9\uff0c\u9019\u500b\u5167\u5bb9\u53ef\u80fd\u662f\u4e00\u500b\u6a94\u6848
\u6216\u8005\u662f\u5f9e\u8cc7\u6599\u5eab\u4e2d\u67e5\u8a62\u6240\u7d44\u5408\u51fa\u4f86\u7684\u4e00\u4e9b\u7d00\u9304\u3002\u53c3\u898b

David Fox,Tory Downing\u8457\uff0c\u6df1\u5165 HTML3 WEB\u8a2d
\u8a08\uff0c\u677e\u683c\u8cc7\u8a0a\u6709\u9650\u516c\u53f8\uff0c1995\uff0c\u980114\u3002
3. Crawler\u6839\u64da \u8a72\u7db2 \u5740\u53d6 \u5f97\u7db2 \u9801\u5167 \u5bb9
(HTML\u683c\u5f0f\u7684\u6587\u4ef6)\u3002
4. Crawler\u5256\u6790\u7db2\u9801\u7684\u5167\u5bb9\u5f8c\uff0c\u53d6\u5f97\u5176\u4e2d\u7684
\u6240\u6709\u8d85\u9023\u7d50( Hyper li nk)\uff0c\u4e26\u5c07\u9019\u4e9b\u8d85\u9023
\u7d50\u6240\u9023\u63a5\u7684\u65b0\u7db2\u5740\u52a0\u5165\u7db2\u5740\u8cc7\u6599\u5eab\u4e2d\u3002
5. Crawler\u5c07\u6240\u53d6\u5f97\u7684\u7db2\u9801\u5b58\u5165\u78c1\u789f\u6216\u8cc7
\u6599\u5eab\u4e2d\uff0c\u4ee5\u4f9b\u641c\u5c0b\u5f15\u64ce\u5efa\u7acb\u7d22\u5f15\u4e4b\u7528\u3002
6.\u56de\u5230\u6b65\u9a5f 2\uff0c\u4ee5\u53d6\u5f97\u4e26\u8655\u7406\u4e0b\u4e00\u500b\u7db2\u5740\u3002

\u5982\u6b64\u53ea\u8981\u4e00\u958b\u59cb\u6642\u7db2\u5740\u8cc7\u6599\u5eab\u4e2d\u6709\u5c11\u6578 \u7684\u7db2\u5740\uff0ccrawler \u5c31\u80fd\u6839\u64da\u9019\u4e9b\u7db2\u5740\u4f86\u53d6\u5f97\u7db2 \u9801\uff0c\u7136\u5f8c\u627e\u5230\u66f4\u591a\u7684\u7db2\u5740\uff0c\u9032\u800c\u53d6\u5f97\u66f4\u591a\u7684 \u7db2\u9801\uff0c\u5982\u6b64\u53cd\u8986\u5faa\u74b0\uff0c\u4e0d\u65b7\u7684\u64f4\u5927\u7db2\u5740\u8cc7\u6599 \u5eab\uff0c\u7d93\u904e\u9019\u6a23\u7684\u7a0b\u5e8f\uff0c\u53ea\u8981\u66fe\u7d93\u88ab\u9023\u7d50\u904e\u7684 \u7db2\u9801\u5927\u90e8\u5206\u90fd\u6703\u88ab\u56ca\u62ec\u9032\u8cc7\u6599\u5eab\u4e2d\uff0c\u4e0b\u5716\u986f \u793a\u4e86 cr a wle r \u7684\u904b\u4f5c\u904e\u7a0b\u3002

URL
URL
URL
HTML
URL
HTML
HTML
URL
URL
HTML
URL
\u2026
URL
URL
URL
HTML
URL
HTML
HTML
URL
URL
HTML
URL
\u2026
\u57162 Crawler \u6293\u53d6\u7db2\u9801\u3001\u53d6\u51fa\u7db2\u5740\u7684\u904e\u7a0b

\u7136\u800c\u7531\u65bccrawler \u7684\u904b\u4f5c\u904e\u7a0b\u4e2d\uff0c\u4e26\u6c92 \u6709\u5305\u542b\u5fb5\u8a62\u7db2\u7ad9\u7dad\u8b77\u8005\u6216\u7db2\u9801\u88fd\u4f5c\u8005\u540c\u610f \u7684\u6a5f\u5236\uff0c\u70ba\u4e86\u907f\u514d\u767c\u751f\u9019\u6a23\u7684\u722d\u8b70\uff0c\u65bc\u662f \u767c \u5c55\u51fa\u4e86robot exclusion standard (RES)9 \u6a5f \u5236\uff0cRES \u53ef\u4ee5\u7528\u4f86\u5411\u641c\u5c0b\u5f15\u64ce\u8868\u9054\u7981\u6b62

9\u53c3\u8003Martijn Koster , \u201cA Standard forRobot
Exclusion\u201d,\u7db2\u5740:http :/ / www. r o b o tstxt. o rg/
wc/norobots.html
\uff08last visited Sep. 30 2006\uff09\u53caWong C.
\u201cWeb Client Programming with Perl\u201d , O\u2019Reilly, 1997,
Appendix C.\u7db2 \u5740:
http://www.oreilly.com/openbook/webclient/appc.html.
\uff08last visited Sep. 30 2006\uff09

Activity (3)

You've already reviewed this. Edit your review.
1 hundred reads
1 thousand reads
ChuckRa liked this

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->