目前分類:資訊類的好文章 (4)

瀏覽方式: 標題列表 簡短摘要

原文網址:http://playpcesor.blogspot.com/2008/05/google.html

以下轉載原文
------------------------------------------------------------------------------------------------------------------

Google自訂搜尋引擎Google Co-op Custom Search Engine,簡稱Google CSE)」有兩個主要的功能。第一大功能就是讓網站、部落格打造自己的站內搜索:撇開「Google自訂搜尋引擎」強大的功能性不說,即使就是最簡單的添加單一網站然後進行搜索Google CSE也比最近推出的「Yahoo!奇摩站長工具」更適合國內部落格平台的使用者;因為有點搞笑的是,Yahoo站長工具裡的 「搜尋工具」並無法很準確的使用在國內BSP平台的部落格身上,它並不支援設定第二層的網址名稱當作搜尋條件,但是偏偏像無名小站、Pixnet、天空、Xuite和奇摩自己的部落格全部都是把部落格名稱放在第二層以後的網址,例如:「www.wretch.cc/blog/XXX」這是無名小站的部落格網址,當你設定這樣的條件到Yahoo站長搜尋工具中時,你會發現到時候真正搜索的是整個無名小站(www.wretch.cc)。而Google的自訂搜尋引擎則不會有這種問題出現。

但是我今天要推薦的是Google CSE另外一種非常實用的使用方式(或者說這才是它真正設計的目的):就是利用「聯合搜索」和「條件過濾」,來快速打造出你的個人資訊檢索系統;這個檢索系統不需要你一條一條的把資料拷貝、剪貼進去,而是直接透過「搜尋」來取用整個網路,只要設定好條件,輕輕鬆鬆就可以擁有各式各樣不同使用需求的資料庫,而且設定過程中可以完全不需要懂任何程式碼或網頁語法,任何人都可以完成自己的自訂搜尋引擎系統。

很久之前就寫過一篇相關的介紹,我自己也長期使用透過Google CSE製作的三個資料檢索系統:「中文電腦資訊部落格搜索 」、「英文電腦資訊部落格搜索」、「軟體資訊與下載 」。其實我們透過搜索引擎找資料常常是有「針對性」、「範圍性」的,這和「漫無目的」搜索是兩種不同的需求,與其每次都在「一般性的搜尋引擎」裡面大海撈針,不如自己設定一些條件來做出一個「專門」的個人化替代性搜尋引擎,打造自己的檢索系統,讓不同的需求找到最好的解決出口。

 

 

基礎設定:

1.

使用「Google自訂搜尋引擎」並不難,只是有一些小細節可以注意一下,會讓你的設計更有效果。首先來到CSE首頁,當然你要先登入自己的Google帳戶,然後點選﹝建立自訂搜尋引擎﹞。

cse-01

 


2.

接下來你會需要輸入這個自訂搜尋引擎的「名稱」和「說明」,這邊依照你的設計目的填寫即可,這裡的內容和真正的搜索結果不相關,只是給你和訪客了解而已。然後接著的「搜尋引擎關鍵字」就很重要了,我後面會獨立解說,這邊可以先留白。然後「搜尋引擎語言」則選擇你檢索的首要語言種類,例如選擇【繁體中文】的話,繁中網站的排序會適度的調前。

cse-02

 


3.

接下來「你想要搜尋什麼?」,你可以讓搜尋引擎檢索「僅我選取的網站」;或者你希望讓範圍擴大則可以選擇「整個網路,但將重點放我選取的網站」,這樣你等等加入的網站列表的結果會被排前,但是也可以搜索到整個網路上的內容。

「選取一些網站」就是重頭戲了,你可以在這邊加入你想檢索的網站網址,設計一個專門查找這些網站的搜索引擎。加入網址的方法很簡單,就是「把網址輸入」,用「Enter換行」來區分不同網站即可,如果有疑惑可以按旁邊的「格式化URL的秘訣」查看,它會教你如何運用「*」星號來達到更有彈性的設計。

cse-03

 

因為Skyvee說我寫文章很詳細,深怕漏了哪個步驟,所以我還是再囉嗦一下好了。例如像電腦玩物的網址「http://playpcesor.blogspot.com/」,你就可以直接輸入「playpcesor.blogspot.com」;如果是像簡睿兄的「http://blog.xuite.net/emisjerry/tech」,就輸入「blog.xuite.net/emisjerry/tech」;這樣都可以直接搜尋到這兩個網站的整個站內文章

 


4.

然後就只剩最後一步了,一般人設計的搜尋引擎都是選擇「標準版」,而因為我們應該都不是非營利組織、大學或政府機關,所以不要勾選「取消廣告」(雖然取消了還是可以用,但是不知道會不會有懲罰?)。然後一定要勾選「我已經閱讀並同意此服務條款」,最後按下﹝下一頁﹞。

cse-04

 


5.

大功告成!你可以用上方的搜索引擎試試看自己設計的結果,最後按下﹝完成﹞即可。

cse-05

 

 

你可以在自己的控制後台看到所有設計好的「Google 自訂搜尋引擎」,按下「首頁」可以切換到該搜尋引擎的專屬頁面;按下「控制台」可以對該搜尋引擎作進一步設計;按下「統計資料」則可以查看這個搜尋引擎被使用的情況;你也可以用「刪除」來移除已經設定好的檢索系統。

cse-06

 

 

進階控制台:

1.搜尋引擎關鍵字

進入「控制台」,剛剛我們沒有設定「搜尋引擎關鍵字」,這邊其實是很重要的一個功能,你可以在這裡加入「特定關鍵字」來讓「符合該關鍵字」的檢索資料在所有查詢中都「動態的排前」,注意喔!這邊是會依據Google的運算來「適度的(非絕對的)」讓排名結果提前。例如你這個搜尋引擎是設計來找「化妝品」,那麼你就可以把「化妝品」作為搜尋引擎關鍵字,這樣當你檢索「紅色」時,同時包含「化妝品」的資料會被自動往前排,讓你檢索時更方便、更有針對性。

cse-07

 


有無設定關鍵字的結果比較:例如下面這張圖是我原本「沒有設定任何關鍵字」的「中文電腦資訊部落格搜索」查詢「Google」一詞的結果。

cse-08

 

 

假設我加入了「電腦玩物」這個關鍵字,那搜尋的結果就會變成下圖。在關鍵字的設計上,如果你輸入多個關鍵字,可以用「空格」來隔開,不過第一個關鍵字的比重會最高;你也可以用「" "」來包住某個特定的詞組,表示一定要完整符合這個詞組的關鍵字才要排前。(P.S. 我這邊只是實驗,中文電腦資訊部落格搜索這個引擎,預設我是沒有加入任何關鍵字的)

cse-09

 


2.協同與公開自訂搜尋引擎

同樣在「控制台」的第一頁,在下方的「偏好設定」中,「誰可以協同作業:」讓你設定要讓哪些人可以和你「一起編修」這個搜尋引擎;而「搜尋引擎曝光率:」這可以讓你設定是否要讓自訂搜尋引擎出現在公開列表中,要注意的是即使設定為「Unlisted」,只要對方知道你的搜尋引擎網址,一樣可以看到並使用。不管做任何設定,最後都要記的按下﹝儲存變更﹞。

cse-10

 

 

加入新檢索網站的各種方法

1.在控制台新增、移除檢索網站

你可以隨時加入新的網站到檢索系統中。在「控制台」上方工具列中切換到「網站」,點選﹝新增網站﹞,同樣的輸入網址,勾選要加入的內容屬性

  • 「加入位址包含此 URL 的所有網頁」:就是搜尋整個網站的意思。
  • 「Include just this specific page」:就是只搜尋符合這個網址的特定網頁(單一網頁),但是這邊你也可以運用「*」。例如勾選這一項並在網址欄填寫「blog.pixnet.net/Nelson/*」;那麼結果和勾選「加入位址包含此 URL 的所有網頁」,並在網址欄填寫「blog.pixnet.net/Nelson」道理是一樣的。
  • 「動態擷取此網頁上的連結並將它們新增到我的搜尋引擎」:這是一個很棒的功能,我們下面特別獨立說明。
  • 「標籤」:這個和另外一個「限制條件」的功能相關,比較複雜一點,所以我們也留待後面說明。

cse-11

最後記得按下﹝儲存﹞,就可以在自訂搜尋中加入一個新的檢索網站了。

 


2.動態擷取網頁裡的連結

要一個一個把網站加入檢索系統是不是有點麻煩?而前面提到的「動態擷取此網頁上的連結並將它們新增到我的搜尋引擎」就是一個省時省力的方法,很多部落格在側邊欄都有友站的連結,如此一來你只要勾選「動態擷取」,就能夠把這個網頁裡出現的網頁連結或網站連結全部都自動加入你的搜尋引擎中,也就是說加入一個網站後可以同時獲得十幾個網站進入你的搜尋系統。

cse-12

cse-13

不過我還搞不太懂的是「包含此網頁連結的所有部分網站」和「包含此網頁連結的所有網站」有什麼區別?歡迎知道的朋友解惑。

 


3.設定排除的網站

或許你的檢索系統裡不想看到特定網站或特定網址,那麼你可以在「控制台」→「網站」頁面下方的「排除的網站」裡面設定即可。

cse-14

 


4.用Bookmarklet加入新網站

我在蒐集「中文電腦資訊部落格搜索」的過程中,因為不可能第一次就把快200個部落格的資料都加進去,一定是邊逛網路,邊看到不錯的就把它們加入檢索系統中。而這時候就可以利用「Bookmarklet」的方法:來到「Google標記」網頁,把裡面的「Google Maker」用滑鼠按住並拖曳到你的書籤工具列即可

cse-15

 

 

以後看到什麼網站,按下﹝Google Maker﹞就能夠快速的解析該網站的主網址並加入你的「自訂搜尋引擎」裡面了。但是這個方式有個小問題,就是它只有「此網站上的所有內容」和「僅此頁」兩個項目,遇到那種有好幾層網址的網站時,例如國內部落格平台的部落格,這個方法會無法正確的加入特定網站,這時候你必須回到控制台用我之前說的方法來添加。

cse-16

 

 

設定限制條件:

「限制條件」的功能是什麼呢?例如你設計的檢索系統裡可能會有不同的分類,在「中文電腦資訊部落格搜索」中還會有專門專精於「免費軟體、綠色軟體」或「Web2.0」等不同領域的部落格,這時候我就可以設計一個分類,讓想要專門搜索某個分類時可以快速的切換

 

 

1.呈現的結果

有無選取限制條件的比較:我們先看看實際使用出來的結果,例如我搜尋一個內涵很廣的「Desktop」關鍵字,原本的搜尋結果如下圖。

cse-18

 

 

這時候我點選「免費綠色」這個限制條件,於是被我標記為「免費綠色」的網站,他們的搜尋結果就會被提前,而呈現出入下圖的樣貌,這樣是不是讓搜索更具有彈性了呢?

cse-19

 


2.設定過程

假設我新增一個稱為「免費綠色」的限制條件,我可以選擇「如何搜尋已加上標籤的網站:」,這是指當我在搜索引擎中點選該限制條件時,要如何重新排序搜索結果的方式:「單純的排前」或「只搜索有加上標籤的網站」。另外也可以設定「要新增到搜尋查詢的字詞:」,這邊是指當點選限制條件時要加入一起檢索的關鍵字,你可以看看「進階搜尋運算子」裡面的說明來了解添加新關鍵字的方法,不過不添加關鍵字也可以。

cse-17

 


3.幫網站加上標籤

當前面已經設定好「限制條件」後,新增網站時就會出現「標籤」的項目可以勾選,你可以依據該網站的類型來設定標籤分類,將某個網站歸屬到某個限制條件(分類)中。這樣一來以後要「專精」搜索時就會更為方便了。

cse-20

 

 

在網站上添加自訂搜尋引擎:

1.

設計好的搜索引擎當然可以添加到自己的部落格中和大家一起共享。先在「控制台」的「外觀風格」裡面做一些調整,然後到「程式碼」裡面獲得安裝的外掛程式碼即可。

cse-21

 

 

2.

另外一種方法是來到你的自訂搜尋引擎「首頁」,然後透過右下角的「新增到~」來獲得外掛程式碼,也可以加入iGoogleNetvibes個人首頁喔!

cse-22

 

 

「大」結:

Skyvee說的沒錯,我真的忍不住又寫了一篇很長的文章,不過我深深覺得「Google自訂搜尋引擎」對於有「找資料」需求的人來說,是一定要會用的網路服務之一。Google Custom Search Engine就好像是一種「另類的書籤」、「另類的剪貼資料庫」,它讓你去「蒐集」各種網路上的網站,然後快速打造出一個「特別適合你自己」的搜尋引擎,而它的操作方式就是這麼簡單又強大。

最後,如果您也早就利用Google CSE來打造有用的搜索系統的話,非常歡迎在這篇文章的留言裡推薦出來讓大家知道,也讓有和您有相同需求的讀者,或許可以藉此找到更好的搜索管道。

 

yoonow 發表在 痞客邦 留言(0) 人氣()

原文網址:http://briian.com/?p=7152

yoonow 發表在 痞客邦 留言(0) 人氣()

【資料來源:http://www.ithome.com.tw/itadm/article.php?c=35591

搜尋引擎的網路蜘蛛看似無孔不入,但它其實也是知所進退,有它的運作禮貌。設定適當的robots.txt與 ,對於網站和搜尋引擎溝通相當大的幫助

yoonow 發表在 痞客邦 留言(0) 人氣()

【資料來源:http://www.ithome.com.tw/itadm/article.php?c=46312

作者:蔡學鏞-專職作家
清華大學資訊工程碩士,曾任華碩集團軟體工程師、元智大學資訊系講師、美商歐萊禮出版社技術編輯、臺灣微軟特約專欄作家。

爬蟲類程式能為你做什麼?你可以利用它取得股票資訊;設計搜尋引擎;進行幾個購物網站的比價。Bot也可以幫助你提升文章點擊率,進入熱門排行榜。

yoonow 發表在 痞客邦 留言(0) 人氣()