如何基于solr實(shí)現(xiàn)全文檢索

這篇文章將為大家詳細(xì)講解有關(guān)如何基于solr實(shí)現(xiàn)全文檢索，小編覺(jué)得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

我們提供的服務(wù)有：成都網(wǎng)站建設(shè)、成都網(wǎng)站設(shè)計(jì)、微信公眾號(hào)開(kāi)發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、懷柔ssl等。為上千家企事業(yè)單位解決了網(wǎng)站和推廣的問(wèn)題。提供周到的售前咨詢和貼心的售后服務(wù)，是有科學(xué)管理、有技術(shù)的懷柔網(wǎng)站制作公司

Solr是一個(gè)獨(dú)立的企業(yè)級(jí)搜索應(yīng)用服務(wù)器，它對(duì)外提供類似于Web-service的API接口。用戶可以通過(guò)http請(qǐng)求，向搜索引擎服務(wù)器提交一定格式的XML文件，生成索引；也可以通過(guò)Http Get操作提出查找請(qǐng)求，并得到XML/Json格式的返回結(jié)果。采用Java5開(kāi)發(fā)，基于Lucene。

Lucene是apache軟件基金會(huì)4 jakarta項(xiàng)目組的一個(gè)子項(xiàng)目，是一個(gè)開(kāi)放源代碼的全文檢索引擎工具包，即它不是一個(gè)完整的全文檢索引擎，而是一個(gè)全文檢索引擎的架構(gòu)，提供了完整的查詢引擎和索引引擎，部分文本分析引擎（英文與德文兩種西方語(yǔ)言）。

一、總論

根據(jù)http://lucene.apache.org/java/docs/index.html定義：

Lucene是一個(gè)高效的，基于Java的全文檢索庫(kù)。

所以在了解Lucene之前要費(fèi)一番工夫了解一下全文檢索。

那么什么叫做全文檢索呢？這要從我們生活中的數(shù)據(jù)說(shuō)起。

我們生活中的數(shù)據(jù)總體分為兩種：結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

?結(jié)構(gòu)化數(shù)據(jù)：指具有固定格式或有限長(zhǎng)度的數(shù)據(jù)，如數(shù)據(jù)庫(kù)，元數(shù)據(jù)等。

?非結(jié)構(gòu)化數(shù)據(jù)：指不定長(zhǎng)或無(wú)固定格式的數(shù)據(jù)，如郵件，word文檔等。

當(dāng)然有的地方還會(huì)提到第三種，半結(jié)構(gòu)化數(shù)據(jù)，如XML，HTML等，當(dāng)根據(jù)需要可按結(jié)構(gòu)化數(shù)據(jù)來(lái)處理，也可抽取出純文本按非結(jié)構(gòu)化數(shù)據(jù)來(lái)處理。

非結(jié)構(gòu)化數(shù)據(jù)又一種叫法叫全文數(shù)據(jù)。

按照數(shù)據(jù)的分類，搜索也分為兩種：

?對(duì)結(jié)構(gòu)化數(shù)據(jù)的搜索：如對(duì)數(shù)據(jù)庫(kù)的搜索，用SQL語(yǔ)句。再如對(duì)元數(shù)據(jù)的搜索，如利用windows搜索對(duì)文件名，類型，修改時(shí)間進(jìn)行搜索等。

?對(duì)非結(jié)構(gòu)化數(shù)據(jù)的搜索：如利用windows的搜索也可以搜索文件內(nèi)容，Linux下的grep命令，再如用Google和百度可以搜索大量?jī)?nèi)容數(shù)據(jù)。

對(duì)非結(jié)構(gòu)化數(shù)據(jù)也即對(duì)全文數(shù)據(jù)的搜索主要有兩種方法：

一種是順序掃描法(Serial Scanning)：所謂順序掃描，比如要找內(nèi)容包含某一個(gè)字符串的文件，就是一個(gè)文檔一個(gè)文檔的看，對(duì)于每一個(gè)文檔，從頭看到尾，如果此文檔包含此字符串，則此文檔為我們要找的文件，接著看下一個(gè)文件，直到掃描完所有的文件。如利用windows的搜索也可以搜索文件內(nèi)容，只是相當(dāng)?shù)穆?。如果你有一個(gè)80G硬盤，如果想在上面找到一個(gè)內(nèi)容包含某字符串的文件，不花他幾個(gè)小時(shí)，怕是做不到。Linux下的grep命令也是這一種方式。大家可能覺(jué)得這種方法比較原始，但對(duì)于小數(shù)據(jù)量的文件，這種方法還是最直接，最方便的。但是對(duì)于大量的文件，這種方法就很慢了。

有人可能會(huì)說(shuō)，對(duì)非結(jié)構(gòu)化數(shù)據(jù)順序掃描很慢，對(duì)結(jié)構(gòu)化數(shù)據(jù)的搜索卻相對(duì)較快（由于結(jié)構(gòu)化數(shù)據(jù)有一定的結(jié)構(gòu)可以采取一定的搜索算法加快速度），那么把我們的非結(jié)構(gòu)化數(shù)據(jù)想辦法弄得有一定結(jié)構(gòu)不就行了嗎？

這種想法很天然，卻構(gòu)成了全文檢索的基本思路，也即將非結(jié)構(gòu)化數(shù)據(jù)中的一部分信息提取出來(lái)，重新組織，使其變得有一定結(jié)構(gòu)，然后對(duì)此有一定結(jié)構(gòu)的數(shù)據(jù)進(jìn)行搜索，從而達(dá)到搜索相對(duì)較快的目的。

這部分從非結(jié)構(gòu)化數(shù)據(jù)中提取出的然后重新組織的信息，我們稱之索引。

這種說(shuō)法比較抽象，舉幾個(gè)例子就很容易明白，比如字典，字典的拼音表和部首檢字表就相當(dāng)于字典的索引，對(duì)每一個(gè)字的解釋是非結(jié)構(gòu)化的，如果字典沒(méi)有音節(jié)表和部首檢字表，在茫茫辭海中找一個(gè)字只能順序掃描。然而字的某些信息可以提取出來(lái)進(jìn)行結(jié)構(gòu)化處理，比如讀音，就比較結(jié)構(gòu)化，分聲母和韻母，分別只有幾種可以一一列舉，于是將讀音拿出來(lái)按一定的順序排列，每一項(xiàng)讀音都指向此字的詳細(xì)解釋的頁(yè)數(shù)。我們搜索時(shí)按結(jié)構(gòu)化的拼音搜到讀音，然后按其指向的頁(yè)數(shù)，便可找到我們的非結(jié)構(gòu)化數(shù)據(jù)——也即對(duì)字的解釋。

這種先建立索引，再對(duì)索引進(jìn)行搜索的過(guò)程就叫全文檢索(Full-text Search)。

下面這幅圖來(lái)自《Lucene in action》，但卻不僅僅描述了Lucene的檢索過(guò)程，而是描述了全文檢索的一般過(guò)程。

如何基于solr實(shí)現(xiàn)全文檢索

全文檢索大體分兩個(gè)過(guò)程，索引創(chuàng)建(Indexing)和搜索索引(Search)。

?索引創(chuàng)建：將現(xiàn)實(shí)世界中所有的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)提取信息，創(chuàng)建索引的過(guò)程。

?搜索索引：就是得到用戶的查詢請(qǐng)求，搜索創(chuàng)建的索引，然后返回結(jié)果的過(guò)程。

于是全文檢索就存在三個(gè)重要問(wèn)題：

1. 索引里面究竟存些什么？(Index)

2. 如何創(chuàng)建索引？(Indexing)

3. 如何對(duì)索引進(jìn)行搜索？(Search)

下面我們順序?qū)γ總€(gè)個(gè)問(wèn)題進(jìn)行研究。

二、索引里面究竟存些什么

索引里面究竟需要存些什么呢？

首先我們來(lái)看為什么順序掃描的速度慢：

其實(shí)是由于我們想要搜索的信息和非結(jié)構(gòu)化數(shù)據(jù)中所存儲(chǔ)的信息不一致造成的。

非結(jié)構(gòu)化數(shù)據(jù)中所存儲(chǔ)的信息是每個(gè)文件包含哪些字符串，也即已知文件，欲求字符串相對(duì)容易，也即是從文件到字符串的映射。而我們想搜索的信息是哪些文件包含此字符串，也即已知字符串，欲求文件，也即從字符串到文件的映射。兩者恰恰相反。于是如果索引總能夠保存從字符串到文件的映射，則會(huì)大大提高搜索速度。

由于從字符串到文件的映射是文件到字符串映射的反向過(guò)程，于是保存這種信息的索引稱為反向索引。

反向索引的所保存的信息一般如下：

假設(shè)我的文檔集合里面有100篇文檔，為了方便表示，我們?yōu)槲臋n編號(hào)從1到100，得到下面的結(jié)構(gòu)

如何基于solr實(shí)現(xiàn)全文檢索

左邊保存的是一系列字符串，稱為詞典。

每個(gè)字符串都指向包含此字符串的文檔(Document)鏈表，此文檔鏈表稱為倒排表(Posting List)。

有了索引，便使保存的信息和要搜索的信息一致，可以大大加快搜索的速度。

比如說(shuō)，我們要尋找既包含字符串“l(fā)ucene”又包含字符串“solr”的文檔，我們只需要以下幾步：

1. 取出包含字符串“l(fā)ucene”的文檔鏈表。

2. 取出包含字符串“solr”的文檔鏈表。

3. 通過(guò)合并鏈表，找出既包含“l(fā)ucene”又包含“solr”的文件。

如何基于solr實(shí)現(xiàn)全文檢索

看到這個(gè)地方，有人可能會(huì)說(shuō)，全文檢索的確加快了搜索的速度，但是多了索引的過(guò)程，兩者加起來(lái)不一定比順序掃描快多少。的確，加上索引的過(guò)程，全文檢索不一定比順序掃描快，尤其是在數(shù)據(jù)量小的時(shí)候更是如此。而對(duì)一個(gè)很大量的數(shù)據(jù)創(chuàng)建索引也是一個(gè)很慢的過(guò)程。

然而兩者還是有區(qū)別的，順序掃描是每次都要掃描，而創(chuàng)建索引的過(guò)程僅僅需要一次，以后便是一勞永逸的了，每次搜索，創(chuàng)建索引的過(guò)程不必經(jīng)過(guò)，僅僅搜索創(chuàng)建好的索引就可以了。

這也是全文搜索相對(duì)于順序掃描的優(yōu)勢(shì)之一：一次索引，多次使用。

三、如何創(chuàng)建索引

全文檢索的索引創(chuàng)建過(guò)程一般有以下幾步：

第一步：一些要索引的原文檔(Document)。

為了方便說(shuō)明索引創(chuàng)建過(guò)程，這里特意用兩個(gè)文件為例：

文件一：Students should be allowed to go out with their friends, but not allowed to drink beer.

文件二：My friend Jerry went to school to see his students but found them drunk which is not allowed.

第二步：將原文檔傳給分次組件(Tokenizer)。

分詞組件(Tokenizer)會(huì)做以下幾件事情(此過(guò)程稱為Tokenize)：

1. 將文檔分成一個(gè)一個(gè)單獨(dú)的單詞。

2. 去除標(biāo)點(diǎn)符號(hào)。

3. 去除停詞(Stop word)。

所謂停詞(Stop word)就是一種語(yǔ)言中最普通的一些單詞，由于沒(méi)有特別的意義，因而大多數(shù)情況下不能成為搜索的關(guān)鍵詞，因而創(chuàng)建索引時(shí)，這種詞會(huì)被去掉而減少索引的大小。

英語(yǔ)中挺詞(Stop word)如：“the”,“a”，“this”等。

對(duì)于每一種語(yǔ)言的分詞組件(Tokenizer)，都有一個(gè)停詞(stop word)集合。

經(jīng)過(guò)分詞(Tokenizer)后得到的結(jié)果稱為詞元(Token)。

在我們的例子中，便得到以下詞元(Token)：

“Students”，“allowed”，“go”，“their”，“friends”，“allowed”，“drink”，“beer”，“My”，“friend”，“Jerry”，“went”，“school”，“see”，“his”，“students”，“found”，“them”，“drunk”，“allowed”。

第三步：將得到的詞元(Token)傳給語(yǔ)言處理組件(Linguistic Processor)。

語(yǔ)言處理組件(linguistic processor)主要是對(duì)得到的詞元(Token)做一些同語(yǔ)言相關(guān)的處理。

對(duì)于英語(yǔ)，語(yǔ)言處理組件(Linguistic Processor)一般做以下幾點(diǎn)：

1. 變?yōu)樾?Lowercase)。

2. 將單詞縮減為詞根形式，如“cars”到“car”等。這種操作稱為：stemming。

3. 將單詞轉(zhuǎn)變?yōu)樵~根形式，如“drove”到“drive”等。這種操作稱為：lemmatization。

Stemming 和 lemmatization的異同：

?相同之處：Stemming和lemmatization都要使詞匯成為詞根形式。

?兩者的方式不同：

?Stemming采用的是“縮減”的方式：“cars”到“car”，“driving”到“drive”。

?Lemmatization采用的是“轉(zhuǎn)變”的方式：“drove”到“drove”，“driving”到“drive”。

?兩者的算法不同：

?Stemming主要是采取某種固定的算法來(lái)做這種縮減，如去除“s”，去除“ing”加“e”，將“ational”變?yōu)椤癮te”，將“tional”變?yōu)椤皌ion”。

?Lemmatization主要是采用保存某種字典的方式做這種轉(zhuǎn)變。比如字典中有“driving”到“drive”，“drove”到“drive”，“am, is, are”到“be”的映射，做轉(zhuǎn)變時(shí)，只要查字典就可以了。

?Stemming和lemmatization不是互斥關(guān)系，是有交集的，有的詞利用這兩種方式都能達(dá)到相同的轉(zhuǎn)換。

語(yǔ)言處理組件(linguistic processor)的結(jié)果稱為詞(Term)。

在我們的例子中，經(jīng)過(guò)語(yǔ)言處理，得到的詞(Term)如下：

“student”，“allow”，“go”，“their”，“friend”，“allow”，“drink”，“beer”，“my”，“friend”，“jerry”，“go”，“school”，“see”，“his”，“student”，“find”，“them”，“drink”，“allow”。

也正是因?yàn)橛姓Z(yǔ)言處理的步驟，才能使搜索drove，而drive也能被搜索出來(lái)。

第四步：將得到的詞(Term)傳給索引組件(Indexer)。

索引組件(Indexer)主要做以下幾件事情：

1. 利用得到的詞(Term)創(chuàng)建一個(gè)字典。

在我們的例子中字典如下：

Term	Document ID
student	1
allow	1
go	1
their	1
friend	1
allow	1
drink	1
beer	1
my	2
friend	2
jerry	2
go	2
school	2
see	2
his	2
student	2
find	2
them	2
drink	2
allow	2

2. 對(duì)字典按字母順序進(jìn)行排序。

Term	Document ID
allow	1
allow	1
allow	2
beer	1
drink	1
drink	2
find	2
friend	1
friend	2
go	1
go	2
his	2
jerry	2
my	2
school	2
see	2
student	1
student	2
their	1
them	2

?Document Frequency 即文檔頻次，表示總共有多少文件包含此詞(Term)。

?Frequency 即詞頻率，表示此文件中包含了幾個(gè)此詞(Term)。

所以對(duì)詞(Term) “allow”來(lái)講，總共有兩篇文檔包含此詞(Term)，從而詞(Term)后面的文檔鏈表總共有兩項(xiàng)，第一項(xiàng)表示包含“allow”的第一篇文檔，即1號(hào)文檔，此文檔中，“allow”出現(xiàn)了2次，第二項(xiàng)表示包含“allow”的第二個(gè)文檔，是2號(hào)文檔，此文檔中，“allow”出現(xiàn)了1次。

到此為止，索引已經(jīng)創(chuàng)建好了，我們可以通過(guò)它很快的找到我們想要的文檔。

而且在此過(guò)程中，我們驚喜地發(fā)現(xiàn)，搜索“drive”，“driving”，“drove”，“driven”也能夠被搜到。因?yàn)樵谖覀兊乃饕?，“driving”，“drove”，“driven”都會(huì)經(jīng)過(guò)語(yǔ)言處理而變成“drive”，在搜索時(shí)，如果您輸入“driving”，輸入的查詢語(yǔ)句同樣經(jīng)過(guò)我們這里的一到三步，從而變?yōu)椴樵儭癲rive”，從而可以搜索到想要的文檔。

三、如何對(duì)索引進(jìn)行搜索？

到這里似乎我們可以宣布“我們找到想要的文檔了”。

然而事情并沒(méi)有結(jié)束，找到了僅僅是全文檢索的一個(gè)方面。不是嗎？如果僅僅只有一個(gè)或十個(gè)文檔包含我們查詢的字符串，我們的確找到了。然而如果結(jié)果有一千個(gè)，甚至成千上萬(wàn)個(gè)呢？那個(gè)又是您最想要的文件呢？

打開(kāi)Google吧，比如說(shuō)您想在微軟找份工作，于是您輸入“Microsoft job”，您卻發(fā)現(xiàn)總共有22600000個(gè)結(jié)果返回。好大的數(shù)字呀，突然發(fā)現(xiàn)找不到是一個(gè)問(wèn)題，找到的太多也是一個(gè)問(wèn)題。在如此多的結(jié)果中，如何將最相關(guān)的放在最前面呢？

如何基于solr實(shí)現(xiàn)全文檢索

當(dāng)然Google做的很不錯(cuò)，您一下就找到了jobs at Microsoft。想象一下，如果前幾個(gè)全部是“Microsoft does a good job at software industry…”將是多么可怕的事情呀。

如何像Google一樣，在成千上萬(wàn)的搜索結(jié)果中，找到和查詢語(yǔ)句最相關(guān)的呢？

如何判斷搜索出的文檔和查詢語(yǔ)句的相關(guān)性呢？

這要回到我們第三個(gè)問(wèn)題：如何對(duì)索引進(jìn)行搜索？

搜索主要分為以下幾步：

第一步：用戶輸入查詢語(yǔ)句。

查詢語(yǔ)句同我們普通的語(yǔ)言一樣，也是有一定語(yǔ)法的。

不同的查詢語(yǔ)句有不同的語(yǔ)法，如SQL語(yǔ)句就有一定的語(yǔ)法。

查詢語(yǔ)句的語(yǔ)法根據(jù)全文檢索系統(tǒng)的實(shí)現(xiàn)而不同。最基本的有比如：AND, OR, NOT等。

舉個(gè)例子，用戶輸入語(yǔ)句：lucene AND learned NOT hadoop。

說(shuō)明用戶想找一個(gè)包含lucene和learned然而不包括hadoop的文檔。

第二步：對(duì)查詢語(yǔ)句進(jìn)行詞法分析，語(yǔ)法分析，及語(yǔ)言處理。

由于查詢語(yǔ)句有語(yǔ)法，因而也要進(jìn)行語(yǔ)法分析，語(yǔ)法分析及語(yǔ)言處理。

1. 詞法分析主要用來(lái)識(shí)別單詞和關(guān)鍵字。

如上述例子中，經(jīng)過(guò)詞法分析，得到單詞有l(wèi)ucene，learned，hadoop, 關(guān)鍵字有AND, NOT。

如果在詞法分析中發(fā)現(xiàn)不合法的關(guān)鍵字，則會(huì)出現(xiàn)錯(cuò)誤。如lucene AMD learned，其中由于AND拼錯(cuò)，導(dǎo)致AMD作為一個(gè)普通的單詞參與查詢。

2. 語(yǔ)法分析主要是根據(jù)查詢語(yǔ)句的語(yǔ)法規(guī)則來(lái)形成一棵語(yǔ)法樹(shù)。

如果發(fā)現(xiàn)查詢語(yǔ)句不滿足語(yǔ)法規(guī)則，則會(huì)報(bào)錯(cuò)。如lucene NOT AND learned，則會(huì)出錯(cuò)。

如上述例子，lucene AND learned NOT hadoop形成的語(yǔ)法樹(shù)如下：

如何基于solr實(shí)現(xiàn)全文檢索

3. 語(yǔ)言處理同索引過(guò)程中的語(yǔ)言處理幾乎相同。

如learned變成learn等。

經(jīng)過(guò)第二步，我們得到一棵經(jīng)過(guò)語(yǔ)言處理的語(yǔ)法樹(shù)。

如何基于solr實(shí)現(xiàn)全文檢索

第三步：搜索索引，得到符合語(yǔ)法樹(shù)的文檔。

此步驟有分幾小步：

1.首先，在反向索引表中，分別找出包含lucene，learn，hadoop的文檔鏈表。

2.其次，對(duì)包含lucene，learn的鏈表進(jìn)行合并操作，得到既包含lucene又包含learn的文檔鏈表。

3.然后，將此鏈表與hadoop的文檔鏈表進(jìn)行差操作，去除包含hadoop的文檔，從而得到既包含lucene又包含learn而且不包含hadoop的文檔鏈表。

4.此文檔鏈表就是我們要找的文檔。

第四步：根據(jù)得到的文檔和查詢語(yǔ)句的相關(guān)性，對(duì)結(jié)果進(jìn)行排序。

雖然在上一步，我們得到了想要的文檔，然而對(duì)于查詢結(jié)果應(yīng)該按照與查詢語(yǔ)句的相關(guān)性進(jìn)行排序，越相關(guān)者越靠前。

如何計(jì)算文檔和查詢語(yǔ)句的相關(guān)性呢？

不如我們把查詢語(yǔ)句看作一片短小的文檔，對(duì)文檔與文檔之間的相關(guān)性(relevance)進(jìn)行打分(scoring)，分?jǐn)?shù)高的相關(guān)性好，就應(yīng)該排在前面。

那么又怎么對(duì)文檔之間的關(guān)系進(jìn)行打分呢？

這可不是一件容易的事情，首先我們看一看判斷人之間的關(guān)系吧。

首先看一個(gè)人，往往有很多要素，如性格，信仰，愛(ài)好，衣著，高矮，胖瘦等等。

其次對(duì)于人與人之間的關(guān)系，不同的要素重要性不同，性格，信仰，愛(ài)好可能重要些，衣著，高矮，胖瘦可能就不那么重要了，所以具有相同或相似性格，信仰，愛(ài)好的人比較容易成為好的朋友，然而衣著，高矮，胖瘦不同的人，也可以成為好的朋友。

因而判斷人與人之間的關(guān)系，首先要找出哪些要素對(duì)人與人之間的關(guān)系最重要，比如性格，信仰，愛(ài)好。其次要判斷兩個(gè)人的這些要素之間的關(guān)系，比如一個(gè)人性格開(kāi)朗，另一個(gè)人性格外向，一個(gè)人信仰佛教，另一個(gè)信仰上帝，一個(gè)人愛(ài)好打籃球，另一個(gè)愛(ài)好踢足球。我們發(fā)現(xiàn)，兩個(gè)人在性格方面都很積極，信仰方面都很善良，愛(ài)好方面都愛(ài)運(yùn)動(dòng)，因而兩個(gè)人關(guān)系應(yīng)該會(huì)很好。

我們?cè)賮?lái)看看公司之間的關(guān)系吧。

首先看一個(gè)公司，有很多人組成，如總經(jīng)理，經(jīng)理，首席技術(shù)官，普通員工，保安，門衛(wèi)等。

其次對(duì)于公司與公司之間的關(guān)系，不同的人重要性不同，總經(jīng)理，經(jīng)理，首席技術(shù)官可能更重要一些，普通員工，保安，門衛(wèi)可能較不重要一點(diǎn)。所以如果兩個(gè)公司總經(jīng)理，經(jīng)理，首席技術(shù)官之間關(guān)系比較好，兩個(gè)公司容易有比較好的關(guān)系。然而一位普通員工就算與另一家公司的一位普通員工有血海深仇，怕也難影響兩個(gè)公司之間的關(guān)系。

因而判斷公司與公司之間的關(guān)系，首先要找出哪些人對(duì)公司與公司之間的關(guān)系最重要，比如總經(jīng)理，經(jīng)理，首席技術(shù)官。其次要判斷這些人之間的關(guān)系，不如兩家公司的總經(jīng)理曾經(jīng)是同學(xué)，經(jīng)理是老鄉(xiāng)，首席技術(shù)官曾是創(chuàng)業(yè)伙伴。我們發(fā)現(xiàn)，兩家公司無(wú)論總經(jīng)理，經(jīng)理，首席技術(shù)官，關(guān)系都很好，因而兩家公司關(guān)系應(yīng)該會(huì)很好。

分析了兩種關(guān)系，下面看一下如何判斷文檔之間的關(guān)系了。

首先，一個(gè)文檔有很多詞(Term)組成，如search, lucene, full-text, this, a, what等。

其次對(duì)于文檔之間的關(guān)系，不同的Term重要性不同，比如對(duì)于本篇文檔，search, Lucene, full-text就相對(duì)重要一些，this, a , what可能相對(duì)不重要一些。所以如果兩篇文檔都包含search, Lucene，fulltext，這兩篇文檔的相關(guān)性好一些，然而就算一篇文檔包含this, a, what，另一篇文檔不包含this, a, what，也不能影響兩篇文檔的相關(guān)性。

因而判斷文檔之間的關(guān)系，首先找出哪些詞(Term)對(duì)文檔之間的關(guān)系最重要，如search, Lucene, fulltext。然后判斷這些詞(Term)之間的關(guān)系。

找出詞(Term)對(duì)文檔的重要性的過(guò)程稱為計(jì)算詞的權(quán)重(Term weight)的過(guò)程。

計(jì)算詞的權(quán)重(term weight)有兩個(gè)參數(shù)，第一個(gè)是詞(Term)，第二個(gè)是文檔(Document)。

詞的權(quán)重(Term weight)表示此詞(Term)在此文檔中的重要程度，越重要的詞(Term)有越大的權(quán)重(Term weight)，因而在計(jì)算文檔之間的相關(guān)性中將發(fā)揮更大的作用。

判斷詞(Term)之間的關(guān)系從而得到文檔相關(guān)性的過(guò)程應(yīng)用一種叫做向量空間模型的算法(Vector Space Model)。

下面仔細(xì)分析一下這兩個(gè)過(guò)程：

1. 計(jì)算權(quán)重(Term weight)的過(guò)程。

影響一個(gè)詞(Term)在一篇文檔中的重要性主要有兩個(gè)因素：

?Term Frequency (tf)：即此Term在此文檔中出現(xiàn)了多少次。tf 越大說(shuō)明越重要。

?Document Frequency (df)：即有多少文檔包含次Term。df 越大說(shuō)明越不重要。

容易理解嗎？詞(Term)在文檔中出現(xiàn)的次數(shù)越多，說(shuō)明此詞(Term)對(duì)該文檔越重要，如“搜索”這個(gè)詞，在本文檔中出現(xiàn)的次數(shù)很多，說(shuō)明本文檔主要就是講這方面的事的。然而在一篇英語(yǔ)文檔中，this出現(xiàn)的次數(shù)更多，就說(shuō)明越重要嗎？不是的，這是由第二個(gè)因素進(jìn)行調(diào)整，第二個(gè)因素說(shuō)明，有越多的文檔包含此詞(Term), 說(shuō)明此詞(Term)太普通，不足以區(qū)分這些文檔，因而重要性越低。

這也如我們程序員所學(xué)的技術(shù)，對(duì)于程序員本身來(lái)說(shuō)，這項(xiàng)技術(shù)掌握越深越好（掌握越深說(shuō)明花時(shí)間看的越多，tf越大），找工作時(shí)越有競(jìng)爭(zhēng)力。然而對(duì)于所有程序員來(lái)說(shuō)，這項(xiàng)技術(shù)懂得的人越少越好（懂得的人少df?。?，找工作越有競(jìng)爭(zhēng)力。人的價(jià)值在于不可替代性就是這個(gè)道理。

道理明白了，我們來(lái)看看公式：

如何基于solr實(shí)現(xiàn)全文檢索

這僅僅只term weight計(jì)算公式的簡(jiǎn)單典型實(shí)現(xiàn)。實(shí)現(xiàn)全文檢索系統(tǒng)的人會(huì)有自己的實(shí)現(xiàn)，Lucene就與此稍有不同。

2. 判斷Term之間的關(guān)系從而得到文檔相關(guān)性的過(guò)程，也即向量空間模型的算法(VSM)。

我們把文檔看作一系列詞(Term)，每一個(gè)詞(Term)都有一個(gè)權(quán)重(Term weight)，不同的詞(Term)根據(jù)自己在文檔中的權(quán)重來(lái)影響文檔相關(guān)性的打分計(jì)算。

于是我們把所有此文檔中詞(term)的權(quán)重(term weight) 看作一個(gè)向量。

Document = {term1, term2, …… ,term N}

Document Vector = {weight1, weight2, …… ,weight N}

同樣我們把查詢語(yǔ)句看作一個(gè)簡(jiǎn)單的文檔，也用向量來(lái)表示。

Query = {term1, term 2, …… , term N}

Query Vector = {weight1, weight2, …… , weight N}

我們把所有搜索出的文檔向量及查詢向量放到一個(gè)N維空間中，每個(gè)詞(term)是一維。

如圖：

如何基于solr實(shí)現(xiàn)全文檢索

我們認(rèn)為兩個(gè)向量之間的夾角越小，相關(guān)性越大。

所以我們計(jì)算夾角的余弦值作為相關(guān)性的打分，夾角越小，余弦值越大，打分越高，相關(guān)性越大。

有人可能會(huì)問(wèn)，查詢語(yǔ)句一般是很短的，包含的詞(Term)是很少的，因而查詢向量的維數(shù)很小，而文檔很長(zhǎng)，包含詞(Term)很多，文檔向量維數(shù)很大。你的圖中兩者維數(shù)怎么都是N呢？

在這里，既然要放到相同的向量空間，自然維數(shù)是相同的，不同時(shí)，取二者的并集，如果不含某個(gè)詞(Term)時(shí)，則權(quán)重(Term Weight)為0。

相關(guān)性打分公式如下：

如何基于solr實(shí)現(xiàn)全文檢索

舉個(gè)例子，查詢語(yǔ)句有11個(gè)Term，共有三篇文檔搜索出來(lái)。其中各自的權(quán)重(Term weight)，如下表格。

	t1	t2	t3	t4	t5	t6	t7	t8	t9	t10	t11
D1	0	0	.477	0	.477	.176	0	0	0	.176	0
D2	0	.176	0	.477	0	0	0	0	.954	0	.176
D3	0	.176	0	0	0	.176	0	0	0	.176	.176
Q	0	0	0	0	0	.176	0	0	.477	0	.176

于是計(jì)算，三篇文檔同查詢語(yǔ)句的相關(guān)性打分分別為：

如何基于solr實(shí)現(xiàn)全文檢索

于是文檔二相關(guān)性最高，先返回，其次是文檔一，最后是文檔三。

到此為止，我們可以找到我們最想要的文檔了。

說(shuō)了這么多，其實(shí)還沒(méi)有進(jìn)入到Lucene，而僅僅是信息檢索技術(shù)(Information retrieval)中的基本理論，然而當(dāng)我們看過(guò)Lucene后我們會(huì)發(fā)現(xiàn)，Lucene是對(duì)這種基本理論的一種基本的的實(shí)踐。所以在以后分析Lucene的文章中，會(huì)常?？吹揭陨侠碚撛贚ucene中的應(yīng)用。

在進(jìn)入Lucene之前，對(duì)上述索引創(chuàng)建和搜索過(guò)程所一個(gè)總結(jié)，如圖：

此圖參照http://www.lucene.com.cn/about.htm中文章《開(kāi)放源代碼的全文檢索引擎Lucene》

如何基于solr實(shí)現(xiàn)全文檢索

1. 索引過(guò)程：

1) 有一系列被索引文件

2) 被索引文件經(jīng)過(guò)語(yǔ)法分析和語(yǔ)言處理形成一系列詞(Term)。

3) 經(jīng)過(guò)索引創(chuàng)建形成詞典和反向索引表。

4) 通過(guò)索引存儲(chǔ)將索引寫入硬盤。

2. 搜索過(guò)程：

a) 用戶輸入查詢語(yǔ)句。

b) 對(duì)查詢語(yǔ)句經(jīng)過(guò)語(yǔ)法分析和語(yǔ)言分析得到一系列詞(Term)。

c) 通過(guò)語(yǔ)法分析得到一個(gè)查詢樹(shù)。

d) 通過(guò)索引存儲(chǔ)將索引讀入到內(nèi)存。

e) 利用查詢樹(shù)搜索索引，從而得到每個(gè)詞(Term)的文檔鏈表，對(duì)文檔鏈表進(jìn)行交，差，并得到結(jié)果文檔。

f) 將搜索到的結(jié)果文檔對(duì)查詢的相關(guān)性進(jìn)行排序。

g) 返回查詢結(jié)果給用戶。

2. 對(duì)字典按字母順序進(jìn)行排序。

Term	Document ID
allow	1
allow	1
allow	2
beer	1
drink	1
drink	2
find	2
friend	1
friend	2
go	1
go	2
his	2
jerry	2
my	2
school	2
see	2
student	1
student	2
their	1
them	2

3. 合并相同的詞(Term)成為文檔倒排(Posting List)鏈表。

如何基于solr實(shí)現(xiàn)全文檢索

關(guān)于“如何基于solr實(shí)現(xiàn)全文檢索”這篇文章就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，使各位可以學(xué)到更多知識(shí)，如果覺(jué)得文章不錯(cuò)，請(qǐng)把它分享出去讓更多的人看到。

本文名稱：如何基于solr實(shí)現(xiàn)全文檢索
文章網(wǎng)址：http://m.rwnh.cn/article6/jcjeog.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供外貿(mào)建站、定制開(kāi)發(fā)、小程序開(kāi)發(fā)、營(yíng)銷型網(wǎng)站建設(shè)、手機(jī)網(wǎng)站建設(shè)、企業(yè)建站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

如何基于solr實(shí)現(xiàn)全文檢索