建立全文索引中有兩項非常重要,一個是如何對文本進行分詞,一是建立索引的數(shù)據(jù)結(jié)構(gòu)。分詞的方法基本上是二元分詞法、最大匹配法和統(tǒng)計方法。索引的數(shù)據(jù)結(jié)構(gòu)基本上采用倒排索引的結(jié)構(gòu)。
創(chuàng)新互聯(lián)擁有網(wǎng)站維護技術(shù)和項目管理團隊,建立的售前、實施和售后服務體系,為客戶提供定制化的成都網(wǎng)站設計、網(wǎng)站建設、外貿(mào)網(wǎng)站建設、網(wǎng)站維護、成都多線機房解決方案。為客戶網(wǎng)站安全和日常運維提供整體管家式外包優(yōu)質(zhì)服務。我們的網(wǎng)站維護服務覆蓋集團企業(yè)、上市公司、外企網(wǎng)站、購物商城網(wǎng)站建設、政府網(wǎng)站等各類型客戶群體,為全球成百上千家企業(yè)提供全方位網(wǎng)站維護、服務器維護解決方案。
分詞的好壞關(guān)系到查詢的準確程度和生成的索引的大小。在中文分詞發(fā)展中,早期經(jīng)常使用分詞方式是二元分詞法,該方法的基本原理是將包含中文的句子進行二元分割,不考慮單詞含義,只對二元單詞進行索引。因此該方法所分出的單詞數(shù)量較多,從而產(chǎn)生的索引數(shù)量巨大,查詢中會將無用的數(shù)據(jù)檢索出來,好處是算法簡單不會漏掉檢索的數(shù)據(jù)。之后又發(fā)展出最大匹配分詞方法,該方法又分為正向最大分詞和逆向最大分詞。其原理和查字典類似,對常用單詞生成一個詞典,分析句子的過程中最大的匹配字典中的單詞,從而將句子拆分為有意義的單詞鏈。最大匹配法中正向分詞方法對偏正式詞語的分辨容易產(chǎn)生錯誤,比如“首飾和服裝”會將“和服”作為單詞分出。達夢數(shù)據(jù)庫采用的是改進的逆向最大分詞方法,該分詞方法較正向正確率有所提高。最為復雜的是通過統(tǒng)計方式進行分詞的方法。該方法采用隱式馬爾科夫鏈,也就是后一個單詞出現(xiàn)的概率依靠于前一個單詞出現(xiàn)的概率,最后統(tǒng)計所有單詞出現(xiàn)的概率的最大為分詞的依據(jù)。這個方法對新名詞和地名的識別要遠遠高于最大匹配法,準確度隨著取樣文本的數(shù)量的增大而提高。
二元分詞方法和統(tǒng)計方法是不依賴于詞典的,而最大匹配法分詞方法是依賴于詞典的,詞典的內(nèi)容決定分詞結(jié)構(gòu)的好壞。
全文檢索的索引被稱為倒排索引,之所以成為倒排索引,是因為將每一個單詞作為索引項,根據(jù)該索引項查找包含該單詞的文本。因此,索引都是單詞和唯一記錄文本的標示是一對多的關(guān)系。將索引單詞排序,根據(jù)排序后的單詞定位包含該單詞的文本。
步驟1)讀取一整條句子到變量str中,轉(zhuǎn)到步驟2
步驟2)從句子的尾端讀取1個字到變量word中,轉(zhuǎn)到步驟3
步驟3)在字典查找word中保存的單詞。如果存在則保存word,轉(zhuǎn)到步驟4,否則轉(zhuǎn)到步驟5)
步驟4)如果是字典中最大單詞或者超過最大單詞數(shù)(認定為新詞),從句尾去掉該單詞,返回步驟2
步驟5)讀取前一個字到word中,構(gòu)成新單詞,轉(zhuǎn)到步驟3)
詞庫的內(nèi)存數(shù)據(jù)結(jié)構(gòu)和詞庫中單詞的匹配算法
內(nèi)存中單詞采用層次結(jié)構(gòu)保存
假設字典中有如下的單詞:中國 中華民國 國家 人民 民主
在內(nèi)存中按照如下方式按層排列,其中每一個方塊代表一個字,箭頭所指向為該單詞的前一個字
1、先把數(shù)據(jù)庫數(shù)據(jù)倒出來(導成.txt格式的),用軟件轉(zhuǎn)成unicode格式。
2、把數(shù)據(jù)庫轉(zhuǎn)成unicode格式。
3、把數(shù)據(jù)倒回。
說明:為了安全起見,在操作過程中一定要注意備份操作。
SqlServer
SQL Server是由Microsoft開發(fā)和推廣的關(guān)系數(shù)據(jù)庫管理系統(tǒng)(DBMS),它最初是由Microsoft、Sybase和Ashton-Tate三家公司共同開發(fā)的,并于1988年推出了第一個OS/2版本。
SQL Server?關(guān)系數(shù)據(jù)庫簡介:
SQL Server是由Microsoft開發(fā)和推廣的關(guān)系數(shù)據(jù)庫管理系統(tǒng)(DBMS),它最初是由Microsoft、Sybase和Ashton-Tate三家公司共同開發(fā)的,并于1988年推出了第一個OS/2版本。 SQL Server近年來不斷更新版本,1996年,Microsoft 推出了SQL Server 6.5版本;1998年,SQL Server 7.0版本和用戶見面;SQL Server 2000是Microsoft公司于2000年推出的最新版本。
Sql Server 區(qū)管理(GAM,SGAM)
大家都知道Sql Server 中數(shù)據(jù)文件存儲的最小單位是頁面(Page),但實際SQLSERVE并不是以頁面為單位給數(shù)據(jù)分配空間的,Sql Server默認的存儲分配單位是盤區(qū)(Extend)。這樣做的主要原因是為了避免頻繁的讀寫IO,提升性能。在表或其它對象分配存儲空間,不是直接分配一個8K的頁面,而是以一個盤區(qū)(Extend)為存儲分配單位,一個盤區(qū)為8個頁面(Size = 8*8K=64K)。
這樣,對區(qū)得操作就會非常頻繁,也要求Sql Server有自己的一套系統(tǒng)管理著數(shù)量眾多的區(qū)。其中最突出的出一個問題,那就是在存儲那些只有少量數(shù)據(jù),不足8K的對象,如果也是分配給一個盤區(qū),就會存在存儲空間上的浪費,降低了空間分配效率。
為解決上述問題,SQLSERVER提供了一種解決方案,定義了兩種盤區(qū)類型,統(tǒng)一盤區(qū)和混合盤區(qū)。
全局分配映射表 (GAM)?:統(tǒng)一盤區(qū),GAM 頁記錄已分配的區(qū)。每個 GAM 包含 64,000 個區(qū),相當于近 4 GB 的數(shù)據(jù)。GAM 用一個位來表示所涵蓋區(qū)間內(nèi)的每個區(qū)的狀態(tài)。如果位為 1,則區(qū)可用;如果位為 0,則區(qū)已分配。?
共享全局分配映射表 (SGAM)?:由多個對象共同擁有該盤區(qū),SGAM 頁記錄當前用作混合區(qū)且至少有一個未使用的頁的區(qū)。每個 SGAM 包含 64,000 個區(qū),相當于近 4 GB 的數(shù)據(jù)。SGAM 用一個位來表示所涵蓋區(qū)間內(nèi)的每個區(qū)的狀態(tài)。如果位為 1,則區(qū)正用作混合區(qū)且有可用頁。如果位為 0,則區(qū)未用作混合區(qū),或者雖然用作混合區(qū)但其所有頁均在使用中。?
在實際為對象分配存儲盤區(qū)時,為了提高空間利用率,默認的情況下,如果一個對象一開始大小小于8個頁面,就盡量放在混合盤區(qū)中,如果該對象大小增加到8個頁面后,SQLSERVER會為這個對象重新分配一個統(tǒng)一盤區(qū)。
據(jù)區(qū)當前的使用情況,GAM 和 SGAM 中每個區(qū)具有以下位模式:
這將簡化區(qū)管理算法。若要分配統(tǒng)一區(qū),數(shù)據(jù)庫引擎將在 GAM 中搜索為 1 的位,并將其設置為 0。若要查找具有可用頁的混合區(qū),數(shù)據(jù)庫引擎將在 SGAM 中搜索為 1 的位。若要分配混合區(qū),數(shù)據(jù)庫引擎將在 GAM 中搜索為 1 的位,將其設置為 0,然后將 SGAM 中對應的位設置為 1。若要釋放區(qū),數(shù)據(jù)庫引擎確保將 GAM 位設置為 1,將 SGAM 位設置為 0。實際上,數(shù)據(jù)庫引擎內(nèi)部使用的算法比本主題中介紹的更為復雜,因為數(shù)據(jù)庫引擎在數(shù)據(jù)庫中均勻分布數(shù)據(jù)。但是,由于無需管理區(qū)分配信息鏈,因此即使是實際算法也會被簡化。
管理Sql Server可用空間
首先摘錄段 MSDN 的一段官方解釋:
頁可用空間 (PFS) 頁記錄每頁的分配狀態(tài),是否已分配單個頁以及每頁的可用空間量。PFS 對每頁都有一個字節(jié),記錄該頁是否已分配。如果已分配,則記錄該頁是為空、已滿 1% 到 50%、已滿 51% 到 80%、已滿 81% 到 95% 還是已滿 96% 到 100%。
將區(qū)分配給對象后,數(shù)據(jù)庫引擎將使用 PFS 頁來記錄區(qū)中的哪些頁已分配或哪些頁可用。數(shù)據(jù)庫引擎必須分配新頁時,將使用此信息。保留的頁中的可用空間量僅用于堆和 Text/Image 頁。數(shù)據(jù)庫引擎必須找到一個具有可用空間的頁來保存新插入的行時,使用此信息。索引不要求跟蹤頁的可用空間,因為插入新行的點是由索引鍵值設置的。
在數(shù)據(jù)文件中,PFS 頁是文件頭頁之后的第一頁(頁碼為 1)。接著是 GAM 頁(頁碼為 2),然后是 SGAM 頁(頁碼為 3)。第一個 PFS 頁之后是一個大小大約為 8,000 頁的 PFS 頁。在第 2 頁的第一個 GAM 頁之后還有另一個 GAM 頁(包含 64,000 個區(qū)),在第 3 頁的第一個 SGAM 頁之后也有另一個 SGAM 頁(包含 64,000 個區(qū))。下圖顯示了數(shù)據(jù)庫引擎用來分配和管理區(qū)的頁順序。
看過之后,讓人一頭霧水,真是不知所云,真佩服這些 MSDN 是如何翻譯的,看來中文 MSDN 太不靠譜,最后沒辦法,只能google了
其實上面說的意思就是:Sql Server 管理可用空間的方法是,查找每個每個頁面是否使用,以及使用情況情況。這時就需要一個頁面來記錄各個頁面的使用情況了,這就是 PFS 頁。
PFS(Page Free Space),也叫頁面自由空間,該頁面用來跟蹤一個文件中每一個特定的頁面的利用率情況。一個文件中第二個頁面(頁碼1)就是PFS頁面,該頁面的每個字節(jié)都記錄了相應頁面的分配情況、頁面類型、是否IAM頁、是否包含刪除記錄、以及空間利用率信息;PFS能夠管理和跟蹤8088個頁面的使用情況,即接近64M的空間,以后每8088個頁面將再出現(xiàn)一次。
讓我們首先了解一下PFS的頁面管理字節(jié)的構(gòu)造,管理單位為字節(jié),每字節(jié)管理一個頁面。
第0個bit為保留字節(jié),始終為0
第1個bit表示該頁面是否已分配,我們知道GAM頁用來管理區(qū)是否已分配,但一個區(qū)包含8個頁面,所以用該bit用來準確定位該區(qū)的某個頁面是否已分配出去了。
第2個bit表示該頁面是否混合分區(qū)的一個頁面。
第3個bit表示該頁面是否是一個IAM(索引分配映射)頁面。
第4個bit表示該頁面中是否包含幻影或已刪除記錄,這有助于SQL Server定期清理幻影或已刪除記錄。
第5~7個頁面表示該頁面的空間使用率情況。
---算法:記錄個位數(shù)2的數(shù)據(jù)之間的間距?create?by?youhaoxinqin?2014-7-8?10:50???update?by?youhaoxinqin?2014-7-8?13:44??
create?table?demo(
SSCID?int?identity(1,1),
SSCISSUE?nvarchar(200),
SSCNO?int
)
--初始數(shù)據(jù)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-001',36642)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-002',12738)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-003',93873)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-004',32579)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-005',93914)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-006',82309)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-007',58517)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-008',98172)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-009',90320)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-010',35304)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-011',96748)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-012',30941)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-013',36642)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-014',12738)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-015',93872)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-017',32579)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-018',93912)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-019',82302)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-020',58522)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-021',98172)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-022',90320)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-023',35304)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-024',96748)
insert?into?demo(SSCISSUE,SSCNO)?values('270070401-025',30922)
--檢索數(shù)據(jù)
select?*?from?demo?where?SSCNO?like'%2'
--創(chuàng)建全局臨時表
create?table?##remmber_id_no(
remmberkey?int?identity(1,1),
id?int?,
no?int
)
--創(chuàng)建全局臨時表
create?table?##remmber_id_no2(
remmberkey?int?identity(1,1),
id?int?,
no?int
)
--創(chuàng)建偏移數(shù)據(jù)
insert?into?##remmber_id_no2(id,no)?values(0,0)
--將算法數(shù)據(jù)存入兩個全局臨時表
declare??demo_cursor?cursor?for??select?sscid,sscno?from?demo
go?
open?demo_cursor
declare?@id?int?
declare?@no?int
declare?@count?int
set?@count=0
fetch?next?from??demo_cursor?into?@id,@no
while?@@FETCH_STATUS=0
begin?
select?@count=COUNT(*)?from?demo?where?SSCID=@id?and?SSCNO?like'%2'
if(@count0)
begin?
insert?into?##remmber_id_no(id,no)?values(@id,@no)
insert?into?##remmber_id_no2(id,no)?values(@id,@no)
end
fetch?next?from??demo_cursor?into?@id,@no
end?
close?demo_cursor
deallocate??demo_cursor
--得出id距離
select?(t.id-t2.id)?as?ID距離?from?
(select?*?from?##remmber_id_no??where?remmberkey?not?in(select?top?1?remmberkey?from?##remmber_id_no??))?as?t,
(select?*?from?##remmber_id_no2?where?remmberkey?not?in(select?top?1?remmberkey?from?##remmber_id_no2??))?as?t2
where?t.remmberkey=t2.remmberkey
drop?table?##remmber_id_no
drop?table?##remmber_id_no2
With T
As
(
Select * From TB Where newNo=103
Union All
Select TB.* From TB Inner Join T on TB.newNo=T.oldNo
)
Select * From T
利用SQL語句分頁要看你用的什么數(shù)據(jù)庫。
Oracle數(shù)據(jù)庫可以使用ROWNUM或row_number(),例如:Select * from (select ROWNUM rn, t.* from table t) where rn between 11 and 20;
Select * from (select row_number() over (ORDER BY col1) rn, t.* from table t) where rn between 11 and 20;
SQLServer數(shù)據(jù)庫可以用Top或者row_number()函數(shù),道理同上。
利用SQL分頁有局限性,就是針對不同的數(shù)據(jù)庫有不同的寫法,所以通常會在應用程序里面做分頁通用性比較強。但是對于數(shù)據(jù)量非常龐大的應用來說,還是用SQL分頁比較適合。
當前題目:sqlserver算法,SQL算法
標題路徑:http://m.rwnh.cn/article36/phjipg.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設計公司、網(wǎng)站改版、小程序開發(fā)、品牌網(wǎng)站設計、面包屑導航、品牌網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)