1、編程:
用C語(yǔ)言實(shí)現(xiàn)一個(gè)revert函數(shù),它的功能是將輸入的字符串在原串上倒序后返回。
2、編程:
用C語(yǔ)言實(shí)現(xiàn)函數(shù)void*memmove(void*dest,constvoid*src,size_tn)。memmove
函數(shù)的功能是拷貝src所指的內(nèi)存內(nèi)容前n個(gè)字節(jié)
到dest所指的地址上。
3、英文拼寫(xiě)糾錯(cuò):
在用戶(hù)輸入英文單詞時(shí),經(jīng)常發(fā)生錯(cuò)誤,我們需要對(duì)其進(jìn)行糾錯(cuò)。假設(shè)已經(jīng)有一個(gè)包
含了正確英文單詞的詞典,請(qǐng)你設(shè)計(jì)一個(gè)拼寫(xiě)糾錯(cuò)
的程序。
(1)請(qǐng)描述你解決這個(gè)問(wèn)題的思路;
(2)請(qǐng)給出主要的處理流程,算法,以及算法的復(fù)雜度;
(3)請(qǐng)描述可能的改進(jìn)(改進(jìn)的方向如效果,性能等等,這是一個(gè)開(kāi)放問(wèn)題)。
4、尋找熱門(mén)查詢(xún):
搜索引擎會(huì)通過(guò)日志文件把用戶(hù)每次檢索使用的所有檢索串都記錄下來(lái),每個(gè)查詢(xún)串
的長(zhǎng)度為1-255字節(jié)。假設(shè)目前有一千萬(wàn)個(gè)記錄,
這些查詢(xún)串的重復(fù)度比較高,雖然總數(shù)是1千萬(wàn),但如果除去重復(fù)后,不超過(guò)3百萬(wàn)個(gè)
。一個(gè)查詢(xún)串的重復(fù)度越高,說(shuō)明查詢(xún)它的用戶(hù)越多,
也就是越熱門(mén)。請(qǐng)你統(tǒng)計(jì)最熱門(mén)的10個(gè)查詢(xún)串,要求使用的內(nèi)存不能超過(guò)1G。
(1)請(qǐng)描述你解決這個(gè)問(wèn)題的思路;
(2)請(qǐng)給出主要的處理流程,算法,以及算法的復(fù)雜度。
5、集合合并:
給定一個(gè)字符串的集合,格式如:
{aaabbbccc},{bbbddd},{eeefff},{ggg},{dddhhh}
要求將其中交集不為空的集合合并,要求合并完成后的集合之間無(wú)交集,例如上例應(yīng)
輸出
{aaabbbcccdddhhh},{eeefff},{ggg}
(1)請(qǐng)描述你解決這個(gè)問(wèn)題的思路;
(2)請(qǐng)給出主要的處理流程,算法,以及算法的復(fù)雜度
(3)請(qǐng)描述可能的改進(jìn)(改進(jìn)的方向如效果,性能等等,這是一個(gè)開(kāi)放問(wèn)題)。
--------------------------------------1題
char*revert(char*str)
{
intn=strlen(str);
inti=0;
charc;
for(i=0;i{
c=str;
str=str[n-i];
str[n-i]=c;
}
returnstr;
}
----------------------------------------------2題
void*memmove(void*dest,constvoid*src,size_tn)
{
assert((dest!=0)&&(src!=0));
char*temp=(char*)dest;
char*ss=(char*)src;
inti=0;
for(;i{
*temp =*ss ;
}
returntemp;
}
----------------------------------------------------3題
(1)思路:
字典以字母鍵樹(shù)組織,在用戶(hù)輸入同時(shí)匹配
(2)
流程:
每輸入一個(gè)字母:
沿字典樹(shù)向下一層,
a)若可以順利下行,則繼續(xù)至結(jié)束,給出結(jié)果;
b)若該處不能匹配,糾錯(cuò)處理,給出拼寫(xiě)建議,繼續(xù)至a);
算法:
1.在字典中查找單詞
字典采用27叉樹(shù)組織,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)字母,查找就是一個(gè)字母
一個(gè)字母匹配.算法時(shí)間就是單詞的長(zhǎng)度k.
2.糾錯(cuò)算法
情況:當(dāng)輸入的最后一個(gè)字母不能匹配時(shí)就提示出錯(cuò),簡(jiǎn)化出錯(cuò)處理,動(dòng)態(tài)提示
可能處理方法:
(a)當(dāng)前字母前缺少了一個(gè)字母:搜索樹(shù)上兩層到當(dāng)前的匹配作為建議;
(b)當(dāng)前字母拼寫(xiě)錯(cuò)誤:當(dāng)前字母的鍵盤(pán)相鄰作為提示;(只是簡(jiǎn)單的描述,可
以有更多的)
根據(jù)分析字典特征和用戶(hù)單詞已輸入部分選擇(a),(b)處理
復(fù)雜性分析:影響算法的效率主要是字典的實(shí)現(xiàn)與糾錯(cuò)處理
(a)字典的實(shí)現(xiàn)已有成熟的算法,改進(jìn)不大,也不會(huì)成為瓶頸;
(b)糾錯(cuò)策略要簡(jiǎn)單有效,如前述情況,是線性復(fù)雜度;
(3)改進(jìn)
策略選擇最是重要,可以采用統(tǒng)計(jì)學(xué)習(xí)的方法改進(jìn)。
---------------------------------------------------------------------4題
(1)思路:
用哈希做
(2)
首先逐次讀入查詢(xún)串,算哈希值,保存在內(nèi)存數(shù)組中,同時(shí)統(tǒng)計(jì)頻度
(注意值與日志項(xiàng)對(duì)應(yīng)關(guān)系)
選出前十的頻度,取出對(duì)應(yīng)的日志串,簡(jiǎn)單不過(guò)了。
哈希的設(shè)計(jì)是關(guān)鍵。
---------------------------------------------------------5題
(1)思路:先將集合按照大小排列后,優(yōu)先考慮小的集合是否與大的集合有交集。有
就合并,如果小集合與所有其他集合都沒(méi)有交集,則獨(dú)立。獨(dú)立的集合在下一輪的比
較中不用考慮。這樣就可以盡量減少字符串的比較次數(shù)。當(dāng)所有集合都獨(dú)立的時(shí)候,
就終止。
(2)處理流程:
1.將集合按照大小排序,組成集合合并待處理列表
2.選擇最小的集合,找出與之有交集的集合,
如果有,合并之;
如果無(wú),則與其它集合是獨(dú)立集合,從待處理列表中刪除。
3.重復(fù)直到待處理列表為空
算法:
1。將集合按照大小從小到大排序,組成待處理的集合列表。
2。取出待處理集合列表中最小的集合,對(duì)于集合的每個(gè)元素,依次在其他集合中搜索
是否有此元素存在:
1>若存在,則將此小集合與大集合合并,并根據(jù)大小插入對(duì)應(yīng)的位置。轉(zhuǎn)3
。
2>若不存在,則在該集合中取下一個(gè)元素。如果無(wú)下一個(gè)元素,即所有元素
都不存在于其他集合。則表明此集合獨(dú)立,從待處理集合列表中刪除。并加入結(jié)果集
合列表。轉(zhuǎn)3。
3。如果待處理集合列表不為空,轉(zhuǎn)2。
如果待處理集合列表為空,成功退出,則結(jié)果集合列表就是最終的輸出。
算法復(fù)雜度分析:
假設(shè)集合的個(gè)數(shù)為n,最大的集合元素為m
排序的時(shí)間復(fù)雜度可以達(dá)到n*log(n)
然后對(duì)于元素在其他集合中查找,最壞情況下為(n-1)*m
查找一個(gè)集合是否與其他集合有交集的最壞情況是m*m*(n-1)
合并的時(shí)間復(fù)雜度不會(huì)超過(guò)查找集合有交集的最壞情況。
所以最終最壞時(shí)間復(fù)雜度為O(m*m*n*n)
需要說(shuō)明的是:此算法的平均時(shí)間復(fù)雜度會(huì)很低,因?yàn)闊o(wú)論是查找還是合并,都是處
于最壞情況的概率很小,而且排序后優(yōu)先用最小集合作為判斷是否獨(dú)立的對(duì)象,優(yōu)先
與最大的集合進(jìn)行比較,這些都最大的回避了最壞情況。
(3)可能的改進(jìn):
首先可以實(shí)現(xiàn)將每個(gè)集合里面的字符串按照字典序進(jìn)行排列,這樣就可以將查找以及
合并的效率增高。
另外,可能采取恰當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)也可以將查找以及合并等操作的效率得到提高。