閱讀845 返回首頁    go 阿裏雲 go 技術社區[雲棲]


國內首套免費的《Nutch相關框架視頻教程》(1-16)

//csdn博客目前暫時不再更新了,有興趣請訪問我的技術博客-曉的博客:zhangxiaolong.org 

轉自:https://yangshangchuan.iteye.com/blog/1837935
 Nutch是一個Java開源項目,擁有近十年的曆史,從一開始的搜索引擎演變為如今的網絡爬蟲。在Nutch的進化過程中,產生了Hadoop、Tika和Gora三個Java開源項目。如今這三個項目都發展迅速,極其火爆,尤其是Hadoop,其已成為大數據和雲計算的代名詞。
    本人擁有多年Nutch相關框架研發經驗,順應大數據雲計算的浪潮,推出了國內首套免費的《Nutch相關框架視頻教程》。 
 
優酷在線視頻地址
 
土豆在線視頻地址
 
百度雲網盤地址(1-12原版超清)
 
115網盤禮包(1-12壓縮超清)
 
360雲盤地址(1-12壓縮超清)
 
金山快盤地址(1-12壓縮超清)
 
 

第一講

土豆在線視頻地址(52分鍾)
超清原版下載地址  

壓縮高清下載地址

1、    通過nutch,誕生了hadoop、tika、gora。

2、    nutch通過ivy來進行依賴管理(1.2之後)。

3、    nutch是使用svn進行源代碼管理的。

4、    lucene、nutch、hadoop,在搜索界相當有名。

5、    ant構建之後,生成runtime文件夾,該文件夾下麵有deploy和local文件夾,分別代表了nutch的兩種運行方式。

6、    nutch和hadoop是通過什麼連接起來的?通過nutch腳本。通過hadoop命令把apache-nutch-1.6.job提交給hadoop的JobTracker。

7、    nutch入門重點在於分析nutch腳本文件。


第二講
土豆在線視頻地址 (52分鍾)
超清原版下載地址 

壓縮高清下載地址

1、 >土豆在線視頻地址(53分鍾)
超清原版下載地址

壓縮高清下載地址

1、    nutch的存儲文件夾data下麵各個文件夾和文件裏麵的內容究竟是什麼?

2、    命令:

crawldb

bin/nutch>https://4008209999.tianyaclub.com/

bin/nutch  readdb  data/crawldb  -topN  10 data/crawldb/crawldb_topN

bin/nutch>土豆在線視頻地址(60分鍾) 
超清原版下載地址 
壓縮高清下載地址 

1、  深入分析nutch的抓取周期

inject

generate ->>https://apdplat.org

 

第五講

土豆在線視頻地址(66分鍾)

超清原版下載地址
壓縮高清下載地址 

1、  域統計

bin/nutch  domainstats  data2/crawldb/current  host  host

bin/nutch  domainstats data2/crawldb/current  domain>土豆在線視頻地址(46分鍾)

超清原版下載地址
壓縮高清下載地址 

1、注入分值

bin/nutch >土豆在線視頻地址(58分鍾)
超清原版下載地址
壓縮高清下載地址 

1、indexchecker

bin/nutch  indexchecker  https://www.163.com

2、安裝配置SOLR

wget https://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.2/apache-solr-3.6.2.tgz

tar  -xzvf  apache-solr-3.6.2.tgz

cd  apache-solr-3.6.2/example

複製nutch的conf目錄中的schema.xml文件到solr/conf目錄

修改solr/conf/solrconfig.xml,將裏麵所有的<strname="df">text</str>都替換為<strname="df">content</str>

3、運行SOLR並提交索引

啟動SOLR服務器
 java -jar>https://host2:8983

提交索引

bin/nutch> https://host2:8983/solr> https://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zip

unzip> 和
  <tokenizer> 替換為
  <tokenizer>

 

 

第八講
土豆在線視頻地址(38分鍾)
超清原版下載地址
壓縮高清下載地址 

1、指定LUKE工具的分詞器 

訪問https://code.google.com/p/mmseg4j/downloads/list   

下載mmseg4j-1.9.1.v20130120-SNAPSHOT.zip 

將壓縮包裏麵的dist文件夾裏麵的jar解壓,將解壓出來com和data文件夾拖到lukeall-4.0.0-ALPHA.jar裏麵 

啟動luke,在Search選項卡的Analysis裏麵選擇com.chenlb.mmseg4j.analysis.ComplexAnalyzer 

2、安裝配置SOLR4.2

 wget https://labs.mop.com/apache-mirror/lucene/solr/4.2.0/solr-4.2.0.tgz 

tar  -xzvf  solr-4.2.0.tgz 

cd  solr-4.2.0/example 

複製nutch的conf目錄中的schema-solr4.xml文件到solr/collection1/conf目錄,改名為schema.xml,覆蓋原來文件 

修改solr/collection1/conf/schema.xml,在<fields>下增加:<field>

3、給SOLR4.2配置分詞器mmseg4j 

wget https://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip 

unzip>   和
  <tokenizer>   替換為
  <tokenizer>

4、運行SOLR並提交索引 

啟動SOLR服務器
 java -jar>https://host2:8983 

提交索引 

bin/nutch>土豆在線視頻地址(44分鍾)
超清原版下載地址 
壓縮高清下載地址 

1、  安裝win上的nutch運行環境Cygwin

cygwin路徑不要有空格

把安裝好的JDK拷貝到用戶主目錄

把nutch的文件拷貝到用戶主目錄

下載解壓ant,加入path

2、  運行nutch

Exception>https://issues.apache.org/jira/browse/HADOOP-7682

https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

修改hadoop-1.1.2\src\core\org\apache\hadoop\fs\FileUtil.java,搜索 Failed>

執行ant

用新生成的hadoop-core-1.1.3-SNAPSHOT.jar替換nutch的hadoop-core-1.0.3.jar

 

 

第十講
土豆在線視頻地址(58分鍾)
超清原版下載地址 
壓縮高清下載地址 

1、HADOOP單機本地模式

wget https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

tar -xzvf>

切換到nutch的deploy目錄運行命令

2、HADOOP單機偽分布式模式

新建用戶和組

addgroup hadoop

adduser --ingroup hadoop hadoop

注銷root以hadoop用戶登錄

配置SSH

ssh-keygen -t rsa(密碼為空,路徑默認)

cp .ssh/id_rsa.pub .ssh/authorized_keys

準備HADOOP運行環境

wget https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

tar -xzvf>

重新登錄就生效

ssh>https://localhost:50030可以查看 JobTracker 的運行狀態

訪問https://localhost:50060可以查看 TaskTracker 的運行狀態

訪問https://localhost:50070可以查看 NameNode 以及整個分布式文件係統的狀態,瀏覽分布式文件係統中的文件以及>土豆在線視頻地址(64分鍾)
超清原版下載地址
壓縮高清下載地址 

1、配置Cygwin支持無密碼SSH登陸

安裝SSH

默認的Cygwin沒有安裝ssh,所以重新運行https://www.cygwin.com/setup.exe

在Select Packages的時候,在search輸入ssh,選擇openssh:The OpenSSH>如果需要重新安裝sshd服務,可以用cygrunsrv -R sshd

生成SSH Key

ssh-keygen  -t  rsa(密碼為空,路徑默認)

cp  .ssh/id_rsa.pub  .ssh/authorized_keys

登陸

ssh  localhost

2、win上的HADOOP單機偽分布式

準備HADOOP運行環境

下載解壓並拷貝到Cygwin的用戶主目錄

https://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz

1.x版本有BUG,參考:

https://issues.apache.org/jira/browse/HADOOP-7682
https://issues.apache.org/jira/browse/HADOOP-8274

BUG修複請參考:

https://en.wikisource.org/wiki/User:Fkorning/Code/Hadoop-on-Cygwin

 

在/home/ysc/.bashrc 中追加:

export  JAVA_HOME=/home/ysc/jdk1.7.0_17

export  PATH=/home/ysc/hadoop-0.20.2/bin:$JAVA_HOME/bin:$PATH

在hadoop-0.20.2/conf/hadoop-evn.sh中追加

export  JAVA_HOME=/home/ysc/jdk1.7.0_17

export  HADOOP_LOG_DIR=/tmp/logs

創建符號鏈接

mklink  /D  C:\tmp  C:\cygwin\tmp

重新登錄就生效

ssh  localhost

which  hadoop

配置HADOOP運行參數

vi>https://localhost:50030可以查看 JobTracker 的運行狀態

訪問https://localhost:50060可以查看 TaskTracker 的運行狀態

訪問https://localhost:50070可以查看 NameNode 以及整個分布式文件係統的狀態,瀏覽分布式文件係統中的文件以及>土豆在線視頻地址(30分鍾)
超清原版下載地址 
壓縮高清下載地址 

1、  HADOOP多機完全分布式模式

三台機器

host2(NameNodeSecondaryNameNodeJobTrackerDataNodeTaskTracker)

host6(DataNodeTaskTracker)

host8(DataNodeTaskTracker)

vi  /etc/hostname(分別給每一台主機指定主機名)

vi  /etc/hosts(分別給每一台主機指定主機名到IP地址的映射)

新建用戶和組

三台機器上麵都要新建用戶和組

addgroup hadoop

adduser --ingroup hadoop hadoop

更改臨時目錄權限

chmod 777 /tmp

注銷root以hadoop用戶登錄

配置SSH

host2上麵執行

ssh-keygen  -t  rsa(密碼為空,路徑默認)

該命令會在用戶主目錄下創建 .ssh 目錄,並在其中創建兩個文件:id_rsa 私鑰文件,是基於 RSA 算法創建,該私鑰文件要妥善保管,不要泄漏。id_rsa.pub 公鑰文件,和 id_rsa 文件是一對兒,該文件作為公鑰文件,可以公開

cp  .ssh/id_rsa.pub  .ssh/authorized_keys

把公鑰追加到其他主機的authorized_keys文件中

ssh-copy-id  -i  .ssh/id_rsa.pub  hadoop@host6

ssh-copy-id  -i  .ssh/id_rsa.pub  hadoop@host8

可以在host2上麵通過ssh無密碼登陸host6host8

ssh host2

ssh host6

ssh host8

準備HADOOP運行環境

wget https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

tar -xzvf>

重新登錄就生效

ssh  localhost

which  hadoop

配置HADOOP運行參數

vi conf/masters

 

localhost替換為host2

 

vi conf/slaves

 

刪除localhost,加入兩行:

host2

host6

host8

 

vi conf/core-site.xml

 

<property>

<name>fs.default.name</name>

<value>hdfs://host2:9000</value>

</property>

 

vi conf/hdfs-site.xml

 

<property>

 <name>dfs.name.dir</name>

 <value>/home/hadoop/dfs/filesystem/name</value>

</property>

<property>

 <name>dfs.data.dir</name>

 <value>/home/hadoop/dfs/filesystem/data</value>

</property>

<property>

 <name>dfs.replication</name>

  <value>3</value>

</property>

 

vi conf/mapred-site.xml

                   

<property>

 <name>mapred.job.tracker</name>

  <value>host2:9001</value>

</property>

<property>

 <name>mapred.tasktracker.map.tasks.maximum</name>

 <value>4</value>

</property>

<property>

 <name>mapred.tasktracker.reduce.tasks.maximum</name>

 <value>4</value>

</property>

<property>

 <name>mapred.system.dir</name>

 <value>/home/hadoop/mapreduce/system</value>

</property>

<property>

  <name>mapred.local.dir</name>

 <value>/home/hadoop/mapreduce/local</value>

</property>

複製HADOOP文件到其他節點

 scp -r /home/hadoop/hadoop-1.1.2  hadoop@host6:/home/hadoop/hadoop-1.1.2
 scp -r /home/hadoop/hadoop-1.1.2  hadoop@host8:/home/hadoop/hadoop-1.1.2

格式化名稱節點並啟動集群

hadoop>https://localhost:50030可以查看 JobTracker 的運行狀態

訪問https://localhost:50060可以查看 TaskTracker 的運行狀態

訪問https://localhost:50070可以查看 NameNode 以及整個分布式文件係統的狀態,瀏覽分布式文件係統中的文件以及 log 等

停止集群

stop-all.sh停止集群

最後更新:2017-04-03 20:51:32

  上一篇:go 紅黑樹-插入刪除
  下一篇:go VC++/MFC自己封裝好的一個訪問數據庫的類