國內首套免費的《Nutch相關框架視頻教程》(1-16)
第一講
1、 通過nutch,誕生了hadoop、tika、gora。
2、 nutch通過ivy來進行依賴管理(1.2之後)。
3、 nutch是使用svn進行源代碼管理的。
4、 lucene、nutch、hadoop,在搜索界相當有名。
5、 ant構建之後,生成runtime文件夾,該文件夾下麵有deploy和local文件夾,分別代表了nutch的兩種運行方式。
6、 nutch和hadoop是通過什麼連接起來的?通過nutch腳本。通過hadoop命令把apache-nutch-1.6.job提交給hadoop的JobTracker。
7、 nutch入門重點在於分析nutch腳本文件。
1、 >土豆在線視頻地址(53分鍾)
超清原版下載地址
1、 nutch的存儲文件夾data下麵各個文件夾和文件裏麵的內容究竟是什麼?
2、 命令:
crawldb
bin/nutch>https://4008209999.tianyaclub.com/
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN
1、 深入分析nutch的抓取周期
inject
generate ->>https://apdplat.org
第五講
土豆在線視頻地址(66分鍾)
1、 域統計
bin/nutch domainstats data2/crawldb/current host host
bin/nutch domainstats data2/crawldb/current domain>土豆在線視頻地址(46分鍾)
1、注入分值
bin/nutch >土豆在線視頻地址(58分鍾)
超清原版下載地址
壓縮高清下載地址
1、indexchecker
bin/nutch indexchecker https://www.163.com
2、安裝配置SOLR
wget https://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.2/apache-solr-3.6.2.tgz
tar -xzvf apache-solr-3.6.2.tgz
cd apache-solr-3.6.2/example
複製nutch的conf目錄中的schema.xml文件到solr/conf目錄
修改solr/conf/solrconfig.xml,將裏麵所有的<strname="df">text</str>都替換為<strname="df">content</str>
3、運行SOLR並提交索引
啟動SOLR服務器
java -jar>https://host2:8983
提交索引
bin/nutch> https://host2:8983/solr> https://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zip
unzip>
和
<tokenizer>
替換為
<tokenizer>
第八講
土豆在線視頻地址(38分鍾)
超清原版下載地址
壓縮高清下載地址
1、指定LUKE工具的分詞器
訪問https://code.google.com/p/mmseg4j/downloads/list
下載mmseg4j-1.9.1.v20130120-SNAPSHOT.zip
將壓縮包裏麵的dist文件夾裏麵的jar解壓,將解壓出來com和data文件夾拖到lukeall-4.0.0-ALPHA.jar裏麵
啟動luke,在Search選項卡的Analysis裏麵選擇com.chenlb.mmseg4j.analysis.ComplexAnalyzer
2、安裝配置SOLR4.2
wget https://labs.mop.com/apache-mirror/lucene/solr/4.2.0/solr-4.2.0.tgz
tar -xzvf solr-4.2.0.tgz
cd solr-4.2.0/example
複製nutch的conf目錄中的schema-solr4.xml文件到solr/collection1/conf目錄,改名為schema.xml,覆蓋原來文件
修改solr/collection1/conf/schema.xml,在<fields>下增加:<field>
3、給SOLR4.2配置分詞器mmseg4j
wget https://mmseg4j.googlecode.com/files/mmseg4j-1.9.1.v20130120-SNAPSHOT.zip
unzip>
和
<tokenizer>
替換為
<tokenizer>
4、運行SOLR並提交索引
啟動SOLR服務器
java -jar>https://host2:8983
提交索引
bin/nutch>土豆在線視頻地址(44分鍾)
超清原版下載地址
壓縮高清下載地址
1、 安裝win上的nutch運行環境Cygwin
cygwin路徑不要有空格
把安裝好的JDK拷貝到用戶主目錄
把nutch的文件拷貝到用戶主目錄
下載解壓ant,加入path
2、 運行nutch
Exception>https://issues.apache.org/jira/browse/HADOOP-7682
https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz
修改hadoop-1.1.2\src\core\org\apache\hadoop\fs\FileUtil.java,搜索 Failed>
執行ant
用新生成的hadoop-core-1.1.3-SNAPSHOT.jar替換nutch的hadoop-core-1.0.3.jar
第十講
土豆在線視頻地址(58分鍾)
超清原版下載地址
壓縮高清下載地址
1、HADOOP單機本地模式
wget https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz
tar -xzvf>
切換到nutch的deploy目錄運行命令
2、HADOOP單機偽分布式模式
新建用戶和組
addgroup hadoop
adduser --ingroup hadoop hadoop
注銷root以hadoop用戶登錄
配置SSH
ssh-keygen -t rsa(密碼為空,路徑默認)
cp .ssh/id_rsa.pub .ssh/authorized_keys
準備HADOOP運行環境
wget https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz
tar -xzvf>
重新登錄就生效
ssh>https://localhost:50030可以查看 JobTracker 的運行狀態
訪問https://localhost:50060可以查看 TaskTracker 的運行狀態
訪問https://localhost:50070可以查看 NameNode 以及整個分布式文件係統的狀態,瀏覽分布式文件係統中的文件以及>土豆在線視頻地址(64分鍾)
超清原版下載地址
壓縮高清下載地址
1、配置Cygwin支持無密碼SSH登陸
安裝SSH
默認的Cygwin沒有安裝ssh,所以重新運行https://www.cygwin.com/setup.exe
在Select Packages的時候,在search輸入ssh,選擇openssh:The OpenSSH>如果需要重新安裝sshd服務,可以用cygrunsrv -R sshd
生成SSH Key
ssh-keygen -t rsa(密碼為空,路徑默認)
cp .ssh/id_rsa.pub .ssh/authorized_keys
登陸
ssh localhost
2、win上的HADOOP單機偽分布式
準備HADOOP運行環境
下載解壓並拷貝到Cygwin的用戶主目錄
https://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz
1.x版本有BUG,參考:
https://issues.apache.org/jira/browse/HADOOP-7682
https://issues.apache.org/jira/browse/HADOOP-8274
BUG修複請參考:
https://en.wikisource.org/wiki/User:Fkorning/Code/Hadoop-on-Cygwin
在/home/ysc/.bashrc 中追加:
export JAVA_HOME=/home/ysc/jdk1.7.0_17
export PATH=/home/ysc/hadoop-0.20.2/bin:$JAVA_HOME/bin:$PATH
在hadoop-0.20.2/conf/hadoop-evn.sh中追加
export JAVA_HOME=/home/ysc/jdk1.7.0_17
export HADOOP_LOG_DIR=/tmp/logs
創建符號鏈接
mklink /D C:\tmp C:\cygwin\tmp
重新登錄就生效
ssh localhost
which hadoop
配置HADOOP運行參數
vi>https://localhost:50030可以查看 JobTracker 的運行狀態
訪問https://localhost:50060可以查看 TaskTracker 的運行狀態
訪問https://localhost:50070可以查看 NameNode 以及整個分布式文件係統的狀態,瀏覽分布式文件係統中的文件以及>土豆在線視頻地址(30分鍾)
超清原版下載地址
壓縮高清下載地址
1、 HADOOP多機完全分布式模式
三台機器
host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker)
host6(DataNode、TaskTracker)
host8(DataNode、TaskTracker)
vi /etc/hostname(分別給每一台主機指定主機名)
vi /etc/hosts(分別給每一台主機指定主機名到IP地址的映射)
新建用戶和組
三台機器上麵都要新建用戶和組
addgroup hadoop
adduser --ingroup hadoop hadoop
更改臨時目錄權限
chmod 777 /tmp
注銷root以hadoop用戶登錄
配置SSH
在host2上麵執行
ssh-keygen -t rsa(密碼為空,路徑默認)
該命令會在用戶主目錄下創建 .ssh 目錄,並在其中創建兩個文件:id_rsa 私鑰文件,是基於 RSA 算法創建,該私鑰文件要妥善保管,不要泄漏。id_rsa.pub 公鑰文件,和 id_rsa 文件是一對兒,該文件作為公鑰文件,可以公開
cp .ssh/id_rsa.pub .ssh/authorized_keys
把公鑰追加到其他主機的authorized_keys文件中
ssh-copy-id -i .ssh/id_rsa.pub hadoop@host6
ssh-copy-id -i .ssh/id_rsa.pub hadoop@host8
可以在host2上麵通過ssh無密碼登陸host6和host8
ssh host2
ssh host6
ssh host8
準備HADOOP運行環境
wget https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz
tar -xzvf>
重新登錄就生效
ssh localhost
which hadoop
配置HADOOP運行參數
vi conf/masters
把localhost替換為:host2
vi conf/slaves
刪除localhost,加入兩行:
host2
host6
host8
vi conf/core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://host2:9000</value>
</property>
vi conf/hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/dfs/filesystem/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/dfs/filesystem/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
vi conf/mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>host2:9001</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>4</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>4</value>
</property>
<property>
<name>mapred.system.dir</name>
<value>/home/hadoop/mapreduce/system</value>
</property>
<property>
<name>mapred.local.dir</name>
<value>/home/hadoop/mapreduce/local</value>
</property>
複製HADOOP文件到其他節點
scp -r /home/hadoop/hadoop-1.1.2 hadoop@host6:/home/hadoop/hadoop-1.1.2
scp -r /home/hadoop/hadoop-1.1.2 hadoop@host8:/home/hadoop/hadoop-1.1.2
格式化名稱節點並啟動集群
hadoop>https://localhost:50030可以查看 JobTracker 的運行狀態
訪問https://localhost:50060可以查看 TaskTracker 的運行狀態
訪問https://localhost:50070可以查看 NameNode 以及整個分布式文件係統的狀態,瀏覽分布式文件係統中的文件以及 log 等
停止集群
stop-all.sh停止集群
最後更新:2017-04-03 20:51:32