服務(wù)近2000家企業(yè),依托一系列實(shí)踐中打磨過的技術(shù)和產(chǎn)品,根據(jù)企業(yè)的具體業(yè)務(wù)問題和需求,針對(duì)性的提供各行業(yè)大數(shù)據(jù)解決方案。
大數(shù)據(jù)爬蟲系統(tǒng)軟件
來源:未知 時(shí)間:2021-19-9 瀏覽次數(shù):156次
數(shù)據(jù)采集是進(jìn)行大數(shù)據(jù)分析的前提也是必要條件,在整個(gè)流程中占據(jù)重要地位,該軟件目標(biāo)是解決大數(shù)據(jù)采集階段的數(shù)據(jù)采集,采集目標(biāo)為任何互聯(lián)網(wǎng)或軟件系統(tǒng)數(shù)據(jù)。
系統(tǒng)技術(shù)架構(gòu):
系統(tǒng)技術(shù)架構(gòu):
1 需要環(huán)境操作系統(tǒng):centos7.2版本
2 python3爬蟲端 (python3.6.4版本)
3 redis代理池 (redis4.0.2版本)
4 mongdb數(shù)據(jù)庫 (mongdb3.6.4版本)
5 redis詞庫緩存池
6 默認(rèn)開通10個(gè)進(jìn)程
環(huán)境安裝:
爬蟲操作步驟:
1 啟動(dòng)代理池: 進(jìn)入 /datatocrm2.2/Proxy/api目錄 后臺(tái)進(jìn)程形式啟動(dòng) apiServer.py
2 更新詞庫: 進(jìn)入 /datatocrm2.2/tyc_sf/queue_waiting/suzhou/目錄 吧自己的詞庫放入里面(txt文本形式)
3 啟動(dòng)爬蟲命令:進(jìn)入 /datatocrm2.2/tyc_sf/目錄 啟動(dòng) start.py 開始爬取數(shù)據(jù)
數(shù)據(jù)管理:
數(shù)據(jù)管理:
數(shù)據(jù)庫查看:用mongdb命令或者工具查看爬的數(shù)據(jù)結(jié)果
數(shù)據(jù)清洗:進(jìn)入 /datatocrm2.2/tyc_sf/目錄 啟動(dòng) clean_tyc.py命令 清洗數(shù)據(jù)
原始庫庫名稱:db_tyc_dev_suzhou
標(biāo)準(zhǔn)庫名稱:db_tyc_formal_suzhou
一、安裝python3.6.4
安裝python3教程:
CentOS 7.2上默認(rèn)安裝的python版本是2.6的,現(xiàn)安裝Python-3.6.3
環(huán)境準(zhǔn)備:
1.安裝相關(guān)依賴
sudo yum install openssl-devel -y
sudo yum install zlib-devel -y
2.安裝setuptools
wget https://pypi.python.org/packages/source/s/setuptools/setuptools-9.6.tar.gz
tar -zxvf setuptools-19.6.tar.gz
cd setuptools-19.6
sudo python setup.py build
sudo python setup.py install
三 安裝python3.6.4:
1 wget https://www.python.org/ftp/python/3.6.4/Python-3.6.4.tgz
2 tar -xzvf Python-3.6.4.tgz
3 cd Python-3.6.4
4 ./configure --prefix=/usr/local/python3 --enable-optimizations
5 make && make install
6 ln -s /usr/local/python3/bin/python3.6 /usr/bin/python3 #建立新的軟連接,指向Python-3.6.3
ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3
7 yum install python3-pip 安裝pip3
8 安裝 redis、bs4、lxml、pymongo、threadpool、requests類庫
cd /usr/local/python3
pip3 install redis
pip3 install bs4
pip3 install lxml
pip3 install pymongo
pip3 install threadpool
pip3 install requests
4、 安裝webpy-py3
cd /datatocrm2.2/webpy-py3
python3 setup.py install
python3 setup.py build
二、安裝redis4.0.2:
教程:https://blog.csdn.net/diweikang/article/details/78784631
1 、下載:redis-4.0.2.tar.gz
wget http://download.redis.io/releases/redis-4.0.2.tar.gz
2、 解壓:tar -xzvf redis-4.0.2.tar.gz
3、進(jìn)入目錄:cd redis-4.0.2
4、安裝 make make install (默認(rèn)安裝在 /usr/local/bin目錄下)
5、cp /home/redis-4.0.2/utils/redis_init_script /etc/rc.d/init.d/redis(將啟動(dòng)腳本復(fù)制到/etc/rc.d/init.d/目錄下,命名為redis)
vi /etc/rc.d/init.d/redis 修改以后臺(tái)運(yùn)行的方式執(zhí)行:$EXEC $CONF &
6、vi /etc/rc.d/init.d/redis 在監(jiān)本第一行后面添加一行內(nèi)容為:#chkconfig: 2345 80 90 如果不添加,在注冊(cè)服務(wù)的時(shí)候會(huì)提示:service redis does not support chkconfig
7、將redis注冊(cè)成為服務(wù):chkconfig --add redis
8 在/etc目錄下:mkdir redis 創(chuàng)建redis文件夾
9 cp /home/redis-4.0.2/redis.conf /etc/redis/6379.conf (先在/etc目錄下:mkdir redis 創(chuàng)建redis文件夾)
10、 防火墻開啟對(duì)應(yīng)端口:vi /etc/sysconfig/iptables 添加如下:
#redis端口
-A INPUT -m state ?state NEW -m tcp -p tcp ?dport 6379 -j ACCEPT (然后 重啟防火墻 service iptables restart)
11、修改/etc/redis/6379.conf的 redis配置文件6379.conf:
daemonize no 改為daemonize yes
pidfile /var/run/redis.pid 改為pidfile /var/run/redis_6379.pid
注釋掉綁定的主機(jī),否則客戶端無法連接 #bind 127.0.0.1 (一定是注釋掉 不是修改為0.0.0.0)
protected-mode yes 改為 protected-mode no
12、啟動(dòng)redis服務(wù):service redis start
13、將redis添加到環(huán)境變量中 vi /etc/profile
export PATH=$PATH:/user/local/bin
使配置生效:source /etc/profile
14 停止服務(wù):service redis stop 啟動(dòng):service redis start
二、客戶端連接測(cè)試:
1、本機(jī)連接: redis-cli
2、遠(yuǎn)程連接:redis-cli -h 你的IP -p 6379
3 、set test 123
4、 get test
5、 keys * 輸出所有
三、安裝mongdb3.6.4:
安裝mongdb 3.6
1 vim /etc/yum.repos.d/mongodb-org-3.6.repo (沒有就創(chuàng)建一個(gè))打開mongodb-org-3.6.repo文件添加以下內(nèi)容)
[mongodb-org-3.6]
name=MongoDB Repository
baseurl=https://repo.mongodb.org/yum/redhat/$releasever/mongodb-org/3.6/x86_64/
gpgcheck=1
enabled=1
gpgkey=https://www.mongodb.org/static/pgp/server-3.6.asc
2 yum -y install mongodb-org (采用yum安裝mongdb數(shù)據(jù)庫)
3 安裝后 查看mongo安裝位置:whereis mongod
4 查看修改配置文件 :vim /etc/mongod.conf
5 啟動(dòng)mongodb:systemctl start mongod.service
6 停止mongodb :systemctl stop mongod.service
8:查到mongodb的狀態(tài):systemctl status mongod.service
9.外網(wǎng)訪問需要關(guān)閉防火墻:
CentOS 7.0默認(rèn)使用的是firewall作為防火墻,這里改為iptables防火墻。
systemctl stop firewalld.service #停止firewall
systemctl disable firewalld.service #禁止firewall開機(jī)啟動(dòng)
10.設(shè)置開機(jī)啟動(dòng)
systemctl enable mongod.service
11.啟動(dòng)Mongo shell
命令:mongo 查看數(shù)據(jù)庫:show dbs
12.設(shè)置mongodb遠(yuǎn)程訪問:
編輯/etc/mongod.conf,修改bindIp:0.0.0.0并重啟mongodb.
vim /etc/mongod.conf
13 重啟mongodb:
systemctl restart mongod.service
mongod安裝目錄:usr/bin/mongod
數(shù)據(jù)庫存儲(chǔ)目錄:dbpath=/data/db
配置文件:etc/mongod.conf
14 登陸mongodb:mongo
15 添加賬號(hào)密碼:
mongo #登陸
user admin #切換到admin數(shù)據(jù)庫
步驟三:創(chuàng)建管理員賬號(hào)
db.createUser({user:'admin_264',pwd:'823888ws',customData:{"desc":"This user is for administrators"},roles:[{role:'userAdminAnyDatabase',db:'admin'}]})
16 驗(yàn)證用戶是否創(chuàng)建成功: db.auth("admin_264","23888ws")
17 :殺掉進(jìn)程,重啟mongoDB服務(wù)
ps -ef | grep mongod
kill -9 pid
18 帶認(rèn)證模式開啟Mongod
mongod --auth --config /etc/mongod.conf
二、卸載MONGODB(教程使用)
1、停止服務(wù)
service mongod stop
2、刪除安裝的包
yum erase $(rpm -qa | grep mongodb-org)
3、刪除數(shù)據(jù)及日志
rm -r /var/log/mongodb
rm -r /var/lib/mongo
四、運(yùn)行爬蟲:
1進(jìn)入 cd /home/datatocrm2.2/Proxy/api
啟動(dòng)代理:nohup python3 apiServe.py
2 進(jìn)入 cd /home/datatocrm2.2/tyc_sf
啟動(dòng)爬蟲:python3 start.py beijing
五、前端系統(tǒng)php:
centos6.9+phpstudy(php 5.5.10版本)+安裝mongdb擴(kuò)展:
1 phpinfo() 查看自己的PHP版本、NTS還是TS、x86還是x64
2 wget http://pecl.php.net/get/mongo-1.6.15.tgz #下載mongo-1.6.15.tgz
【如果下載安裝有問題,直接用datatocrm2.2目錄下的mongo-1.6.15】
3 tar zxvf mongo-1.6.15.tgz #解壓
4 cd mongo-1.6.15 #進(jìn)入mongo-1.6.15
5 修改權(quán)限mongo-1.6.15
chmod 777 /home/mongo-1.6.15/ -R;
chmod 777 /home/mongo-1.6.15/*;
chmod 777 /phpstudy/www/ -R
chmod 777 /phpstudy/www/*
6 ./configure --with-php-config=/phpstudy/server/php/bin/php-config (路徑是phpstudy的安裝路徑)
7 make #編譯
8 make install #安裝,安裝完之后的界面是這樣的。
9 vi /phpstudy/server/php/etc/php.ini
10 #編輯,在最后加上這么一行代碼:extension="mongo.so"
11 phpstudy restart #重啟phpstudy
12 phpinfo();查看mongdb是否安裝成功
【 /phpstudy/server/php/lib/php/extensions/no-debug-non-zts-20121212/】
六、常見問題:
問題1:MySQL啟動(dòng)出現(xiàn)The server quit without updating PID file錯(cuò)誤解決辦法
解決辦法:將 /etc/mysql 下的 my.cnf 文件刪除,再次啟動(dòng)MySQL服務(wù)
軟件下載 大數(shù)據(jù)爬蟲系統(tǒng)http://filesearch.ixiera.com/pc.zip