閱讀831 返回首頁    go gooseeker集搜客


Python信息采集器使用輕量級關係型數據庫SQLite

1,引言

Python自帶一個輕量級的關係型數據庫SQLite。這一數據庫使用SQL語言。SQLite作為後端數據庫,可以搭配Python建網站,或者為python網絡爬蟲存儲數據。SQLite還在其它領域有廣泛的應用,比如HTML5和移動端。

Python標準庫中的sqlite3提供該數據庫的接口。

2,Python對SQLite進行操作示例

以下的代碼將創建一個簡單的關係型數據庫,為一個書店存儲書的分類和價格。數據庫中包含兩個表:category用於記錄分類,book用於記錄某本書的信息。一本書歸屬於某一個分類,因此book有一個外鍵(foreign key),指向catogory表的主鍵id。

2.1 創建數據庫

首先,創建數據庫,以及數據庫中的表。在使用connect()連接數據庫後,就可以通過定位指針cursor,來執行SQL命令:

import sqlite3

# test.db is a file in the working directory.
conn = sqlite3.connect("test.db")

c = conn.cursor()

# create tables
c.execute('''CREATE TABLE category
      (id int primary key, sort int, name text)''')
c.execute('''CREATE TABLE book
      (id int primary key,
       sort int,
       name text,
       price real,
       category int,
       FOREIGN KEY (category) REFERENCES category(id))''')

# save the changes
conn.commit()

# close the connection with the database
conn.close()

SQLite的數據庫是一個磁盤上的文件,如上麵的test.db,因此整個數據庫可以方便的移動或複製。test.db一開始不存在,所以SQLite將自動創建一個新文件。

利用execute()命令,執行了兩個SQL命令,創建數據庫中的兩個表。創建完成後,保存並斷開數據庫連接。

2.2 插入數據

上麵創建了數據庫和表,確立了數據庫的抽象結構。下麵將在同一數據庫中插入數據:

import sqlite3

conn = sqlite3.connect("test.db")
c  = conn.cursor()

books = [(1, 1, 'Cook Recipe', 3.12, 1),
            (2, 3, 'Python Intro', 17.5, 2),
            (3, 2, 'OS Intro', 13.6, 2),
           ]

# execute "INSERT"
c.execute("INSERT INTO category VALUES (1, 1, 'kitchen')")

# using the placeholder
c.execute("INSERT INTO category VALUES (?, ?, ?)", [(2, 2, 'computer')])

# execute multiple commands
c.executemany('INSERT INTO book VALUES (?, ?, ?, ?, ?)', books)

conn.commit()
conn.close()

插入數據同樣可以使用execute()來執行完整的SQL語句。SQL語句中的參數,使用"?"作為替代符號,並在後麵的參數中給出具體值。這裏不能用Python的格式化字符串,如"%s",因為這一用法容易受到SQL注入攻擊。

也可以用executemany()的方法來執行多次插入,增加多個記錄。每個記錄是表中的一個元素,如上麵的books表中的元素。

2.3 查詢

在執行查詢語句後,Python將返回一個循環器,包含有查詢獲得的多個記錄。循環讀取,也可以使用sqlite3提供的fetchone()和fetchall()方法讀取記錄:

import sqlite3

conn = sqlite3.connect('test.db')
c = conn.cursor()

# retrieve one record
c.execute('SELECT name FROM category ORDER BY sort')
print(c.fetchone())
print(c.fetchone())

# retrieve all records as a list
c.execute('SELECT * FROM book WHERE book.category=1')
print(c.fetchall())

# iterate through the records
for row in c.execute('SELECT name, price FROM book ORDER BY sort'):
    print(row)

2.4 更新與刪除

可以更新某個記錄,或者刪除記錄:

conn = sqlite3.connect("test.db")
c = conn.cursor()

c.execute('UPDATE book SET price=? WHERE id=?',(1000, 1))
c.execute('DELETE FROM book WHERE id=2')

conn.commit()
conn.close()

也可以直接刪除整張表:

c.execute('DROP TABLE book')

如果刪除test.db,那麼整個數據庫會被刪除。

3,總結

sqlite3是一個SQLite的接口。想要熟練的使用SQLite數據庫,需要學習關係型數據庫的知識。在一些場景下,Python網絡爬蟲可以使用SQLite存儲采集到的網頁信息。GooSeeker爬蟲DS打數機將在7.x版本支持SQLite,不妨想想一下Python網絡爬蟲與DS打數機連接在一起會怎樣。

4,文檔修改曆史

  • 2016-07-01:V1.0,首次發布

若有疑問可以或集搜客網絡爬蟲

最後更新:2017-01-09 14:08:09

  上一篇:go 百度拓詞工具應用(1):SEO推廣分析
  下一篇:go 爬蟲第1季:集搜客讓你獲取大數據像遊戲一樣付費無壓力