今天上網路概論與爬蟲
老師一講課操作給大家看,就開始想睡覺
以下內容是我請生成式AI 給我的課程導覽

從簡單的靜態網頁爬蟲開始,使用 urllib 或 requests 獲取網頁內容,然後使用 Beautiful Soup 進行解析。
逐步學習更進階的技巧,例如處理表單、登入、Cookies 等。
了解常見的反爬蟲機制,並學習應對方法。
選擇適合自己需求的資料儲存方式。
學習使用 Scrapy 框架可以大大提高開發效率,特別是對於複雜的爬蟲專案。

第一階段:Python 基礎與網路請求
Python 基礎:語法、資料型別、函數、類別、模組管理、錯誤處理。
網路基礎:HTTP/HTTPS 協定、URL 結構、HTML 基本標籤。
請求庫:urllib/urllib3 發送 GET/POST 請求,處理標頭與錯誤。

第二階段:HTML 解析與資料提取
解析工具:
BeautifulSoup:用標籤、屬性、CSS 選擇器提取資料。
lxml + XPath:高效解析 XML/HTML,路徑選擇語法。
技巧:處理巢狀結構、缺失資料。

第三階段:進階請求與反爬策略
Requests 庫:Session 管理、Cookies、代理 IP、逾時設定。
反爬應對:偽裝 User-Agent、代理 IP 池、驗證碼處理、動態內容(Selenium/Pyppeteer)。

第四階段:資料儲存與處理
儲存格式:CSV/JSON、SQL 資料庫(MySQL/SQLite)、NoSQL(MongoDB)。
清洗:處理空值、重複資料、格式化。

第五階段:進階框架與分散式
非同步爬蟲:asyncio/aiohttp 提升效率。
Scrapy 框架:Spiders、Items、Pipelines 架構。
分散式:Celery/Redis 分配任務。
 


<td> (Table Data Cell)代表 HTML 表格中的資料儲存格或欄位。
<tr> (Table Row)代表 HTML 表格中的列。


基本結構標籤:
<!DOCTYPE html>: 宣告文件類型為 HTML5。
<html>: HTML 文件的根元素。
<head>: 包含文件的元資料,例如標題、字符集、CSS 樣式表連結、JavaScript 檔案連結等,這些資訊通常不會顯示在網頁內容中。
<title>: 定義瀏覽器工具列或標籤頁上顯示的標題。
<body>: 包含網頁上所有可見的內容。

排版標籤:
<h1> 到 <h6>: 定義不同層級的標題。<h1> 是最重要的標題,依序遞減。
<p>: 定義段落。
<br>: 插入一個換行符號。
<hr>: 建立一條水平線,用於分隔內容。
<div>: 定義一個區塊容器,用於組織和樣式化 HTML 元素。
<span>: 定義一個行內容器,用於標示文字或其他行內元素並進行樣式化。

文字格式化標籤:
<a>: 定義超連結,用於連結到其他網頁、同一頁面的不同部分、檔案下載等。
<img>: 嵌入圖片。
<strong>: 定義重要的文字,通常以粗體顯示。
<em>: 定義強調的文字,通常以斜體顯示。
<ul>: 定義無序列表 (unordered list),列表項通常以圓點符號標示。
<ol>: 定義有序列表 (ordered list),列表項通常以數字或字母標示。
<li>: 定義列表項目 (list item),必須放在 <ul> 或 <ol> 標籤內。

表格相關標籤:
<table>: 定義 HTML 表格。
<thead>: 定義表格的表頭,通常包含欄位名稱。
<tbody>: 定義表格的主體內容。
<tfoot>: 定義表格的頁尾,通常包含總計或摘要資訊。
<th>: 定義表格中的標題儲存格,通常位於 <thead> 內,文字預設為粗體且置中。
<caption>: 定義表格的標題。

表單相關標籤:
<form>: 定義 HTML 表單,用於收集使用者輸入的資料。
<input>: 定義表單中的輸入欄位,例如文字輸入框、密碼框、單選按鈕、複選框等。
<textarea>: 定義多行文字輸入框。
<button>: 定義可點擊的按鈕。
<select>: 定義下拉式選單。
<option>: 定義下拉式選單中的選項。
<label>: 定義表單元素的標籤,有助於提高表單的可存取性。

其他常見標籤:
<header>: 定義文件的標題區域,通常包含網站標誌、導覽連結等。
<nav>: 定義導覽連結的集合。
<main>: 定義文件的主要內容。
<aside>: 定義與主要內容相關但獨立的內容,例如側邊欄。
<footer>: 定義文件的頁腳,通常包含版權資訊、聯絡方式等。
<article>: 定義獨立的文章內容,例如部落格文章、新聞報導等。
<section>: 定義文件中的一個主題分組。

文章標籤
全站熱搜
創作者介紹
創作者 ky0dd 的頭像
ky0dd

阿京小站

ky0dd 發表在 痞客邦 留言(0) 人氣(3)