膩害了，我的哥，一鍵生成數據庫文檔，堪稱數據庫界的S

膩害了，我的哥，一鍵生成數據庫文檔，堪稱數據庫界的Swagger

文鏈接：https://mp.weixin.qq.com/s/uZVCzpFkmEoh0hUdzw3qAw
原作者：JavaGuide

今天分享一個好用的數據庫文檔生成工具。

在項目中，我們經常需要整理數據庫表結構文檔。

一般情況下，我們都是手動整理數據庫表結構文檔，當表結構有變動的時候，自己手動進行維護。

數據庫表少的時候還好，數據庫表多了之后，手動整理和維護數據庫表結構文檔簡直不要太麻煩，而且，還非常容易出錯！

有沒有什么好用的工具幫助我們自動生成數據庫表結構文檔呢？

當然有！Github 上就有一位朋友開源了一款數據庫表結構文檔自動生成工具—— screw 。

項目地址：https://github.com/pingfangushi/screw 。

screw 翻譯過來的意思就是螺絲釘，作者希望這個工具能夠像螺絲釘一樣切實地幫助到我們的開發工作。

目前的話，screw 已經支持市面上大部分常見的數據庫比如 MySQL、MariaDB、Oracle、SqlServer、PostgreSQL、TiDB。

另外，screw 使用起來也非常簡單，根據官網提示，不用 10 分鐘就能成功在本地使用起來！

快速入門

為了驗證 screw 自動生成數據庫表結構文檔的效果，我們首先創建一個簡單的存放博客數據的數據庫表。

CREATE TABLE `blog` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '主鍵',
  `title` varchar(255) NOT NULL COMMENT '博客標題',
  `content` longtext NOT NULL COMMENT '博客內容',
  `description` varchar(255) DEFAULT NULL COMMENT '博客簡介',
  `cover` varchar(255) DEFAULT NULL COMMENT '博客封面圖片地址',
  `views` int(11) NOT NULL DEFAULT '0' COMMENT '博客閱讀次數',
  `user_id` bigint(20) DEFAULT '0' COMMENT '發表博客的用戶ID',
  `channel_id` bigint(20) NOT NULL COMMENT '博客分類ID',
  `recommend` bit(1) NOT NULL DEFAULT b'0' COMMENT '是否推薦',
  `top` bit(1) NOT NULL DEFAULT b'0' COMMENT '是否置頂',
  `comment` bit(1) NOT NULL DEFAULT b'1' COMMENT '是否開啟評論',
  `created_at` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '創建時間',
  `updated_at` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新時間',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=16 DEFAULT CHARSET=utf8mb4 COMMENT='博客';

基于 Java 代碼

引入依賴

創建一個普通的 Maven 項目即可！然后引入 screw、HikariCP、MySQL 這 3 個依賴。

<!--screw-->
<dependency>
    <groupId>cn.smallbun.screw</groupId>
    <artifactId>screw-core</artifactId>
    <version>1.0.5</version>
</dependency>
<!-- HikariCP -->
<dependency>
    <groupId>com.zaxxer</groupId>
    <artifactId>HikariCP</artifactId>
    <version>3.4.5</version>
</dependency>
<!--MySQL-->
<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
    <version>8.0.20</version>
</dependency>

你可以通過下面的地址在 mvnrepository 獲取最新版本的 screw。

https://mvnrepository.com/artifact/cn.smallbun.screw/screw-core

編寫代碼

生成數據庫文檔的代碼的整個代碼邏輯還是比較簡單的，我們只需要經過下面 5 步即可：

// 1.獲取數據源
DataSource dataSource=getDataSource();
// 2.獲取數據庫文檔生成配置（文件路徑、文件類型）
EngineConfig engineConfig=getEngineConfig();
// 3.獲取數據庫表的處理配置，可忽略
ProcessConfig processConfig=getProcessConfig();
// 4.Screw 完整配置
Configuration config=getScrewConfig(dataSource, engineConfig, processConfig);
// 5.執行生成數據庫文檔
new DocumentationExecute(config).execute();

1、獲取數據庫源

對數據庫以及數據庫連接池進行相關配置。務必將數據庫相關的配置修改成你自己的。

/**
 * 獲取數據庫源
 */
private static DataSource getDataSource() {
    //數據源
    HikariConfig hikariConfig=new HikariConfig();
    hikariConfig.setDriverClassName("com.mysql.cj.jdbc.Driver");
    hikariConfig.setJdbcUrl("jdbc:mysql://127.0.0.1:3306/javaguide-blog");
    hikariConfig.setUsername("root");
    hikariConfig.setPassword("123456");
    //設置可以獲取tables remarks信息
    hikariConfig.addDataSourceProperty("useInformationSchema", "true");
    hikariConfig.setMinimumIdle(2);
    hikariConfig.setMaximumPoolSize(5);
    return new HikariDataSource(hikariConfig);
}

2、獲取文件生成配置

這一步會指定數據庫文檔生成的位置、文件類型以及文件名稱。

/**
 * 獲取文件生成配置
 */
private static EngineConfig getEngineConfig() {
    //生成配置
    return EngineConfig.builder()
            //生成文件路徑
            .fileOutputDir("/Users/guide/Documents/代碼示例/screw-demo/doc")
            //打開目錄
            .openOutputDir(true)
            //文件類型
            .fileType(EngineFileType.HTML)
            //生成模板實現
            .produceType(EngineTemplateType.freemarker)
            //自定義文件名稱
            .fileName("數據庫結構文檔").build();
}

如果不配置生成文件路徑的話，默認也會存放在項目的 doc 目錄下。

另外，我們這里指定生成的文件格式為 HTML。除了 HTML 之外，screw 還支持 Word 、Markdown 這兩種文件格式。

不太建議生成 Word 格式,比較推薦 Markdown 格式。

3、獲取數據庫表的處理配置

這一步你可以指定忽略生成哪些表。

/**
 * 獲取數據庫表的處理配置，可忽略
 */
private static ProcessConfig getProcessConfig() {
    return ProcessConfig.builder()
      // 指定只生成 blog 表
      .designatedTableName(new ArrayList<>(Collections.singletonList("blog")))
      .build();
}

還可以指定只生成哪些表。

private static ProcessConfig getProcessConfig() {
    ArrayList<String> ignoreTableName=new ArrayList<>();
    ignoreTableName.add("test_user");
    ignoreTableName.add("test_group");
    ArrayList<String> ignorePrefix=new ArrayList<>();
    ignorePrefix.add("test_");
    ArrayList<String> ignoreSuffix=new ArrayList<>();
    ignoreSuffix.add("_test");
    return ProcessConfig.builder()
            //忽略表名
            .ignoreTableName(ignoreTableName)
            //忽略表前綴
            .ignoreTablePrefix(ignorePrefix)
            //忽略表后綴
            .ignoreTableSuffix(ignoreSuffix)
            .build();
}

這一步也可以省略。如果不指定 ProcessConfig 的話，就會按照默認配置來！

4、生成 screw 完整配置

根據前面 3 步，生成 screw 完整配置。

private static Configuration getScrewConfig(DataSource dataSource, EngineConfig engineConfig, ProcessConfig processConfig) {
    return Configuration.builder()
            //版本
            .version("1.0.0")
            //描述
            .description("數據庫設計文檔生成")
            //數據源
            .dataSource(dataSource)
            //生成配置
            .engineConfig(engineConfig)
            //生成配置
            .produceConfig(processConfig)
            .build();
}

5、執行生成數據庫文檔

下圖就是生成的 HTML 格式的數據庫設計文檔。

基于 Maven 插件

除了基于 Java 代碼這種方式之外，你還可以通過 screw 提供的 Maven 插件來生成數據庫文檔。方法也非常簡單！

1、配置 Maven 插件

務必將數據庫相關的配置修改成你自己的。

<build>
    <plugins>
        <plugin>
            <groupId>cn.smallbun.screw</groupId>
            <artifactId>screw-maven-plugin</artifactId>
            <version>1.0.5</version>
            <dependencies>
                <!-- HikariCP -->
                <dependency>
                    <groupId>com.zaxxer</groupId>
                    <artifactId>HikariCP</artifactId>
                    <version>3.4.5</version>
                </dependency>
                <!--mysql driver-->
                <dependency>
                    <groupId>mysql</groupId>
                    <artifactId>mysql-connector-java</artifactId>
                    <version>8.0.20</version>
                </dependency>
            </dependencies>
            <configuration>
                <!--username-->
                <username>root</username>
                <!--password-->
                <password>123456</password>
                <!--driver-->
                <driverClassName>com.mysql.cj.jdbc.Driver</driverClassName>
                <!--jdbc url-->
                <jdbcUrl>jdbc:mysql://127.0.0.1:3306/javaguide-blog</jdbcUrl>
                <!--生成文件類型-->
                <fileType>MD</fileType>
                <!--打開文件輸出目錄-->
                <openOutputDir>true</openOutputDir>
                <!--生成模板-->
                <produceType>freemarker</produceType>
                <!--文檔名稱 為空時:將采用[數據庫名稱-描述-版本號]作為文檔名稱-->
                <fileName>數據庫結構文檔</fileName>
                <!--描述-->
                <description>數據庫設計文檔生成</description>
                <!--版本-->
                <version>${project.version}</version>
                <!--標題-->
                <title>數據庫文檔</title>
            </configuration>
            <executions>
                <execution>
                    <phase>compile</phase>
                    <goals>
                        <goal>run</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

2、手動執行生成數據庫文檔

我們這里指定生成的是 Markdown 格式。

下圖就是生成的 Markdown 格式的數據庫設計文檔，效果還是非常不錯的！

一篇文章我給大家說明了如何從零開始搭建一個node的服務端框架，我們用到了Egg框架。Egg框架我不再過多介紹，如果有小伙伴想了解，可以回去看我以前寫的文章，會有相關的介紹。這次我將在上次搭建的框架上進行延伸，講一下如果用Egg框架連接數據庫，并且實現對數據的增刪查改。接下來我們直接進入主題。

安裝數據庫插件

我本次選用的數據庫是MySQL。所以我們安裝Egg官方的數據庫插件即可，首先我們安裝插件 egg-mysql 。我們在項目根目錄打開命令提示符，輸入命令行：npm i --save egg-mysql 。回車等待插件下載安裝完成。

npm i --save egg-mysql

配置插件

命令行下載安裝插件完成后，我們下一步的工作就是在項目中開啟并配置egg-mysql插件。具體操作如下：

首先我們要在項目中開啟數據庫。找到項目中的/config/plugin.js文件我們需要在里面添加幾行代碼，如下所示。

//開啟數據庫插件
  mysql : {
    enable: true,
    package: 'egg-mysql',
  }

然后我們還要在 config/config.default.js 中配置各個環境的數據庫連接信息。具體配置如下。

//添加數據庫連接信息
  config.mysql={
    // 單數據庫信息配置
    client: {
      // host
      host: 'localhost',
      // 端口號
      port: '3306',
      // 用戶名
      user: 'root',
      // 密碼
      password: '123456',
      // 數據庫名
      database: 'testdb',
    },
    // 是否加載到 app 上，默認開啟
    app: true,
    // 是否加載到 agent 上，默認關閉
    agent: false,
  };

到此步驟我們的數據庫插件已經安裝完成并且配置好了。那我們怎么實現數據的增刪查改呢？大家請繼續往下看。

數據操作-新增用戶

首先我們看一下怎么新增數據。我們在mysql的testdb實例中新建一個user空表。如下圖所示。

我們的egg框架也遵循MVC的架構所以我們一般會在service層里面寫我們邏輯處理的代碼，而controller層則是獲取前端數據，回傳數據的控制層。所以我們操作數據庫的代碼是寫在service文件夾里面的。

我們在app/service文件夾里面新建一個user.js文件。在里面寫個新增用戶的方法，該方法就是把數據存到數據庫中。具體代碼如下。

const Service=require('egg').Service;

class UserService extends Service {

  //新增用戶data是有controller層傳遞過來的數據記錄。
  async addUser(data) {

    const {ctx, app}=this;
    let result={};
    try {
      data.id=0;//定義id=0，因為數據庫已經設置id為主鍵，并且自增。所以只需要賦值0即可。
      // 在 user 表中，插入前端提交上來的數據記錄
      const info=await app.mysql.insert('user', data); 
  
      //插入成功后。
      if(info.affectedRows===1){
        //給前端返回一個Json的對象
        result={
          state: 0, //自定義的狀態碼
          msg: "添加成功", //返回的消息
          data: info.insertId, //新增的記錄的id
        }
      }

    } catch (err) {
      //插入數據失敗的返回結果
      result={
        state: 1, 
        msg: err,
        data: null,
      }
    }
    
    return result
  }
};
module.exports=UserService;

然后我們在app/controller文件夾里新建一個user.js文件。在這里我們需要獲取前端提交上來的數據，并且將數據處理的結果返回給前端。具體代碼如下。

'use strict';

const Controller=require('egg').Controller;
/**
 * @Controller 用戶管理
 */
class UserController extends Controller {

  /**
  * @summary 新增用戶
  * @router post /user/add
  * @request body userAddRequest 
  * @response 200 
  */
  async addUser() {
    const { ctx }=this;

    //通過ctx.request.body的方式，可以獲取到前端post方式提交上來的數據
    const data=ctx.request.body;

    //調用service層的addUser方法。并且返回相應的結果
    const userInfo=await ctx.service.user.addUser(data);
    
    //向前端接口響應數據。
    ctx.body=userInfo;
  }

}

module.exports=UserController;

最后我們定義一個路由，讓前端請求訪問此路由。框架會監聽路由是否被訪問，如果被訪問了則會調用我們定義在controller層的新增用戶的方法。我們在app/router.js文件中添加如下代碼，即可完成路由的定義。

//新增用戶路由
  router.post('/user/add', controller.user.addUser);

完成這步驟后，我們一個新增用戶的功能就已經完成了。接下里我們就測試一下它的實際效果。我們運行命令：npm run dev。啟動項目，然后打開網頁http://127.0.0.1:7001，可以直接在swagger-ui.html頁面中進行測試。結果如下圖所示。

經過測試，數據已經添加完成。所以數據庫連接也是正常的。

本次分享暫時先告一段落。請各位小伙伴抬起你們發財的小手，點個贊唄。下次我將會進行和大家分享對數據查改刪的方法。關注我！！！更多精彩分享不迷路。

IOBE編程排行榜作為衡量編程語言流行度的權威指標，每年都會吸引眾多開發者和企業的關注。近日，TIOBE發布了2023年最新編程語言排行榜，展示了各種編程語言的市場份額和流行度。本文將介紹如何從TIOBE排行榜抓取數據，并將這些數據寫入數據庫的過程。

read_html函數是最簡單的爬蟲，可爬取靜態網頁表格數據，但只適合于爬取table 表格型數據，不是所有表格都可以用read_html爬取，有的網站表面上看起來是表格，但在網頁源代碼中不是table格式，而是list列表格式，這種表格就不適用read_html爬取。

1. read_html抓取數據

下面先學習一下read_html() 函數的參數，在代碼行中寫入

import pandas as pd
df=pd.read_html()

在括號中使用Shift+Tab組合鍵調用代碼提示功能，可以看到read_html都包含以下參數。

這里例舉常用的一些參數。

io：url、html文本、本地文件等
header：標題行
flavor：解析器
skiprows：跳過的行
attrs：屬性，例如：attrs={'id':'table'}
parse_dates:解析日期

下面我們使用代碼實際爬取網頁表格數據，比如下面的TIOBE編程排行榜排名數據。

https://www.tiobe.com/tiobe-index/

TIOBE編程排行榜排名

使用read_html爬取網頁數據，返回的結果是DataFrame組成的list ，在最后加上一個索引[0]即可得到爬取的表格數據，爬取的數據如下。

import pandas as pd

df=pd.read_html('https://www.tiobe.com/tiobe-index/')[0]
df.head(10)

數據有冗余，我們篩選自己需要的數據字段，多余的數據字段進行剔除，如下選取第1列、第2列、第5列、第6列、第7列的數據字段。

df_select=df.iloc[:,[0,1,4,5,6,]]
df_select.head(10)

2. 保存至數據庫

使用Python寫一個腳本，用于將上面的數據字段批量的存儲為.sql格式數據，如下為生成的.sql格式數據，借助特定的SQL軟件可以打開。

sql=[] # 使用列表來保存所有的 SQL 語句  
  
for i, r in df_select.iterrows():  
    columns="`, `".join(r.index)  # 獲取所有列名，并用逗號和空格分隔它們  
    values="`, `".join([f"'{r[col]}'" for col in r.index])  # 為每一列生成一個帶單引號的值，并用逗號和空格分隔它們  
    sql_row=f"INSERT INTO `TIOBE` (`{columns}`) VALUES ({values}) ;"  # 生成完整的 SQL 插入語句  
    sql.append(sql_row)  # 將 SQL 插入語句添加到列表中  
    
# 將所有的 SQL 語句保存到一個文件中，例如 "output.sql"  
with open('output.sql', 'w') as f:  
    for s in sql:  
        f.write(s + '\n')  # 在每個 SQL 語句后添加一個換行符

除此之外，還可以使用 f'' 函數批量生成SQL插入語句，這部分SQL語句是可以直接復制粘貼在SQL軟件中實際運行的，更快捷地寫插入SQL語句的代碼，代碼生成如下。

sql=''
for i,r in df_select.iterrows():
    r_sql=f"INSERT INTO `TIOBE` (`Dec 2023`,`Dec 2022`,`Programming Language.1`,`Ratings`,`Change.1`)\nVALUES('{r['Dec 2023']}','{r['Dec 2022']}','{r['Programming Language.1']}','{r['Ratings']}','{r['Change.1']}',)"
    sql=sql + r_sql + ';' + '\n'
print(sql)

通過使用適當的方法，從TIOBE排行榜抓取數據并將其寫入數據庫是一個相對簡單的過程，并且可以定期更新數據庫，以確保數據的實時性和準確性，如果有任何其他問題或需要進一步的幫助，可在評論區留言~

在線咨詢

上一篇：html開發筆記18-實戰-繪制第一個html表格
下一篇：十萬字解析java免查殺合集

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商