继: Linux shell 脚本编程-实战篇(一)
2. 创建与数据库、Web及电子邮件相关的脚本
2.1 MySQL 数据库
2.1.1 MySQL 数据库安装
到 http://repo.mysql.com/ 找到合适的 MySQL 版本的 YUM 库 rpm 安装包,复制下载地址,然后执行下面指令安装 YUM 库:
[devalone@devalone mysql]$ sudo dnf install -y http://repo.mysql.com/mysql57-community-release-fc24.rpm
检验 YUM 库已成功安装:
[devalone@devalone mysql]$ cat /etc/yum.repos.d/mysql-community.repo
[mysql-connectors-community]
name=MySQL Connectors Community
baseurl=http://repo.mysql.com/yum/mysql-connectors-community/fc/$releasever/$basearch/
enabled=1
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-mysql
[mysql-tools-community]
name=MySQL Tools Community
baseurl=http://repo.mysql.com/yum/mysql-tools-community/fc/$releasever/$basearch/
enabled=1
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-mysql
# Enable to use MySQL 5.6
[mysql56-community]
name=MySQL 5.6 Community Server
enabled=0
baseurl=http://repo.mysql.com/yum/mysql-5.6-community/fc/$releasever/$basearch/
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-mysql
[mysql57-community]
name=MySQL 5.7 Community Server
enabled=1
baseurl=http://repo.mysql.com/yum/mysql-5.7-community/fc/$releasever/$basearch/
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-mysql
[mysql80-community]
name=MySQL 8.0 Community Server
baseurl=http://repo.mysql.com/yum/mysql-8.0-community/fc/$releasever/$basearch/
enabled=0
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-mysql
[mysql-tools-preview]
name=MySQL Tools Preview
baseurl=http://repo.mysql.com/yum/mysql-tools-preview/fc/$releasever/$basearch/
enabled=0
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-mysql
确认:
[mysql57-community]
name=MySQL 5.7 Community Server
enabled=1
其它项目: enabled=0
执行以下指令安装 MySQL 服务器:
[devalone@devalone mysql]$ sudo dnf install mysql-community-server
上次元数据过期检查:0:16:05 前,执行于 Mon Jul 16 11:33:57 2018。
依赖关系解决。
==================================================================================================================================
Package 架构 版本 仓库 大小
==================================================================================================================================
安装:
mecab x86_64 0.996-1.fc24.4 fedora 386 k
mecab-ipadic x86_64 2.7.0.20070801-12.fc24.1 fedora 11 M
mysql-community-client x86_64 5.7.19-1.fc24 mysql57-community 25 M
mysql-community-common x86_64 5.7.19-1.fc24 mysql57-community 277 k
mysql-community-libs x86_64 5.7.19-1.fc24 mysql57-community 2.2 M
mysql-community-server x86_64 5.7.19-1.fc24 mysql57-community 135 M
事务概要
==================================================================================================================================
安装 6 软件包
总下载:174 M
安装大小:788 M
确定吗?[y/N]: y
输入 y 回车开始安装服务器...
安装完之后启动 mysqld 并配置自启动服务:
[devalone@devalone mysql]$ sudo systemctl start mysqld.service
[devalone@devalone mysql]$ sudo systemctl enable mysqld.service
[devalone@devalone mysql]$ sudo systemctl status mysqld.service
● mysqld.service - MySQL Server
Loaded: loaded (/usr/lib/systemd/system/mysqld.service; enabled; vendor preset: disabled)
Active: active (running) since 一 2018-07-16 12:11:27 CST; 4s ago
Docs: man:mysqld(8)
http://dev.mysql.com/doc/refman/en/using-systemd.html
Process: 3544 ExecStart=/usr/sbin/mysqld --daemonize --pid-file=/var/run/mysqld/mysqld.pid $MYSQLD_OPTS (code=exited, status=0/S
Process: 3465 ExecStartPre=/usr/bin/mysqld_pre_systemd (code=exited, status=0/SUCCESS)
Main PID: 3547 (mysqld)
Tasks: 27 (limit: 512)
CGroup: /system.slice/mysqld.service
└─3547 /usr/sbin/mysqld --daemonize --pid-file=/var/run/mysqld/mysqld.pid
首次启动后,查看 MySQL 日志找到 root 账户的临时密码:
[devalone@devalone mysql]$ sudo grep 'temporary password' /var/log/mysqld.log
2018-07-16T04:11:08.456975Z 1 [Note] A temporary password is generated for root@localhost: 0I#ClXjke4F8
以 root 临时密码登录:
[devalone@devalone mysql]$ mysql -uroot -p
Enter password:
输入查找到的临时密码登录到 MySQL 系统。登录之后第一件事就是修改 root 账户密码:
mysql> ALTER USER 'root'@'localhost' IDENTIFIED BY '1235678';
Query OK, 0 rows affected (0.00 sec)
退出 mysql,以新密码重新登录:
mysql> exit
Bye
[devalone@devalone mysql]$ mysql -uroot -p
Enter password:
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 5
Server version: 5.7.19 MySQL Community Server (GPL)
2.1.2 使用 MySQL 数据库
-----------------------------------------------------------------------------------------------------------------------------------------
mysql 客户端程序允许通过用户账户和密码连到网络中任何地方的 MySQL 数据库服务器。默认情况下,如果在命令行上输入 mysql,且不加任何参数,它会
试图用 Linux 登录用户名连接运行在本地 Linux 系统上的 MySQL服务器。
通常还是创建一个应用程序专用的账户比较安全,不要用 MySQL 服务器上的 root 用户账户。这样可以针对应用程序用户实施访问限制,即便应用程序出现
问题,在必要时也可以删除或重建。可以使用 -u 参数指定登录用户名。
创建用户:
mysql> CREATE USER 'devalone'@'%' IDENTIFIED BY '12345678' ;
Query OK, 0 rows affected (0.00 sec)
2.1.2.1 mysql命令
-----------------------------------------------------------------------------------------------------------------------------------------
mysql 程序使用两种不同类型的命令:
□ 特殊的mysql命令
□ 标准SQL语句
mysql 程序使用它自有的一组命令,方便用户控制环境和提取关于 MySQL 服务器的信息。这些命令要么是全名(例如 status),要么是简写形式(例如\s)。
可以从 mysql 命令提示符中直接使用命令的完整形式或简形式。
示例:
mysql> \s
--------------
mysql Ver 14.14 Distrib 5.7.19, for Linux (x86_64) using EditLine wrapper
Connection id: 5
Current database:
Current user: root@localhost
SSL: Not in use
Current pager: stdout
Using outfile: ''
Using delimiter: ;
Server version: 5.7.19 MySQL Community Server (GPL)
Protocol version: 10
Connection: Localhost via UNIX socket
Server characterset: latin1
Db characterset: latin1
Client characterset: utf8
Conn. characterset: utf8
UNIX socket: /var/lib/mysql/mysql.sock
Uptime: 34 min 19 sec
Threads: 1 Questions: 13 Slow queries: 0 Opens: 112 Flush tables: 1 Open tables: 105 Queries per second avg: 0.006
--------------
mysql 程序实现了 MySQL 服务器支持的所有标准SQL(Structured Query Language,结构化查询语言)命令。mysql程序实现的一条 SQL 命令 SHOW,可以
利用这条命令提取 MySQL 服务器的相关信息,如创建的数据库和表:
mysql> SHOW DATABASES;
+--------------------+
| Database |
+--------------------+
| information_schema |
| mysql |
| performance_schema |
| sys |
+--------------------+
4 rows in set (0.00 sec)
mysql> USE mysql;
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A
Database changed
mysql> SHOW TABLES;
+---------------------------+
| Tables_in_mysql |
+---------------------------+
| columns_priv |
| db |
| engine_cost |
| event |
| func |
| general_log |
| gtid_executed |
| help_category |
| help_keyword |
| help_relation |
| help_topic |
| innodb_index_stats |
| innodb_table_stats |
| ndb_binlog_index |
| plugin |
| proc |
| procs_priv |
| proxies_priv |
| server_cost |
| servers |
| slave_master_info |
| slave_relay_log_info |
| slave_worker_info |
| slow_log |
| tables_priv |
| time_zone |
| time_zone_leap_second |
| time_zone_name |
| time_zone_transition |
| time_zone_transition_type |
| user |
+---------------------------+
31 rows in set (0.00 sec)
在这个例子中,用 SQL 命令 SHOW 来显示当前在 MySQL 服务器上配置过的数据库,然后用 SQL 命令 USE 来连接到单个数据库。mysql 会话一次只能连一个
数据库。
在每个命令后面都加一个分号。在 mysql 程序中,分号(或者 \g)表明命令的结束。如果不用分号,它会提示输入更多数据。
在处理长命令时,这个功能很有用。可以在一行输入命令的一部分,按下回车键,然后在下一行继续输入。这样一条命令可以占任意多行,直到用分号表明
命令结束。
2.1.2.2 创建数据库
-----------------------------------------------------------------------------------------------------------------------------------------
MySQL 服务器将数据组织成数据库。数据库通常保存着单个应用程序的数据,与用这个数据库服务器的其他应用互不相关。为每个 shell 脚本应用创建一个
单独的数据库有助于避免数据混用。
创建一个新的数据库要用如下 SQL 语句:
CREATE DATABASE name;
示例:
mysql> CREATE DATABASE mytest;
Query OK, 1 row affected (0.01 sec)
mysql> SHOW DATABASES;
+--------------------+
| Database |
+--------------------+
| information_schema |
| mysql |
| mytest |
| performance_schema |
| sys |
+--------------------+
5 rows in set (0.00 sec)
2.1.2.3 创建用户账户
-----------------------------------------------------------------------------------------------------------------------------------------
一直以 root 管理员账户连接到 MySQL 服务器。这个账户可以完全控制所有的 MySQL 服务器对象。在普通应用中使用 MySQL 的 root 账户是极其危险的。
如果有安全漏洞或有人弄到了 root 用户账户的密码,各种糟糕事情都可能发生在系统(以及数据)上。
为了阻止这种情况的发生,明智的做法是在 MySQL 上创建一个仅对应用中所涉及的数据库有权限的独立用户账户。可以用 GRANT SQL 语句来完成对已创建
账户的授权,也可以一次性完成创建用户及授权。
授权:
GRANT privileges ON databasename.tablename TO 'username'@'host'
创建账户并授权:
GRANT privileges ON databasename.tablename TO 'username'@'host' IDENTIFIED BY 'password'
示例:
mysql> GRANT CREATE,SELECT,INSERT,DELETE,UPDATE ON mytest.* TO 'devalone'@'%';
Query OK, 0 rows affected (0.00 sec)
第一部分定义了用户账户对数据库有哪些权限。这条语句允许用户查询数据库数据(select权限)、插入新的数据记录以及删除和更新已有数据记录。
test.* 项定义了权限作用的数据库和表。通过下面的格式指定:
database.table
在指定数据库和表时可以使用通配符。这种格式会将指定的权限作用在名为 test 的数据库中的所有表上。
最后,你可以指定这些权限应用于哪些用户账户。grant 命令的便利之处在于,如果用户账户不存在,它会创建。IDENTIFIED BY 部分允许为新用户账户设定
默认密码。
可以直接在 mysql 程序中测试新用户账户:
[devalone@devalone mysql]$ mysql mytest -u devalone -p
Enter password:
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 8
Server version: 5.7.19 MySQL Community Server (GPL)
Copyright (c) 2000, 2017, Oracle and/or its affiliates. All rights reserved.
Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.
Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.
mysql>
第一个参数指定使用的默认数据库(mytest),-u 选项定义了登录的用户,-p 用来提示输入密码。输入 devalone 用户账户的密码后,就连到了服务器。
2.1.2.4 创建数据表
-----------------------------------------------------------------------------------------------------------------------------------------
MySQL 是一种关系数据库(relational database)。在关系数据库中,数据按照字段、记录和表进行组织。数据字段是信息的单个组成部分,比如员工的姓
或工资。记录是相关数据字段的集合,比如员工ID号、姓、名、地址和工资。每条记录都代表一组数据字段。
表含有保存相关数据的所有记录。可以用一个 Employees 表来保存每个员工的记录:
要在数据库中新建一张新表,使用 SQL 的 CREATE TABLE 命令:
mysql> CREATE TABLE employees (
-> empid int not null,
-> lastname varchar(30),
-> firstname varchar(30),
-> salary float,
-> primary key (empid));
Query OK, 0 rows affected (0.25 sec)
mysql> SHOW TABLES ;
+------------------+
| Tables_in_mytest |
+------------------+
| employees |
+------------------+
1 row in set (0.00 sec)
2.1.2.5 插入和删除数据
-----------------------------------------------------------------------------------------------------------------------------------------
使用 SQL 命令 INSERT 语句向表中插入新的记录。每条 INSERT 语句都必须指定数据字段值来供 MySQL 服务器接受该记录。
INSERT 语句格式如下:
INSERT INTO table VALUES (...)
每个数据字段的值都用逗号分开。
mysql> INSERT INTO employees VALUES (1, 'Blum', 'Rich', 25000.00);
Query OK, 1 row affected (0.06 sec)
要从表中删除数据,可以用 SQL 命令 DELETE 语句:
DELETE FROM table;
其中 table 指定了要从中删除记录的表。这个命令有个小问题:它会删除该表中所有记录。
要想只删除其中一条或多条数据行,必须用 WHERE 子句。WHERE 子句允许创建一个过滤器来指定删除哪些记录。
示例:
mysql> DELETE FROM employees WHERE empid = 2;
Query OK, 1 row affected (0.04 sec)
2.1.2.6 查询数据
-----------------------------------------------------------------------------------------------------------------------------------------
所有查询都是用 SQL 命令 SELECT 语句来完成。SELECT命令非常强大,但用起来也很复杂。
SELECT 语句的基本格式如下:
SELECT datafields FROM table
datafields 参数是一个用逗号分开的数据字段名称列表,指明了希望查询返回的字段。如果要提取所有的数据字段值,可以用星号*作通配符。
示例:
mysql> SELECT * FROM employees;
+-------+----------+------------+--------+
| empid | lastname | firstname | salary |
+-------+----------+------------+--------+
| 1 | Blum | Rich | 25000 |
| 2 | Blum | Barbara | 45000 |
| 3 | Blum | Katie Jane | 34500 |
| 4 | Blum | Jessica | 52340 |
+-------+----------+------------+--------+
4 rows in set (0.00 sec)
可以用一个或多个修饰符定义数据库服务器如何返回查询数据。下面列出了常用的修饰符:
□ WHERE :显示符合特定条件的数据行子集。
□ ORDER BY :以指定顺序显示数据行。
□ LIMIT :只显示数据行的一个子集。
WHERE 子句是最常用的 SELECT 语句修饰符。它允许你指定查询结果的过滤条件。
示例:
mysql> SELECT * FROM employees WHERE salary > 40000;
+-------+----------+-----------+--------+
| empid | lastname | firstname | salary |
+-------+----------+-----------+--------+
| 2 | Blum | Barbara | 45000 |
| 4 | Blum | Jessica | 52340 |
+-------+----------+-----------+--------+
2 rows in set (0.00 sec)
MySQL 作为成功的典型开源关系型数据库系统,具有丰富数据管理能力,详细信息参考其官网专业文档:
https://dev.mysql.com/doc/
2.1.3 在脚本中使用数据库
-----------------------------------------------------------------------------------------------------------------------------------------
现在已经有了一个可以正常工作的数据库,可以将精力放回 shell 脚本编程了。
2.1.3.1 登录到服务器
-----------------------------------------------------------------------------------------------------------------------------------------
如果为自己的 shell 脚本在 MySQL 中创建了一个特定的用户账户,需要使用 mysql命令,以该用户的身份登录。实现的方法有好几种,其中一种是使用 -p
选项,在命令行中加入密码:
mysql mytest -u devalone –p 12345678
不过这并不是一个好做法。所有能够访问脚本的人都会知道数据库的用户账户和密码。
要解决这个问题,可以借助 mysql 程序所使用的一个特殊配置文件。mysql 程序使用 $HOME/.my.cnf 文件来读取特定的启动命令和设置。其中一项设置是
用户启动的 mysql 会话的默认密码。
[devalone@devalone ~]$ cat .my.cnf
[client]
password = 12345678
[devalone@devalone ~]$ chmod 400 .my.cnf
可以使用 chmod 命令将 .my.cnf文件限制为只能由本人浏览。
测试登录:
[devalone@devalone ~]$ mysql mytest -u test
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A
...
这样就不用在 shell 脚本中将密码写在命令行上了。
2.1.3.2 向服务器发送命令
-----------------------------------------------------------------------------------------------------------------------------------------
在建立起到服务器的连接后,接着就可以向数据库发送命令进行交互。有两种实现方法:
□ 发送单个命令并退出;
□ 发送多个命令。
要发送单个命令,必须将命令作为 mysql 命令行的一部分。对于 mysql 命令,可以用 -e 选项。
示例:
[devalone@devalone 25]$ cat mtest1.sh
#!/bin/bash
# send a command to the MySQL server
MYSQL=$(which mysql)
$MYSQL mytest -u devalone -p -e 'select * from employees'
运行:
[devalone@devalone 25]$ ./mtest1.sh
Enter password:
+-------+----------+------------+--------+
| empid | lastname | firstname | salary |
+-------+----------+------------+--------+
| 1 | Blum | Rich | 25000 |
| 2 | Blum | Barbara | 45000 |
| 3 | Blum | Katie Jane | 34500 |
| 4 | Blum | Jessica | 52340 |
+-------+----------+------------+--------+
数据库服务器会将 SQL 命令的结果返回给 shell 脚本,脚本会将它们显示在 STDOUT 中。
如果需要发送多条 SQL 命令,可以利用文件重定向。要在 shell 脚本中重定向多行内容,就必须定义一个结束(end of file)字符串。结束字符串指明了
重定向数据的开始和结尾。
示例:
[devalone@devalone 25]$ cat mtest2.sh
#!/bin/bash
# sending multiple commands to MySQL
MYSQL=$(which mysql)
$MYSQL mytest -u devalone -p <
select * from employees where salary > 40000;
EOF
运行:
[devalone@devalone 25]$ ./mtest2.sh
Enter password:
Tables_in_mytest
employees
empid lastname firstname salary
2 Blum Barbara 45000
4 Blum Jessica 52340
shell 会将 EOF分隔符之间的所有内容都重定向给 mysql 命令。mysql 命令会执行这些命令行,就像你在提示符下亲自输入的一样。用了这种方法,可以
根据需要向 MySQL 服务器发送任意多条命令。
可以在脚本中使用任何类型的 SQL 命令,如 INSERT 语句。
示例:
[devalone@devalone 25]$ cat mtest3.sh
#!/bin/bash
# send data to the table in the MySQL database
MYSQL=$(which mysql)
if [ $# -ne 4 ]
then
echo "Usage: mtest3 empid lastname firstname salary"
else
statement="INSERT INTO employees VALUES ($1, '$2', '$3', $4)"
$MYSQL mytest -u devalone -p << EOF
$statement
EOF
if [ $? -eq 0 ]
then
echo Data successfully added
else
echo Problem adding data
fi
fi
运行:
[devalone@devalone 25]$ ./mtest3.sh
Usage: mtest3 empid lastname firstname salary
[devalone@devalone 25]$ ./mtest3.sh 5 Blum Jasper 100000
Enter password:
Data successfully added
这个例子演示了使用这种方法的一些注意事项。在指定结束字符串时,它必须是该行唯一的内容,并且该行必须以这个字符串开头。如果将 EOF 文本缩进
以和其余的 if-then 缩进对齐,它就不会起作用了。
注意,在 INSERT语句里,在文本值周围用了单引号,在整个 INSERT 语句周围用了双引号。一定不要弄混引用字符串值的引号和定义脚本变量文本的引号。
还有,使用 $? 特殊变量来测试 mysql 程序的退出状态码的。它有助于判断命令是否成功执行。
2.1.3.3 格式化数据
-----------------------------------------------------------------------------------------------------------------------------------------
mysql 命令的标准输出并不太适合提取数据。如果要对提取到的数据进行处理,需要做一些特别的操作。
提取数据库数据的第一步是将 mysql 命令的输出重定向到一个环境变量中。可以在其他命令中使用输出信息。
示例:
[devalone@devalone 25]$ cat mtest4.sh
#!/bin/bash
# redirecting SQL output to a variable
MYSQL=$(which mysql)
dbs=$($MYSQL mytest -u devalone -p -Bse 'show databases')
for db in $dbs
do
echo $db
done
运行:
[devalone@devalone 25]$ ./mtest4.sh
Enter password:
information_schema
mytest
这个例子在 mysql 程序的命令行上用了两个额外参数。-B 选项指定 mysql 程序工作在批处理模式运行,-s(silent)选项用于禁止输出列标题和格式化
符号。
通过将 mysql 命令的输出重定向到一个变量,此例可以逐步输出每条返回记录里的每个值。
mysql 程序还支持另外一种可扩展标记语言(Extensive Markup Language,XML)的流行格式。这种语言使用和 HTML类似的标签来标识数据名和值。
对于 mysql 程序,可以用 -X 命令行选项来输出。
示例:
[devalone@devalone 25]$ mysql mytest -u devalone -p -X -e 'SELECT * FROM employees WHERE empid=1'
Enter password:
2.2 使用 Web
-----------------------------------------------------------------------------------------------------------------------------------------
作为一款于1992年由堪萨斯大学的学生编写的基于文本的浏览器,Lynx 程序的历史几乎和互联网一样悠久。因为该浏览器是基于文本的,所以它可以直接从
终端会话中访问网站,只不过 Web 页面上的那些漂亮图片被替换成了 HTML 文本标签。这样就可以在几乎所有类型的 Linux 终端上浏览互联网了。
Lynx 使用标准键盘按键浏览网页。链接会在Web页面上以高亮文本的形式出现。使用向右方向键可以跟随一个链接到下一个Web页面。
Lynx程序还提供了一个功能,允许将 Web 页面的文本内容转储到 STDOUT 中。这个功能非常适合用来挖掘 Web 页面中包含的数据。
多个知名的搜索引擎利用 lynx 协助工作,如下所示(2014-1-10 统计):
□ Ask.com
□ Baidu (Chinese)
□ Bing
□ Dogpile
□ goo (Japanese)
□ Google
□ Hakia
□ IceRocket
□ Indeed
□ Lexxe
□ Rambler (Russian)
□ Search.com
□ WebCrawler
□ Yahoo!
可见,lynx 的实用价值是非常高的。
2.2.1 安装 Lynx
-----------------------------------------------------------------------------------------------------------------------------------------
尽管 Lynx 程序有点古老,但它的开发仍然很活跃。Lynx 的最新版本是 2018 年7月8日发布的 v2.8.9,新版本 2.9.0 正在研发中。其主页网址:
http://lynx.invisible-island.net/
鉴于 Lynx 在 shell 脚本程序员中十分流行,许多 Linux 发行版都将它作为默认程序安装。如果未安装,使用当前系统的包管理器安装。
下面是 Fedora 24 的安装指令:
[devalone@devalone ~]$ sudo dnf install lynx
2.2.2 lynx 命令行
-----------------------------------------------------------------------------------------------------------------------------------------
lynx 命令行命令极其擅长从远程网站上提取信息。当用浏览器查看 Web页面时,只是看到了传送到浏览器中信息的一部分。Web页面由三种类型的数据组成:
□ HTTP头部
□ cookie
□ HTML内容
HTTP 头部提供了连接中传送的数据类型、发送数据的服务器以及采用的连接安全类型的相关信息。如果发送的是特殊类型的数据,比如视频或音频剪辑,
服务器会将其在 HTTP 头部中标示出来。Lynx 程序允许查看 Web 页面会话中发送的所有 HTTP 头部。
网站用 cookie 存储有关网站的访问数据,以供将来使用。每个站点都能存储信息,但只能访问它自己设置的信息。lynx 命令提供了一些选项来查看 Web
服务器发送的 cookie,还可以接受或拒绝服务器发过来的特定 cookie。
Lynx 程序支持三种不同的格式来查看 Web 页面实际的 HTML 内容:
□ 在终端会话中利用 curses 图形库显示文本图形;
□ 文本文件,文件内容是从 Web 页面中转储的原始数据;
□ 文本文件,文件内容是从 Web 页面中转储的原始 HTML 源码。
对于 shell脚本,原始数据或 HTML 源码可是一座金山。一旦获得了从网站上检索到的信息,就能轻松地从中提取每一条信息。
Lynx 程序将它的本职工作发挥到了极致。但随之而来的是复杂性,尤其是对命令行参数来说。Lynx 程序是 Linux 世界中较复杂的程序之一。
lynx 命令的基本格式如下:
lynx options [URL | File]
其中 URL 是要连接的 HTTP 或 HTTPS 地址,options 则是一个或多个选项。这些选项可以在 Lynx 与远程网站交互时改变它的行为。许多命令行参数定义
了 Lynx 的行为,可以用来控制全屏模式下的 Lynx,允许在浏览 Web 页面时对其进行定制。
通过 lynx -help 命令获取更完整的帮助信息:
[devalone@devalone wpan123.com]$ lynx -help
USAGE: lynx [options] [file]
Options are:
- receive options and arguments from stdin
-accept_all_cookies
accept cookies without prompting if Set-Cookie handling
is on (off)
-anonymous apply restrictions for anonymous account,
see also -restrictions
-assume_charset=MIMEname
charset for documents that don't specify it
-assume_local_charset=MIMEname
charset assumed for local files
-assume_unrec_charset=MIMEname
use this instead of unrecognized charsets
-auth=id:pw authentication information for protected documents
-base prepend a request URL comment and BASE tag to text/html
outputs for -source dumps
-bibhost=URL local bibp server (default http://bibhost/)
-book use the bookmark page as the startfile (off)
-buried_news toggles scanning of news articles for buried references (on)
-cache=NUMBER NUMBER of documents cached in memory
-case enable case sensitive user searching (off)
-center toggle center alignment in HTML TABLE (off)
-cfg=FILENAME specifies a lynx.cfg file other than the default
-child exit on left-arrow in startfile, and disable save to disk
-child_relaxed exit on left-arrow in startfile (allows save to disk)
-cmd_log=FILENAME log keystroke commands to the given file
-cmd_script=FILENAME
read keystroke commands from the given file
(see -cmd_log)
-connect_timeout=N
set the N-second connection timeout (18000)
-cookie_file=FILENAME
specifies a file to use to read cookies
-cookie_save_file=FILENAME
specifies a file to use to store cookies
-cookies toggles handling of Set-Cookie headers (on)
-core toggles forced core dumps on fatal errors (off)
-crawl with -traversal, output each page to a file
with -dump, format output as with -traversal, but to stdout
-curses_pads uses curses pad feature to support left/right shifting (on)
-debug_partial incremental display stages with MessageSecs delay (off)
-default_colors use terminal default foreground/background colors (on)
-delay=NNN set NNN-second delay at statusline message (0.000)
-display=DISPLAY set the display variable for X exec'ed programs
-display_charset=MIMEname
charset for the terminal output
-dont_wrap_pre inhibit wrapping of text in
when -dump'ing and
-crawl'ing, mark wrapped lines in interactive session (off)
-dump dump the first file to stdout and exit
-editor=EDITOR enable edit mode with specified editor
-emacskeys enable emacs-like key movement (off)
-enable_scrollback
toggles compatibility with comm programs' scrollback
keys (may be incompatible with some curses packages) (off)
-error_file=FILE write the HTTP status code here
-force_empty_hrefless_a
force HREF-less 'A' elements to be empty (close them as
soon as they are seen) (off)
-force_html forces the first document to be interpreted as HTML (off)
-force_secure toggles forcing of the secure flag for SSL cookies (off)
-forms_options toggles forms-based vs old-style options menu (on)
-from toggle transmission of From headers (on)
-ftp disable ftp access (off)
-get_data user data for get forms, read from stdin,
terminated by '---' on a line
-head send a HEAD request (off)
-help print this usage message
-hiddenlinks=[option]
hidden links: options are merge, listonly, or ignore
-historical toggles use of '>' or '-->' as terminator for comments (off)
-homepage=URL set homepage separate from start page
-html5_charsets toggles use of HTML5 charset replacements (off)
-image_links toggles inclusion of links for all images (off)
-index=URL set the default index file to URL
-ismap toggles inclusion of ISMAP links when client-side
MAPs are present (off)
-justify do justification of text (off)
-link=NUMBER starting count for lnk#.dat files produced by -crawl (0)
-list_inline with -dump, forces it to show links inline with text (off)
-listonly with -dump, forces it to show only the list of links (off)
-localhost disable URLs that point to remote hosts (off)
-lss=FILENAME specifies a lynx.lss file other than the default
-mime_header include mime headers and force source dump
-minimal toggles minimal versus valid comment parsing (on)
-newschunksize=NUMBER
number of articles in chunked news listings
-newsmaxchunk=NUMBER
maximum news articles in listings before chunking
-nobold disable bold video-attribute
-nobrowse disable directory browsing
-nocc disable Cc: prompts for self copies of mailings (off)
-nocolor turn off color support
-nofilereferer disable transmission of Referer headers for file URLs (on)
-nolist disable the link list feature in dumps (off)
-nolog disable mailing of error messages to document owners (on)
-nomargins disable the right/left margins in the default
style-sheet (off)
-nomore disable -more- string in statusline messages
-nonrestarting_sigwinch
make window size change handler non-restarting (off)
-nonumbers disable the link/form numbering feature in dumps (off)
-nopause disable forced pauses for statusline messages
-noprint disable some print functions, like -restrictions=print (off)
-noredir don't follow Location: redirection (off)
-noreferer disable transmission of Referer headers (off)
-noreverse disable reverse video-attribute
-nostatus disable the miscellaneous information messages (off)
-notitle disable the title at the top of each page (off)
-nounderline disable underline video-attribute
-number_fields force numbering of links as well as form input fields (off)
-number_links force numbering of links (off)
-partial toggles display partial pages while downloading (on)
-partial_thres [=NUMBER]
number of lines to render before repainting display
with partial-display logic (-1)
-passive-ftp toggles passive ftp connection (on)
-pauth=id:pw authentication information for protected proxy server
-popup toggles handling of single-choice SELECT options via
popup windows or as lists of radio buttons (off)
-post_data user data for post forms, read from stdin,
terminated by '---' on a line
-preparsed show parsed text/html with -source and in source view
to visualize how lynx behaves with invalid HTML (off)
-prettysrc do syntax highlighting and hyperlink handling in source
view (off)
-print enable print functions (DEFAULT), opposite of -noprint (on)
-pseudo_inlines toggles pseudo-ALTs for inlines with no ALT string (on)
-raw toggles default setting of 8-bit character translations
or CJK mode for the startup character set (off)
-realm restricts access to URLs in the starting realm (off)
-read_timeout=N set the N-second read-timeout (18000)
-reload flushes the cache on a proxy server
(only the first document affected) (off)
-restrictions=[options]
use -restrictions to see list
-resubmit_posts toggles forced resubmissions (no-cache) of forms with
method POST when the documents they returned are sought
with the PREV_DOC command or from the History List (off)
-rlogin disable rlogins (off)
-scrollbar toggles showing scrollbar (off)
-scrollbar_arrow toggles showing arrows at ends of the scrollbar (on)
-selective require .www_browsable files to browse directories
-session=FILENAME resumes from specified file on startup and
saves session to that file on exit
-sessionin=FILENAME
resumes session from specified file
-sessionout=FILENAME
saves session to specified file
-short_url enables examination of beginning and end of long URL in
status line (off)
-show_cfg Show `LYNX.CFG' setting (off)
-show_cursor toggles hiding of the cursor in the lower right corner (on)
-show_rate toggles display of transfer rate (on)
-soft_dquotes toggles emulation of the old Netscape and Mosaic
bug which treated '>' as a co-terminator for
double-quotes and tags (off)
-source dump the source of the first file to stdout and exit
-stack_dump disable SIGINT cleanup handler (off)
-startfile_ok allow non-http startfile and homepage with -validate (off)
-stderr write warning messages to standard error when -dump
or -source is used (off)
-stdin read startfile from standard input (off)
-tagsoup use TagSoup rather than SortaSGML parser (off)
-telnet disable telnets (off)
-term=TERM set terminal type to TERM
-tlog toggles use of a Lynx Trace Log for the current
session (on)
-tna turn on "Textfields Need Activation" mode (off)
-trace turns on Lynx trace mode (off)
-trace_mask customize Lynx trace mode (0)
-traversal traverse all http links derived from startfile
-trim_input_fields
trim input text/textarea fields in forms (off)
-underline_links toggles use of underline/bold attribute for links (off)
-underscore toggles use of _underline_ format in dumps (off)
-unique_urls toggles use of unique-urls setting for -dump and -listonly options (off)
-use_mouse turn on mouse support (off)
-useragent=Name set alternate Lynx User-Agent header
-validate accept only http URLs (meant for validation)
implies more restrictions than -anonymous, but
goto is allowed for http and https (off)
-verbose toggles [LINK], [IMAGE] and [INLINE] comments
with filenames of these images (on)
-version print Lynx version information
-vikeys enable vi-like key movement (off)
-width=NUMBER screen width for formatting of dumps (default is 80)
-with_backspaces emit backspaces in output if -dumping or -crawling
(like 'man' does) (off)
-xhtml-parsing enable XHTML 1.0 parsing (off)
2.2.3 Lynx 配置文件
-----------------------------------------------------------------------------------------------------------------------------------------
在正常的浏览环境中,通常会发现有几组命令行参数非常有用。不用每次使用 Lynx 时都在命令行上将这些参数输入一遍,Lynx 提供了一个通用配置文件来
定义 Lynx 的基本行为。lynx 命令会从配置文件中读取大量的参数设置。默认情况下, 这个文件位于 /usr/local/lib/lynx.cfg,不过有许多 Linux发行版将其改放到了/etc目录
下(/etc/lynx.cfg)(Ubuntu 发行版将 lynx.cfg 放到了 /etc/lynx-curl 目录中)。使用命令行搜索:
[devalone@devalone ~]$ whereis lynx.cfg
lynx: /usr/bin/lynx /etc/lynx.lss /etc/lynx.cfg /usr/share/man/man1/lynx.1.gz当前系统 Fedora 24 位于 /etc/lynx.cfg
lynx.cfg 配置文件将相关的参数分组到不同的区域中,这样更容易找到参数。配置文件中条目的格式为:
PARAMETER:value
其中 PARAMETER 是参数的全名(通常都是用大写字母,但也不总是如此),value 是跟参数关联的值。浏览一下这个文件,会发现许多参数都跟命令行参数类似,比如 ACCEPT_ALL_COOKIES 参数就等同于设置了 -accept_all_cookies 命令行参数。
还有一些配置参数功能类似,但名称不同。FORCE_SSL_COOKIES_SECURE 配置文件参数设置可以用 -force_secure 命令行参数将其覆盖掉。
还有少数配置参数并没有对应的命令行参数。这些值只能在配置文件中设定。
最常见的不能在命令行上设置的配置参数是代理服务器。有些网络(尤其是公司网络)使用代理服务器作为客户端浏览器和目标网站的桥梁。客户端浏览器
不能直接向远程 Web 服务器发送 HTTP 请求,而是必须将它们的请求发到代理服务器上,然后由代理服务器将请求转发给远程 Web服务器,获取结果,再将
结果回传给客户端浏览器。用来定义代理服务器的配置参数有:
http_proxy:http://some.server.dom:port/
https_proxy:http://some.server.dom:port/
ftp_proxy:http://some.server.dom:port/
gopher_proxy:http://some.server.dom:port/
news_proxy:http://some.server.dom:port/
newspost_proxy:http://some.server.dom:port/
newsreply_proxy:http://some.server.dom:port/
snews_proxy:http://some.server.dom:port/
snewspost_proxy:http://some.server.dom:port/
snewsreply_proxy:http://some.server.dom:port/
nntp_proxy:http://some.server.dom:port/
wais_proxy:http://some.server.dom:port/
finger_proxy:http://some.server.dom:port/
cso_proxy:http://some.server.dom:port/
no_proxy:host.domain.dom可以为任何 Lynx 支持的网络协议定义不同的代理服务器。NO_PROXY 参数是逗号分隔的网站列表。对于列表中的这些网站,不使用代理服务器而是直接访问。
2.2.4 从 Lynx 中获取数据
-----------------------------------------------------------------------------------------------------------------------------------------
在 shell 脚本中使用 Lynx 时,大多数情况下只是要提取 Web页面中的某条(或某几条)特定信息。完成这个任务的方法称作屏幕抓取(screen scraping)。
在屏幕抓取过程中,要尝试通过编程寻找图形化屏幕上某个特定位置的数据,这样才能获取它并在脚本中使用。用 lynx 进行屏幕抓取的最简单办法是用 -dump 选项。这个选项不会在终端屏幕上显示 Web 页面。相反,它会将 Web 页面文本数据直接显示在STDOUT上。
示例: 查看 lynx 帮助主页面
[devalone@devalone ~]$ lynx -dump http://lynx.invisible-island.net/lynx_help/lynx_help_main.html
__________________________________________________________________[1]https://lynx.invisible-island.net/[2]lynx_help/
__________________________________________________________________* [3](top)
* [4]Lynx Users Guide
* [5]Key-stroke Commands
* [6]Line Editor
* [7]Supported URLs
* About
+ [8]Lynx
+ [9]Lynx-Dev
* Configuration
+ [10]by Category
+ [11]by NamesThe Lynx Help Page – quick-links and detailed documentation
Lynx help files (usually in your local directories):
These Lynx documents are part of your local configuration:
* [12]Lynx Users Guide — complete account of all Lynx features
* [13]Key-stroke Commands — quick outline of what various keys do
* [14]Line Editor — when entering URLs etc
* [15]Supported URLs — how Lynx handles various types of URL
* [16]About Lynx — credits, copyright etc
* [17]About Lynx-Dev — the developers & how to contact themOther sources of Lynx help:
The Lynx configuration guide may also be local.
* [18]lynx.cfg options — a reference for advanced configurations
* [19]lynx documentation — supplementary documentation
* [20]Lynx Help for Beginners — quick help on many common problems
* [21]Blynx — Speech-Friendly Help for the visually impairedWorld Wide Web Consortium documents:
* HTML — [22]5.1 — [23]4.0 — [24]3.2 — [25]3.0 — [26]2.0
* HTTP — [27]1.1 — [28]1.0
* XHTML — [29]1.0
* [30]Web Naming & Addressing Overview: URIs, URLs etc
* [31]HTML Internationalization
* [32]WWW Consortium: home pageHelp with HTML:
* [33]HTML 4.0 Reference
* [34]W3Schools
* [35]HTML Goodies
* [36]HTML Code Tutorial
* [37]HTML Cheat Sheet – A Simple Guide to HTMLHTML validation services:
* [38]W3C HTML Validation Service
* [39]WDG HTML ValidatorOther browsing software:
* [40]GNU wget — powerful & flexible non-interactive downloader
* [41]Pavuk — powerful & an even more-featured downloader
* [42]cURL — non-interactive downloader which supports HTTPS
* [43]snarf — small simple 1-file non-interactive downloaderHistorical interest
* [44]NCSA Mosaic
Search engines:
These work with Lynx as of 2014/01/10:
* [45]Ask.com
* [46]Baidu (Chinese)
* [47]Bing
* [48]Dogpile
* [49]goo (Japanese)
* [50]Google
* [51]Hakia
* [52]IceRocket
* [53]Indeed
* [54]Lexxe
* [55]Rambler (Russian)
* [56]Search.com
* [57]WebCrawler
* [58]Yahoo!References
Visible links
1. http://lynx.invisible-island.net/
2. http://lynx.invisible-island.net/lynx_help/lynx_help_main.html
3. http://lynx.invisible-island.net/lynx_help/lynx_help_main.html
4. http://lynx.invisible-island.net/lynx_help/Lynx_users_guide.html
5. http://lynx.invisible-island.net/lynx_help/keystrokes/keystroke_help.html
6. http://lynx.invisible-island.net/lynx_help/keystrokes/edit_help.html
7. http://lynx.invisible-island.net/lynx_help/lynx_url_support.html
8. http://lynx.invisible-island.net/lynx_help/about_lynx.html
9. http://lynx.invisible-island.net/lynx_help/lynx-dev.html
10. http://lynx.invisible-island.net/lynx_help/cattoc.html
11. http://lynx.invisible-island.net/lynx_help/alphatoc.html
12. http://lynx.invisible-island.net/lynx_help/Lynx_users_guide.html
13. http://lynx.invisible-island.net/lynx_help/keystrokes/keystroke_help.html
14. http://lynx.invisible-island.net/lynx_help/keystrokes/edit_help.html
15. http://lynx.invisible-island.net/lynx_help/lynx_url_support.html
16. http://lynx.invisible-island.net/lynx_help/about_lynx.html
17. http://lynx.invisible-island.net/lynx_help/lynx-dev.html
18. http://lynx.invisible-island.net/lynx_help/cattoc.html
19. http://lynx.invisible-island.net/lynx_doc/
20. http://www.chass.utoronto.ca/~purslow/lhfb.html
21. http://leb.net/blinux/blynx/
22. http://www.w3.org/TR/html51/
23. http://www.w3.org/TR/REC-html40/
24. http://www.w3.org/TR/REC-html32
25. http://www.w3.org/MarkUp/html3/Contents.html
26. http://www.w3.org/MarkUp/html-spec/html-spec_toc.html
27. http://www.w3.org/Protocols/
28. http://www.isi.edu/in-notes/rfc1945.txt
29. http://www.w3.org/TR/xhtml1/
30. http://www.w3.org/Addressing/
31. http://www.w3.org/International/
32. http://www.w3.org/
33. http://www.htmlhelp.com/reference/html40/
34. http://www.w3schools.com/html/default.asp
35. http://www.htmlgoodies.com/primers/html/
36. http://www.htmlcodetutorial.com/
37. http://www.simplehtmlguide.com/cheatsheet.php
38. http://validator.w3.org/
39. http://www.htmlhelp.com/tools/validator/
40. http://wget.addictivecode.org/
41. http://www.pavuk.org/
42. http://curl.haxx.se/
43. http://www.xach.com/snarf/
44. http://web.archive.org/web/2005050785333/http://archive.ncsa.uiuc.edu/SDG/Software/Mosaic/MetaIndex.html
45. http://www.ask.com/
46. http://www.baidu.com/
47. http://www.bing.com/
48. http://www.dogpile.com/
49. http://labs.goo.ne.jp/
50. http://www.google.com/
51. http://hakia.com/
52. http://www.icerocket.com/
53. http://www.indeed.com/
54. http://www.lexxe.com/
55. http://www.rambler.ru/
56. http://www.search.com/
57. http://www.webcrawler.com/
58. http://www.yahoo.com/Hidden links:
60. http://lynx.invisible-island.net/lynx_help/lynx_help_main.html
每个链接都由一个标号标定,Lynx 在 Web 页面数据后显示了所有标号所指向的 URL 地址。这正是搜索引擎喜欢 lynx 的原因,有了 URL 列表,抓取内容
就好了。从 Web页面中获得了所有文本数据之后,可以利用 sed 编辑器和 gawk 程序来提取数据。
首先,找一些有意思的数据来收集。Yahoo!天气页面是找出全世界任何地区当前气候的不错来源。每个位置都用一个单独的 URL 来显示该城市的天气信息
(可以在浏览器中打开该站点并输入你的城市信息来获取所在地的特定 URL)。查看伊利诺伊州芝加哥市的天气情况的 lynx 命令如下:lynx -dump http://weather.yahoo.com/united-states/illinois/chicago-2379574/ >weather-chicago.txt
这条命令会从页面中转储出很多的数据。第一步是找到需要的准确信息。要做到这点,需将 lynx 命令的输出重定向到一个文件中,本例重定向到文本文件
weather-chicago.txt,然后在文件中查找数据。查看文件: 利用 cat -n 选项打印出行号,便于处理
[devalone@devalone 25]$ cat -n weather-chicago.txt
1 * Home
2 * [1]Mail
3 * [2]Tumblr
4 * [3]News
5 * [4]Sports
6 * [5]Finance
7 * [6]Entertainment
8 * [7]Lifestyle
9 * [8]Answers
10 * [9]Groups
11 * [10]Mobile
12 * [11]More
13
14 [12]Yahoo
15 Search
16 ____________________
17
18 (BUTTON) Search
19 *
20 *
21
22 The forecast is beautiful
23 Get the App
24
25 My Locations
26
27 Click star button to save cities
28
29 Around the World
30
31 * [13]New York
32 * [14]Los Angeles
33 * [15]Chicago
34 * [16]Houston
35 * [17]Philadelphia
36 * [18]San Francisco
37 * [19]Mexico City
38 * [20]Tokyo
39 * [21]Sao Paulo
40 * [22]London
41 * [23]Paris
42 * [24]Venice
43
44 Chicago
45
46 United States
47 (BUTTON)
48 (BUTTON)
49 Change location
50 Fair Mostly Clear
51 86°
52 67°
53 72°
54 (BUTTON) F (BUTTON) C
55 [25]© by teekay72 on
56
57 Forecast
58
59 [Temperature__]
60 * 12 AM Fair 72°
61 * 1 AM Clear 71°
62 * 2 AM Clear 71°
63 * 3 AM Clear 70°
64 * 4 AM Clear 70°
65 * 5 AM Clear 70°
66 * 6 AM Sunny 71°
67 * 7 AM Sunny 72°
68 * 8 AM Fair 74°
69 * 9 AM Fair 74°
70 * 10 AM Partly Cloudy 75°
71 * 11 AM Partly Cloudy 76°
72 * 12 PM Partly Cloudy 76°
73 * 1 PM Partly Cloudy 76°
74 * 2 PM Fair 76°
75 * 3 PM Fair 75°
76 * 4 PM Sunny 75°
77 * 5 PM Sunny 74°
78 * 6 PM Sunny 73°
79 * 7 PM Sunny 72°
80 * 8 PM Sunny 71°
81 * 9 PM Clear 70°
82 * 10 PM Clear 69°
83 * 11 PM Clear 68°
84 * 12 AM Clear 68°
85
86 Monday
87 Thunderstorms Precipitation: 100% 100%86°67°Night - Clear. Winds
88 variable at 7 to 11 mph (11.3 to 17.7 kph). The overnight low will be
89 70 °F (21.1 °C).Partly cloudy with a high of 76 °F (24.4 °C). Winds
90 variable at 9 to 11 mph (14.5 to 17.7 kph).
91 Tuesday
92 Sunny Precipitation: 0% 0%76°68°Sunny today with a high of 76 °F (24.4
93 °C) and a low of 68 °F (20.0 °C).
94 Wednesday
95 Fair Precipitation: 0% 0%74°66°Mostly sunny today with a high of 74 °F
96 (23.3 °C) and a low of 66 °F (18.9 °C).
97 Thursday
98 Mostly Cloudy Precipitation: 15% 15%80°66°Mostly cloudy today with a
99 high of 80 °F (26.7 °C) and a low of 66 °F (18.9 °C).
100 Friday
101 Thunderstorms Precipitation: 25% 25%80°71°Thunderstorms today with a
102 high of 80 °F (26.7 °C) and a low of 71 °F (21.7 °C). There is a 25%
103 chance of precipitation.
104 Saturday
105 Partly Cloudy Precipitation: 15% 15%77°69°Partly cloudy today with a
106 high of 77 °F (25.0 °C) and a low of 69 °F (20.6 °C).
107 Sunday
108 Partly Cloudy Precipitation: 10% 10%75°69°Partly cloudy today with a
109 high of 75 °F (23.9 °C) and a low of 69 °F (20.6 °C).
110 Monday
111 Partly Cloudy Precipitation: 5% 5%75°69°Partly cloudy today with a high
112 of 75 °F (23.9 °C) and a low of 69 °F (20.6 °C).
113 Tuesday
114 Partly Cloudy Precipitation: 5% 5%81°68°Partly cloudy today with a high
115 of 81 °F (27.2 °C) and a low of 68 °F (20.0 °C).
116 Wednesday
117 Partly Cloudy Precipitation: 5% 5%75°67°Partly cloudy today with a high
118 of 75 °F (23.9 °C) and a low of 67 °F (19.4 °C).
119 (BUTTON) 5 day (BUTTON) 10 day
120
121 Precipitation
122
123 Overnight
124 Early Morning
125 Morning
126 Afternoon
127 Precipitation: 0% 0%
128 Precipitation: 0% 0%
129 Precipitation: 0% 0%
130 Precipitation: 0% 0%
131
132 Wind & Pressure
133
134 Wind
135
136 4 mph NW
137 Barometer
138
139 29.4 inches
140
141 Details
142
143 Fair
144 * Feels like
145 77°
146 * Humidity
147 85%
148 * Visibility
149 10.00 miles
150 * UV Index
151 0 (Low)
152
153 Tonight - Clear. Winds variable at 7 to 11 mph (11.3 to 17.7 kph). The
154 overnight low will be 70 °F (21.1 °C).
155
156 Today - Partly cloudy with a high of 76 °F (24.4 °C). Winds variable at
157 9 to 11 mph (14.5 to 17.7 kph).
158
159 Sun & Moon
160
161 Waxing Crescent
162 Waxing Crescent
163 5:29 AM8:24 PM
164
165 Map
166
167 Satellite
168 (BUTTON) [spaceball.gif] (BUTTON) [spaceball.gif] (BUTTON)
169 [spaceball.gif]
170 [26]View interactive map
171
172 References
173
174 Visible links
175 1. https://mail.yahoo.com/?.intl=us&.lang=en-US
176 2. https://www.tumblr.com/
177 3. https://www.yahoo.com/news/
178 4. http://sports.yahoo.com/
179 5. http://finance.yahoo.com/
180 6. https://www.yahoo.com/entertainment/
181 7. https://www.yahoo.com/lifestyle/
182 8. https://answers.yahoo.com/
183 9. https://groups.yahoo.com/
184 10. https://mobile.yahoo.com/
185 11. https://everything.yahoo.com/
186 12. https://www.yahoo.com/news/
187 13. https://www.yahoo.com/news/weather/united-states/new-york/new-york-2459115
188 14. https://www.yahoo.com/news/weather/united-states/california/los-angeles-2442047
189 15. https://www.yahoo.com/news/weather/united-states/illinois/chicago-2379574
190 16. https://www.yahoo.com/news/weather/united-states/texas/houston-2424766
191 17. https://www.yahoo.com/news/weather/united-states/pennsylvania/philadelphia-2471217
192 18. https://www.yahoo.com/news/weather/united-states/california/san-francisco-2487956
193 19. https://www.yahoo.com/news/weather/mexico/distrito-federal/mexico-city-116545
194 20. https://www.yahoo.com/news/weather/japan/tokyo-prefecture/tokyo-1118370
195 21. https://www.yahoo.com/news/weather/brazil/sao-paulo/sao-paulo-455827
196 22. https://www.yahoo.com/news/weather/united-kingdom/england/london-44418
197 23. https://www.yahoo.com/news/weather/france/île-de-france/paris-615702
198 24. https://www.yahoo.com/news/weather/italy/veneto/venice-725746
199 25. https://www.flickr.com/photos/42198058@N04/10901600376
200 26. http://weather.com/weather/radar/interactive/l/41.88,-87.63
201
202 Hidden links:
203 28. https://www.yahoo.com/
204 29. https://mail.yahoo.com/?.intl=us&.lang=en-US&.partner=none&.src=weather
205 30. https://mobile.yahoo.com/weather/
其中:
44 Chicago
45
46 United States
47 (BUTTON)
48 (BUTTON)
49 Change location
50 Fair Mostly Clear
51 86°
52 67°
53 72°
是当前的气温和最高最低值,华氏温度值。
下面内容为详细信息:
141 Details
142
143 Fair
144 * Feels like
145 77°
146 * Humidity
147 85%
148 * Visibility
149 10.00 miles
150 * UV Index
151 0 (Low)
这都是需要的关于当前天气的所有信息。但这段输出中有个小问题。数字都是在标题下面一行的。只提取单独的数字有些困难。解决这一问题的关键是先写一个能查找数据标题的 sed 脚本。找到之后,就可以到正确的行中提取数据了。这个例子中所需要的数据就是那些文本行。只用
sed 脚本就能解决了。如果在同一行中还有其他文本,就需要使用 gawk 工具来过滤出我们需要的数据。创建一个 sed 脚本打印描述当前天气状况的文本(51,53)。输出芝加哥天气的脚本如下:
[devalone@devalone 25]$ cat sedcond.sed
51,53p
下一步,需要一段 sed 脚本来查找文本Feels Like,并打印出下一行的温度:[devalone@devalone 25]$ cat sedtemp.sed
145p
现在可以在 shell 脚本中用这两个 sed 脚本。首先将 Web 页面的 lynx 输出放入一个临时文件中,然后对 Web 页面数据使用这两个sed脚本,提取所需的
数据:[devalone@devalone 25]$ cat weather.sh
#!/bin/bash
# extract the current weather for Chicago, ILURL="http://weather.yahoo.com/united-states/illinois/chicago-2379574/"
LYNX=$(which lynx)
TMPFILE=$(mktemp tmpXXXXXX)$LYNX -dump $URL > $TMPFILE
addr=$(cat $TMPFILE | sed -n '44p')
conditions=$(cat $TMPFILE | sed -n -f sedcond.sed)temp=$(cat $TMPFILE | sed -n -f sedtemp.sed)
rm -f $TMPFILE
echo
echo "Address: $addr"
echo "Current conditions: "
echo "$conditions"
echo The current temp outside is: $temp
运行:
[devalone@devalone 25]$ sh weather.shAddress: Chicago
Current conditions:
76°
63°
63°
The current temp outside is: 63°
weather.sh 脚本连接到指定城市的Yahoo!天气页面,将 Web 页面保存到一个文件中,提取对应的文本,删除临时文件,然后显示天气信息。这么做的好处
在于,一旦从网站上提取到了数据,就可以随心所欲地处理它,比如创建一个温度表。可以创建一个每天运行的 cron 任务来跟踪当天的温度。lynx 是一个非常值得深入研究的工具,详细信息访问其官方主页:
http://lynx.invisible-island.net/lynx.html
NOTE:
-------------------------------------------------------------------------------------------------------------------------------------
互联网无时不刻不在发生变化。如果花费了几个小时找到了 Web 页面上数据的精确位置,而几个星期后却发现数据已经不在了,脚本也没法工作了,
不必感到惊讶。重要的是要知道从 Web 页面提取数据的过程。这样就可以将原理运用到任何情形中。
2.3 使用电子邮件
-----------------------------------------------------------------------------------------------------------------------------------------
可用来从 shell 脚本中发送电子邮件的主要工具是 Mailx 程序。不仅可以用它交互地读取和发送消息,还可以用命令行参数指定如何发送消息。
系统上的 mail 命令实际上是 mailx 的符号链接:[devalone@devalone 25]$ which mail
/usr/bin/mail
[devalone@devalone 25]$ ll /usr/bin/mail
lrwxrwxrwx. 1 root root 5 2月 4 2016 /usr/bin/mail -> mailx
Mailx 程序发送消息的命令行的格式为:mail [-eIinv] [-a header] [-b addr] [-c addr] [-s subj] to-addr
Mailx 命令行参数
+-------+-----------------------------------------------------------------------------
| 参 数 | 描 述
+-------+-----------------------------------------------------------------------------
| -a | 指定额外的SMTP头部行
+-------+-----------------------------------------------------------------------------
| -b | 给消息增加一个BCC:收件人
+-------+-----------------------------------------------------------------------------
| -c | 给消息增加一个CC:收件人
+-------+-----------------------------------------------------------------------------
| -e | 如果消息为空,不要发送消息
+-------+-----------------------------------------------------------------------------
| -i | 忽略TTY中断信号
+-------+-----------------------------------------------------------------------------
| -I | 强制Mailx以交互模式运行
+-------+-----------------------------------------------------------------------------
| -n | 不要读取/etc/mail.rc启动文件
+-------+-----------------------------------------------------------------------------
| -s | 指定一个主题行
+-------+-----------------------------------------------------------------------------
| -v | 在终端上显示投递细节
+-------+-----------------------------------------------------------------------------完全可以使用命令行参数来创建整个电子邮件消息。唯一需要添加的就是消息正文。
需要将文本重定向给 mail命令。下面这个简单的例子演示了如何直接在命令行上创建和发送电子邮件消息:
[devalone@devalone 25]$ echo "This is a test message" | mailx -s "Test message" devalone
Mailx 程序将来自 echo 命令的文本作为消息正文发送。这提供了一个从 shell 脚本发送消息的简单途径。
[devalone@devalone 25]$ cat factmail.sh
#!/bin/bash
# mailing the answer to a factorialMAIL=$(which mailx)
factorial=1
counter=1read -p "Enter the number: " value
while [ $counter -le $value ]
do
factorial=$[$factorial * $counter]
counter=$[$counter + 1]
doneecho The factorial of $value is $factorial | $MAIL -s "Factorial answer" $USER
echo "The result has been mailed to you."这段脚本不会假定 Mailx 程序位于标准位置。它使用 which 命令来确定 mail程序在哪里。
在计算出阶乘函数的结果后,shell 脚本使用 mail 命令将这个消息发送到用户自定义的 $USER 环境变量,这应该是运行这个脚本的人。
运行:
[devalone@devalone 25]$ ./factmail.sh
Enter the number: 5
The result has been mailed to you.在消息正文中只发送一行文本有时会不方便。通常,需要将整个输出作为电子邮件消息发送。这种情况总是可以将文本重定向到临时文件中,然后用 cat
命令将输出重定向给 mail程序。diskmail 程序用 date命令(采用了特殊格式)得到了当前日期,找到 Mailx程序的位置后创建了一个临时文件。接着用 df 命令显示了当前磁盘空间的
统计信息,并将输出重定向到了那个临时文件。然后使用第一个命令行参数作为目的地地址,使用当前日期作为邮件主题,将临时文件重定向到 mail命令。在运行这个脚本时,不会看到任何命令行输出。
[devalone@devalone 25]$ ./diskmail.sh devalone
可以通过 mail 命令查看当前用户的邮件,非本文关注内容,此处不做演示。
系列目录:
Linux shell 脚本编程-实战篇(一)
Linux shell 脚本编程-实战篇(二)
Linux shell 脚本编程-实战篇(三)
-----------------------------------------------------------------------------------------------------------------------------------------
参考:《Linux 命令行与 shell 脚本编程大全》 第 3 版 —— 2016.8(美)Richard Blum Cristine Bresnahan