estoy dando mis primeros pasos con expresiones regulares, y me surguio el siguiente problema:
necesito obtener las URL de una pagina web parseandola con PHP.
osea, suponiendo la siguiente pagina:
<body> <h1>Hola mundo, que lindo es el html</h1> <p>lista de paginas web</p> <ol> <li><a href="http://google.com">el infaltable google</a></li> <li><a href="http://www.psicofxp.com/forums/newthread.php?do=newthread&f=264">psicofxp</a></li> <li><a href="unapagina.html">una pagina en la misma web </a></li> </ol> </body>
http://google.com
http://www.psicofxp.com/forums/newth...read&f=264
unapagina.html
en un vector.
usando esta expresion (href="?.*")|(href='?.*') me saca:
href="http://google.com"
...
ok bastante cerca, pero le quiero sacar el href=" y el ", se que remplazando str_remplace va a funcar, pero como se va a usar bastante este script quiero que este lo mas optimizado posible... alguna idea???
che ademas mi expresion tiene algunos problemas... si alguien muy iluminado pone en el html HREF no lo voy a encontrar nunca... ni hablemos de HreF y demas....
si alguien ya paso por esto le pido que me ayude,
, prometo postear el resultado de mi monstruo (un buscadorsillo que te puede indexar las paginas dinamicas) si lo logro hacer
